Mastodon
Zdjęcie okładkowe wpisu Apple MGIE – edycja zdjęć głosem, nie chodzi o Siri

Apple MGIE – edycja zdjęć głosem, nie chodzi o Siri

0
Dodane: 3 miesiące temu

Praktycznie cały świat technologiczny dziś ściga się w opracowywaniu kolejnych innowacyjnych modeli sztucznej inteligencji. Na tle np. OpenAI, Microsoftu czy Google, działania Apple wydają się wręcz marazmem. Niezupełnie. Oto dowód.

MGIE

Jak informuje serwis VentureBeat, Apple pracuje nad wielomodalnym modelem AI specjalizowanym do edycji zdjęć, ale w sposób zupełnie odmienny od tego, do czego was przyzwyczaiło wieloletnie używanie narzędzi typu Photoshop itp.

Apple udostępniło nowy model MGIE, który to skrót rozwija się w Multimodal Large Language Model Guided Image Editing. Innymi słowy AI opracowana przez Apple wykorzystuje otwartoźródłowy model MLLM (wielomodalny duży model językowy; z tego co się zdołałem zorientować, Apple użyło modelu LLaMa opracowanego przez Meta) do tego, by użytkownik mógł edytować obrazy za pomocą wydawanych po prostu poleceń głosowych.

MGIE

Ponieważ elementem MGIE jest otwartoźródłowy model MLLM, również i cały MGIE jest otwartym kodem. Całość jest efektem współpracy specjalistów z Apple z badaczami z Uniwersytetu Kalifornijskiego w Santa Barbara (nie mylić z inną słynną uczelnią w Berkeley). Praca naukowa dotycząca tego projektu znajduje się w zasobach Arxiv.org.

Jak wygląda „edycja” obrazu za pomocą modelu MGIE? Cóż, nie jest to skomplikowane. Mówisz „zrób bardziej błękitne niebo”, a MGIE generuje instrukcję typu „zwiększ nasycenie obszaru nieba o 20%”. Zakres scenariuszy, który ma być obsługiwany przez MGIE jest podobno bardzo szeroki, dotyczy nie tylko prostych działań edycyjnych takich jak np. kadrowanie, zmiana nasycenia, itp, ale również bardziej zaawansowanych manipulacji na poziomie pojedynczych pikseli obrazu, modyfikacje obiektów na zdjęciach, zmiany filtrów, zmiana tła, usuwanie i dodawanie obiektów, mieszanie obrazów, stosowanie efektów artystycznych takich jak szkic, czy określone style malarskie.

MGIE

Co jeszcze ciekawsze, MGIE można wykorzystywać zarówno do edycji pojedynczych zdjęć w stylu, w jakim dotychczas wykorzystywaliśmy do tego klasyczne narzędzia takie jak Photoshop, ale również do edycji globalnych, inteligentnego przetwarzania wielu obrazów. Model nadaje się również do bardziej precyzyjnych, selektywnych edycji wybranych fragmentów zdjęć, konkretnych obiektów (np. „zmień kolor oczu na zielony” itp.). Możliwa ma być również zmiana atrybutów konkretnych obiektów w szerokim zakresie (kolor, kształt, faktura, styl, etc.).

Jeżeli macie odpowiednie kompetencje techniczne, możecie sami wypróbować MGIE. Jak wspomniałem, to kod open source, MGIE jest oficjalnie dostępny w serwisie GitHub.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .