Chiar dacă aşteptam abia la WWDC 2024, în iunie primele produse cu AI de la Apple, iată că firma din Cupertino ni le oferă ceva mai devreme. Gigantul american a lansat pe 6 februarie un model AI revoluţionar numit "MGIE", care permite editarea de imagini prin instrucţiuni.
Avem de-a face cu un model open source AI, care poate edita imagini primind instrucţiuni cu limbaj natural. MGIE este un acronim pentru "MLLM-Guided Image Editing" şi floseste câteva LLM-uri (Large Language Models) multi modale pentru a interpreta comenzile utilizatorilor şi a realiza manipulări la nivel de pixel. Modelul se poate ocupa de diferite aspecte de editare, precum modificări în stil Photoshop, optimizare foto globală şi editare locală.
MGIE a fost co-creat alături de cercetători de la Universitatea din California.
Cum funcţionează?
Tu îi dai comenzi vocale şi el face editare grafică. Spre exemplu poţi spune "creşte saturarea cerului cu 20%" şi fix asta se va întâmpla. Apoi pot fi generate şi imagini de la zero, pornind de la comenzi sub formă de cuvinte sau propoziţii. MGIE poate face ajustări de culoare, dar şi manipulări complexe de obiecte. Poate face şi editări globale şi locale, în funcţie de preferinţe.
Suportă crop, resize, rotire, inversare, filtre, schimbare de fundal, adăugare sau înlăturare de obiecte, blending, schimbare de contrast, sharpness şi balans de culoare. Poate aplica şi efecte artistice precum Sketching, Painting sau Cartooning. Poate schimba chiar şi forma părului sau hainelor şi stilul lor.
Găsiţi MGIE ca proiect open source pe Github.