Last Updated on február 28, 2024 11:39 de. by Laszlo Szabo / NowadAIs | Published on február 9, 2024 by Juhasz “the Mage” Gabor
Az Apple MGIE: Ideje, hogy elbocsássuk a Photoshopot? – Főbb megjegyzések
- Az MGIE az Apple és a Santa Barbara-i Kaliforniai Egyetem közös projektje.
- Képszerkesztést tesz lehetővé természetes nyelvi utasításokkal.
- Képes Photoshop-szerű módosításokra, fotóminőség-optimalizálásra és helyi szerkesztésre.
- Nyílt forráskódú elérhetőség a GitHubon a felhasználói felfedezés és hozzájárulás céljából.
- Lehetővé teszi a kreatív kifejezésmódot a személyes, szakmai és művészi törekvésekben.
Az MGIE születése
Az Apple Inc., az úttörő termékeiről és szolgáltatásairól ismert technológiai óriás ismét bizonyította rátermettségét a mesterséges intelligencia (AI ) területén egy képgeneráló AI-modell – MGIE, azaz Multimodal Guided Image Editing – bevezetésével.
Az MGIE az Apple és a Santa Barbara-i Kaliforniai Egyetem kutatói közötti együttműködés végterméke. A modellt egy kutatási dokumentumban mutatták be, amelyet a mesterséges intelligencia kutatásának egyik legfontosabb platformján, az International Conference on Learning Representations (ICLR) 2024-en fogadtak el.
A mesterséges intelligencia és a képszerkesztés fúziója
Az MGIE, egy korszerű mesterséges intelligenciamodell új perspektívát hoz a képszerkesztésbe azáltal, hogy lehetővé teszi a természetes nyelvi utasításokon alapuló szerkesztést. Ez a nyílt forráskódú AI-modell értelmezi a felhasználói parancsokat, és pixelszintű manipulációkat hajt végre.
Az MGIE-vel való munka a lehető legintuitívabb. A felhasználóknak csupán be kell írniuk a kívánt változtatásokat egyszerű angol nyelven.
A felhasználó például azt az utasítást adhatja, hogy “A fák legyenek magasabbak ezen a képen”, vagy “A ruha színét változtassuk kékre”
Az utasítások beadása után az MGIE fejlett nyelvi modellje megfejti a parancsokat, azonosítva a konkrét objektumokat, attribútumokat és módosításokat.
Ezzel párhuzamosan a modell elemzi a képet, azonosítva a kulcsfontosságú elemeket és azok kapcsolatait.
Az utolsó lépésben az MGIE kombinálja a nyelvi és a vizuális megértést, hogy a felhasználó parancsainak megfelelően intelligensen manipulálja a képet.
Az MGIE változatos képességei: Photoshop-stílusú módosítások
Az MGIE képességei nem korlátozódnak a puszta színbeállításokra vagy egyszerű módosításokra. A modell a szerkesztési forgatókönyvek széles skáláját képes kezelni, a Photoshop-stílusú módosítástól a globális fotóoptimalizáláson át a helyi szerkesztésig.
Az MGIE képes az olyan gyakori Photoshop-stílusú szerkesztésekre, mint a képkivágás, méretváltoztatás, forgatás, átfordítás és szűrők hozzáadása. Olyan fejlettebb szerkesztéseket is képes végrehajtani, mint a háttér megváltoztatása, objektumok hozzáadása vagy eltávolítása, valamint a képek összemosása.
A modell képes optimalizálni a fényképek általános minőségét. Ez magában foglalja a fényerő, a kontraszt, az élesség és a színegyensúly beállításait. Emellett olyan művészi effektek alkalmazására is képes, mint a vázlatkészítés, festés és rajzolás.
Az MGIE helyi szerkesztési funkciója lehetővé teszi, hogy a képen lévő konkrét régiókat vagy objektumokat módosítsa. Például módosíthatja az arcok, a szemek, a haj, a ruhák és a kiegészítők attribútumait, például az alakot, a méretet, a színt, a textúrát és a stílust.
Az MGIE használata: felhasználóbarát élmény
Az MGIE nyílt forráskódú projektként elérhető a GitHubon, ez lehetővé teszi a felhasználók számára, hogy közvetlenül felfedezzék és hozzájáruljanak a projekthez.
A projekt teljes hozzáférést biztosít a forráskódjához, a képzési adatokhoz és az előre betanított modellekhez. A GitHubon elérhető egy demo notebook is, amely végigvezeti a felhasználókat az MGIE segítségével végzett különböző szerkesztési feladatokon.
Emellett a felhasználók kísérletezhetnek az MGIE-vel egy webes demón keresztül, amelyet a Hugging Face Spaces-en, a gépi tanulási projektek megosztására és együttműködésére szolgáló online platformon tartanak.
Miért fontos az MGIE
Az MGIE segíthet a felhasználóknak képek létrehozásában, módosításában és optimalizálásában személyes vagy szakmai célokra, például a közösségi médiában, az e-kereskedelemben, az oktatásban, a szórakoztatásban és a művészetben. Ez a mesterséges intelligenciamodell lehetővé teszi a felhasználók számára, hogy képeken keresztül fejezzék ki ötleteiket és érzelmeiket, és inspirálja őket kreativitásuk felfedezésére.
Gyakran ismételt kérdések
- Mi az MGIE és ki fejlesztette ki?
- Az MGIE egy mesterséges intelligenciával működő képszerkesztő modell, amelyet az Apple a Santa Barbara-i Kaliforniai Egyetemmel együttműködve fejlesztett ki.
- Hogyan érti meg az MGIE a felhasználói utasításokat?
- Az MGIE értelmezi a képszerkesztésre vonatkozó természetes nyelvi utasításokat, és egy fejlett nyelvi modell segítségével megfejti a felhasználói parancsokat a pontos vizuális manipulációkhoz.
- Az MGIE képes összetett képszerkesztést végezni?
- Igen, az MGIE az olyan alapvető módosítások mellett, mint a képkivágás és a méretváltoztatás, képes összetett szerkesztésekre is, mint a háttér megváltoztatása, objektumok hozzáadása vagy eltávolítása, valamint művészi effektek alkalmazása.
- Az MGIE általános használatra is elérhető?
- Az MGIE nyílt forráskódú és elérhető a GitHubon, lehetővé téve a felhasználók számára, hogy felfedezzék, használják és hozzájáruljanak a projekthez, a gyakorlati tapasztalatszerzéshez pedig egy demó is rendelkezésre áll.
- Mi teszi az MGIE-t jelentőssé a képszerkesztés szempontjából?
- Az MGIE nagyszerű eredményeket képvisel a képszerkesztésben azáltal, hogy a mesterséges intelligenciát intuitív nyelvi parancsokkal kombinálja, lehetővé téve a felhasználók számára a részletes szerkesztést és a kreativitás képeken keresztüli kifejezését.