Last Updated on október 4, 2024 11:52 de. by Laszlo Szabo / NowadAIs | Published on október 4, 2024 by Laszlo Szabo / NowadAIs
Az Nvidia ledobja az NVLM-D-72B AI-bombát: 72 milliárd ok, amiért az OpenAI-nak félnie kell – Fő pontok
- Az Nvidia nyílt forráskódú AI-modellként kiadta az NVLM-D-72B-t, így a fejlett AI-technológia világszerte szabadon elérhetővé vált a fejlesztők számára
- A modell 72 milliárd paramétert tartalmaz, és számos saját fejlesztésű modellt felülmúl a látás-nyelvi és a csak szöveges feladatokban egyaránt
- Bár a modell ingyenesen használható, jelentős számítási erőforrásokat igényel, ami potenciálisan korlátozza azonnali hozzáférhetőségét
A mesterséges intelligencia fegyverkezési verseny most vadabb lett
Az Nvidia egy olyan lépéssel, amely a Szilícium-völgy elefántcsonttornyait is megrázta, épp most robbant be a mesterséges intelligencia bulijába, méghozzá olyan finoman, mint egy bika a porcelánboltban. A technológiai nehézsúlyú vállalat bemutatta az NVLM-D-72B-t, egy olyan mesterséges intelligencia-modellt, amely nem csak az iparág legnagyobb szereplőivel vetekszik, hanem meg is veri őket a saját játékukban. És most jön a csavar: ingyen adják.
Jól olvasta. Míg az olyan cégek, mint az OpenAI és az Anthropic Fort Knoxnál is jobban elzárva tartják az AI-modelljeiket, addig az Nvidia gyakorlatilag egy “vegyék el a kódunkat, kérem!” partit rendez. Ez olyan, mintha farmerben és pólóban jelenne meg egy elegáns vacsorán – és valahogy mégis jól érezné magát.
Meet the Beast: 72 milliárd ok a figyelemre
Beszéljünk a számokról, mert ebben az esetben a méret határozottan számít. Az NVLM-D-72B 72 milliárd paramétert tartalmaz – ez olyan, mintha 72 milliárd apró agysejt dolgozna együtt. A technológia iránt érdeklődők, de a szakzsargontól ódzkodók számára képzeljék el, hogy ezer sakknagymester összesített agyerejét zsúfolják egyetlen rendszerbe, majd megtanítják nem csak sakkozni, hanem verseket írni, fényképeket elemezni és összetett matematikai problémákat megoldani is.
Ez nem csak egy újabb mesterséges intelligenciamodell, amely csatlakozik a bulihoz – ez a kapunyitogató, aki jobb lépésekkel jelenik meg, mint mindenki más. Az NVLM-D-72B tesztről tesztre haladva nem csak lépést tart az iparág nagyágyúival, hanem le is hagyja őket. Olyan pontszámokról beszélünk, amelyek bármelyik technológiai vezérigazgatót arra késztetnék, hogy kiöntse a kombucháját.
A titkos szósz: Minden a dizájnban rejlik
Emlékszel arra a gyerekre az iskolában, aki úgy tűnt, hogy mindenben kiemelkedik, anélkül, hogy megizzadna? Ő az NVLM-D-72B az AI világában. Az Nvidia mérnökei nem egyszerűen csak egy újabb mesterséges intelligenciát építettek – az alapoktól kezdve újragondolták, hogyan kell ezeknek a rendszereknek működniük.
A varázslat abban rejlik, amit ők “1-D tile-tagging design”-nak neveznek a képek kezelésére. Ha ez technikai fecsegésnek hangzik, gondoljon rá így: míg más mesterséges intelligencia rendszerek úgy nézik a képeket, ahogy mi, emberek tesszük – egyszerre -, az NVLM-D-72B apró darabokra bontja őket, mintha egy kirakós játékot egyenként oldanának meg. Ez lassabban hangzik, de valahogy jobban működik, mint bármi más.
A számok nem hazudnak
Térjünk rá a lényegre, mert ennek a dolognak a pontszámai egészen elképesztőek. A látás-nyelvi feladatokban (gondoljunk csak arra, hogy képeket nézünk és megértjük, mi van rajtuk) az NVLM-D-72B olyan számokat produkál, hogy egy statisztikusnak is elgyengülne a térde:
– 59,7 az MMMU-n (gondoljunk erre úgy, mint a mesterséges intelligencia SAT-jára)
– 65,2 a MathVistán (matematikai feladatok megoldása képekből)
– Az OCRBench-en (szövegek képekről történő olvasása) 853-as eredményt ért el
De itt válik igazán érdekessé: ez a mesterséges intelligencia nem csak a képek és a szöveg együttes kezelésében jó, hanem a csak szöveges feladatokban is jobb, mint a kifejezetten erre a célra tervezett modellek. Ez olyan, mintha kiderülne, hogy a sztár irányító egyben az iskola legjobb sakkozója is.
Miért nagy dolog ez (nagyon nagy)?
Itt kezd pikáns lenni a dolog. Az NVLM-D-72B nyílt forráskódúvá tételével az Nvidia átadta a királyság kulcsát… nos, mindenkinek. Olyan, mintha a Coca-Cola titkos receptjét feltették volna az internetre.
A technológiai óriások számára, akik birodalmukat a saját AI-modellekre építették, ez olyan, mintha valaki ingyen limonádéstandot állítana fel a prémium gyümölcslé bárjuk előtt. Persze, a gyümölcslé lehet, hogy bio és hidegen sajtolt, de az ingyenesség az ingyenesség.
A Dávid és Góliát effektus
Ez a lépés óriási lehetőség a kisemberek számára a technológiában. Gondoljatok bele: eddig, ha versenyezni akartatok a mesterséges intelligencia területén, akkor mély zsebekre volt szükségetek – milliárdos nagyságrendről beszélünk. És most? Bárki, aki elég technikai tudással rendelkezik, foghatja az NVLM-D-72B-t, és építhet belőle valami elképesztő dolgot.
Olyan, mintha az Nvidia minden technológiai Davidet felfegyverzett volna egy nagy teljesítményű csúzlival. A Szilícium-völgy Góliátjainak még mindig megvannak az előnyeik, de a játéktér most sokkal kiegyenlítettebbé vált.
A csapda (mert mindig van csapda)
Mielőtt elkezdenéd tervezgetni AI startup birodalmadat, egy apró részletet érdemes megemlíteni: ennek a fenevadnak a futtatása komoly hardvert igényel. Olyan, mintha egy Forma-1-es autó kulcsait adnák a kezedbe – félelmetes, de sok szerencsét ahhoz, hogy találj valahol egy helyet, ahol vezetheted.
Az NVLM-D-72B teljes kapacitású futtatásához szükséges számítási teljesítmény nem egy átlagos laptopban található. Olyan hardverösszeállításról beszélünk, amelynek költségei miatt még a tapasztalt műszaki szakemberek is fütyülni fognak.
## Az etikai kérdés
Beszéljünk az elefántról a szobában: a nagy hatalom nagy felelősséggel jár, és az NVLM-D-72B több energiát rejt magában, mint egy atomerőmű. A visszaélések lehetősége – gondoljunk csak a deepfakesre, a félretájékoztatási kampányokra vagy az automatizált spamre szteroidokon – elég ahhoz, hogy az etikaprofesszorok éjjelente ne aludjanak.
Az Nvidia természetesen tisztában van ezzel. Létrehoztak néhány védőkorlátot, és a modell használatát kutatási célokra korlátozták. De legyünk őszinték: ha egyszer valami kikerül a szabadba, a felhasználás ellenőrzése olyan egyszerűvé válik, mint a macskák terelése.
Mit jelent ez a jövőre nézve
Itt válik igazán érdekessé a dolog. Az Nvidia lépése dominóhatást válthat ki az AI-iparban. Ha a technológia egyik legnagyobb szereplője úgy dönt, hogy nyílt forráskódúvá tesz egy ilyen nagy teljesítményű eszközt, az nyomást gyakorol mindenki másra, hogy kövesse a példáját.
Lehet, hogy az AI reneszánszának kezdetét látjuk, ahol az innováció nem a vállalati ajtók mögé zárva, hanem a szabadban történik, és a kutatók és fejlesztők világszerte egymás munkájára építenek.
Az iparág válasza
A többi technológiai óriáscég reakciója sokatmondó volt. Képzeljünk el egy középiskolai menzát, ahol a menő gyerekek asztalánál hirtelen rájönnek, hogy bárki leülhet oda. Rengeteg óvatosan megfogalmazott nyilatkozat hangzott el “érdekes fejleményekről” és “szoros figyelemmel kísérik a területet”, de a sorok között olvasva egyértelmű: izzadnak.
És ez így is van rendjén. Az NVLM-D-72B nem csak a saját fejlesztésű modelljeiknek felel meg, hanem több kulcsfontosságú területen meg is előzi őket. Olyan ez, mintha egy ingyenesen játszható játék vezetné a slágerlistákat, miközben a prémium játékok porosodnak.
Mi a következő lépés?
A szellem kiszabadult a palackból, és már nincs visszaút. Az elkövetkező hónapokban valószínűleg az NVLM-D-72B-re épülő alkalmazások és innovációk robbanásszerű fejlődését fogjuk látni. Néhányuk úttörő lesz, néhányuk borzalmas, a legtöbbjük pedig valahol a kettő között lesz.
De az igazi történet itt nem csak egy mesterséges intelligencia modellről szól – hanem arról, hogy mi történik, ha valami korábban exkluzívnak számító dolgot mindenki számára elérhetővé teszünk. Olyan technológia demokratizálásáról van szó, amely az egészségügytől az oktatásig minden terület jövőjét meghatározhatja.
Üdvözöljük az emberek mesterséges intelligencia forradalmában. Az Nvidia most adta le az első lövést, és a visszhangja még évekig hallható lesz.
Leírások
- Paraméterek: A tudás alapvető egységei egy mesterséges intelligencia modellben, hasonlóan az agy neuronjaihoz. A több paraméter általában azt jelenti, hogy a modell összetettebb feladatokat tud kezelni.
- Nyílt forráskódú: Olyan szoftver, amely szabadon hozzáférhető, bárki számára használható, módosítható és terjeszthető. Gondoljon rá úgy, mint egy nyilvános receptre, amelyet bárki elkészíthet és módosíthat.
- Látás-nyelvi feladatok: Olyan mesterséges intelligencia feladatok, amelyek a képek és a szöveg együttes megértését foglalják magukban, például annak leírása, hogy mi van egy fényképen, vagy egy képpel kapcsolatos kérdések megválaszolása.
- MMMU (Multimodális gépi megértés): A mesterséges intelligenciamodellek szabványosított tesztje, amely azt méri, hogy mennyire jól értik és dolgozzák fel együtt a különböző típusú információkat.
- OCRBench: Olyan teszt, amely azt méri, hogy a mesterséges intelligencia mennyire pontosan tudja olvasni és megérteni a szöveget képekről, például dokumentumok szkennelésével vagy utcatáblák olvasásával.
- MathVista: Olyan teszt, amely azt értékeli, hogy a mesterséges intelligencia mennyire jól képes megoldani a vizuális formában, például grafikonokon vagy diagramokon bemutatott matematikai problémákat.
- 1-D csempejelöléses tervezés: Az Nvidia módszere a képek feldolgozására úgy, hogy kisebb darabokra bontja őket, mintha egy kirakóst egyszerre egy darabonként oldanánk meg, ahelyett, hogy egyszerre néznénk meg az egész képet.
- Számítási teljesítmény: A mesterséges intelligencia modellek futtatásához szükséges feldolgozási képesség, amelyet általában speciális hardverigényben mérnek.
Gyakran ismételt kérdések
- K: Miben különbözik az Nvidia NVLM-D-72B a többi AI modelltől? V: A legtöbb fejlett mesterséges intelligencia modellel ellentétben, amelyeket titokban tartanak, az NVLM-D-72B nyílt forráskódú és bárki számára szabadon használható. A képfeldolgozáshoz egy egyedi megközelítést, az úgynevezett 1-D tile-tagginget alkalmazza, amelynek köszönhetően számos saját fejlesztésű modellt felülmúl, mind a vizuális, mind a szöveges feladatokban.
- K: Futtathatja bárki az Nvidia NVLM-D-72B-t a saját számítógépén? V: Az NVLM-D-72B futtatásához speciális, jelentős számítási teljesítményű hardverre van szükség. Bár a modell ingyenes, a hatékony futtatásához szükséges hardver meglehetősen drága lehet, ezért inkább a megfelelő számítási erőforrásokhoz hozzáférő szervezetek számára ajánlott.
- K: Melyek az Nvidia NVLM-D-72B fő alkalmazási területei? V: Az NVLM-D-72B a feladatok széles skáláját képes kezelni, a képek elemzésétől és a matematikai feladatok megoldásától kezdve a szöveg képekről történő kiolvasásáig és az összetett vizuális-szöveg kapcsolatok megértéséig. Nyílt forráskódú jellege azt jelenti, hogy a fejlesztők olyan területeken, mint az egészségügy, az oktatás és a kutatás, egyedi felhasználási célokra adaptálhatják.
- K: Hogyan viszonyul az Nvidia NVLM-D-72B más vezető AI modellekhez? V: Az NVLM-D-72B számos saját fejlesztésű modell teljesítménye megegyezik vagy meghaladja azt mind a látás-nyelvi, mind a csak szöveges feladatokban. Benchmark-eredményei, különösen az olyan területeken, mint az OCRBench és a MathVista, azt mutatják, hogy hatékonyan versenyez az iparág vezetőivel.
- K: Milyen biztosítékokkal rendelkezik az Nvidia NVLM-D-72B a visszaélések ellen? V: Az Nvidia kizárólag kutatási célú korlátozásokat vezetett be az NVLM-D-72B használatára vonatkozóan, és különböző biztonsági intézkedéseket vezetett be. Azonban, mint minden nyílt forráskódú technológia esetében, a felhasználás ellenőrzése a kiadást követően is jelentős kihívásokat jelent.