Nvidia NVLM-D-72B AI: 72 Billion Reasons OpenAI Scared

Last Updated on octubre 4, 2024 11:43 am by Laszlo Szabo / NowadAIs | Published on octubre 4, 2024 by Laszlo Szabo / NowadAIs

Nvidia lanza la bomba de la IA NVLM-D-72B: 72.000 millones de razones por las que OpenAI debería asustarse – Notas clave

Nvidia lanza NVLM-D-72B como modelo de IA de código abierto, poniendo la tecnología de IA avanzada a disposición de desarrolladores de todo el mundo
El modelo contiene 72.000 millones de parámetros y supera a muchos modelos patentados tanto en tareas de lenguaje de visión como de sólo texto
Aunque su uso es gratuito, el modelo requiere importantes recursos informáticos, lo que puede limitar su accesibilidad inmediata

La carrera armamentística de la inteligencia artificial se vuelve salvaje

Nvidia acaba de colarse en la fiesta de la inteligencia artificial con toda la sutileza de un toro en una cacharrería, en un movimiento que ha conmocionado las torres de marfil de Silicon Valley. El peso pesado de la tecnología ha presentado NVLM-D-72B, un monstruoso modelo de IA que no solo está a la altura de los grandes del sector, sino que les está ganando en su propio juego. Y lo mejor es que lo regalan.

Ha leído bien. Mientras que empresas como OpenAI y Anthropic mantienen sus modelos de inteligencia artificial más protegidos que Fort Knox, Nvidia está organizando una fiesta en la que dice “llévate nuestro código, por favor”. Es como presentarse a una cena de etiqueta en vaqueros y camiseta, y salir airoso.

Conoce a la bestia: 72.000 millones de razones para prestar atención

Hablemos de números, porque en este caso el tamaño sí que importa. NVLM-D-72B contiene la friolera de 72.000 millones de parámetros, que es como tener 72.000 millones de diminutas células cerebrales trabajando juntas. Para los curiosos de la tecnología pero reacios a la jerga, imagínese meter en un solo sistema la capacidad cerebral combinada de mil grandes maestros de ajedrez y enseñarle no sólo a jugar al ajedrez, sino también a escribir poesía, analizar fotos y resolver complejos problemas matemáticos.

Stay on Top with AI News!

Follow our Google News page!

No se trata de otro modelo de inteligencia artificial que se une a la fiesta, sino del que se presenta con mejores jugadas que los demás. Prueba tras prueba, NVLM-D-72B no sólo sigue el ritmo de los pesos pesados del sector, sino que los deja por los suelos. Estamos hablando de puntuaciones que harían derramar su kombucha a cualquier director ejecutivo de tecnología.

La salsa secreta: Todo está en el diseño

¿Recuerdas a ese niño del colegio que parecía destacar en todo sin sudar la gota gorda? Eso es NVLM-D-72B en el mundo de la IA. Los ingenieros de Nvidia no se limitaron a construir otra IA, sino que reimaginaron el funcionamiento de estos sistemas desde cero.

Need ROI on Social Media? Create content with AI!
Join 100,000+ businesses in 180+ countries using Ocoya!

La magia reside en lo que denominan un “diseño de etiquetado de mosaico 1-D” para el manejo de imágenes. Si esto suena a palabrería técnica, piénsalo de esta manera: mientras otros sistemas de IA miran las imágenes como lo hacemos los humanos, de una sola vez, NVLM-D-72B las divide en pequeñas piezas, como si resolviéramos un rompecabezas de una en una. Parece más lento, pero de algún modo funciona mejor que cualquier otra cosa.

Los números no mienten

Benchmarks of Nvidia's NVLM-D-72B <a href=

Vayamos al grano, porque la puntuación de esta cosa es absolutamente increíble. En tareas de lenguaje de visión (por ejemplo, ver imágenes y comprender lo que contienen), la NVLM-D-72B arroja cifras que harían que a un estadístico le flaquearan las rodillas:

– 59,7 en MMMU (considéralo como el examen SAT de inteligencia artificial)
– 65,2 en MathVista (resolución de problemas matemáticos a partir de imágenes)
– 853 en OCRBench (lectura de texto a partir de imágenes)

Pero aquí es donde se pone realmente interesante: esta IA no sólo es buena en el manejo conjunto de imágenes y texto, sino que es mejor en tareas de sólo texto que los modelos diseñados específicamente para ese fin. Es como descubrir que tu quarterback estrella es también el mejor jugador de ajedrez de la escuela.

Por qué es importante (muy importante)

Aquí es donde las cosas se ponen picantes. Al hacer que NVLM-D-72B sea de código abierto, Nvidia acaba de entregar las llaves del reino a… bueno, a todo el mundo. Es como si hubieran tomado la receta secreta de la Coca-Cola y la hubieran colgado en Internet.

Para los gigantes tecnológicos que han construido sus imperios sobre modelos de IA patentados, esto equivale a ver cómo alguien monta un puesto de limonada gratis justo al lado de su bar de zumos premium. Claro, tu zumo puede ser orgánico y prensado en frío, pero lo gratis es gratis.

El efecto David y Goliat

Este movimiento es una gran opción para los pequeños de la tecnología. Piénsalo: hasta ahora, si querías competir en el espacio de la inteligencia artificial, necesitabas mucho dinero, miles de millones. ¿Y ahora? Cualquiera con suficientes conocimientos técnicos puede tomar NVLM-D-72B y construir algo asombroso con él.

Need ROI on Social Media? Create content with AI!
Join 100,000+ businesses in 180+ countries using Ocoya!

Es como si Nvidia hubiera armado a todos los David de la tecnología con un potente tirachinas. Puede que los Goliats de Silicon Valley sigan teniendo sus ventajas, pero el campo de juego se ha nivelado mucho más.

El truco (porque siempre hay un truco)

Sample usage of Nvidia NVLM-D-72B recognizing Jansen Huang <a href=

Antes de que empieces a planear tu imperio de startups de IA, hay un pequeño detalle que merece la pena mencionar: ejecutar esta bestia requiere algo de hardware serio. Es como si te dieran las llaves de un coche de Fórmula 1: increíble, pero buena suerte encontrando dónde conducirlo.

La potencia de cálculo necesaria para ejecutar NVLM-D-72B a pleno rendimiento no es algo que se pueda encontrar en un portátil normal. Hablamos de configuraciones de hardware que harían chirriar a los profesionales de la tecnología por lo que cuestan.

## La cuestión ética

Hablemos del elefante en la habitación: un gran poder conlleva una gran responsabilidad, y NVLM-D-72B tiene más potencia que una central nuclear. El potencial de uso indebido -pensemos en deepfakes, campañas de desinformación o spam automatizado con esteroides- es suficiente para mantener en vela a los profesores de ética.

Nvidia es consciente de ello, por supuesto. Han puesto algunos límites, restringiendo el uso del modelo a fines de investigación. Pero seamos realistas: una vez que algo sale a la luz, controlar cómo se utiliza es tan fácil como arrear gatos.

Lo que esto significa para el futuro

Aquí es donde las cosas se ponen realmente interesantes. El movimiento de Nvidia podría desencadenar un efecto dominó en la industria de la IA. Cuando uno de los mayores actores de la tecnología decide apostar por el código abierto con algo tan potente, presiona a todos los demás para que sigan su ejemplo.

Podríamos estar ante el comienzo de un renacimiento de la IA, en el que la innovación no se encierre tras las puertas de las empresas, sino que se produzca al aire libre, con investigadores y desarrolladores de todo el mundo basándose en el trabajo de los demás.

La respuesta de la industria

La respuesta de otros gigantes tecnológicos ha sido elocuente. Imagínese la cafetería de un instituto en la que, de repente, cualquiera puede sentarse en la mesa de los chicos guays. Ha habido un montón de declaraciones cuidadosamente redactadas sobre “desarrollos interesantes” y “observar el espacio de cerca”, pero leyendo entre líneas, está claro: están sudando.

Y deberían estarlo. NVLM-D-72B no sólo iguala sus modelos patentados, sino que los supera en varios aspectos clave. Es como ver un juego free-to-play en lo más alto de las listas mientras los juegos premium acumulan polvo.

¿Y ahora qué?

El genio ha salido de la botella y ya no hay vuelta atrás. Es probable que en los próximos meses veamos una explosión de aplicaciones e innovaciones basadas en NVLM-D-72B. Algunas serán revolucionarias, otras terribles y la mayoría se situarán en algún punto intermedio.

Pero la verdadera historia no es la de un único modelo de inteligencia artificial, sino la de lo que ocurre cuando se toma algo que antes era exclusivo y se pone a disposición de todo el mundo. Se trata de democratizar una tecnología que podría dar forma al futuro de todo, desde la sanidad hasta la educación.

Bienvenidos a la revolución popular de la IA. Nvidia acaba de disparar el primer tiro, y el eco se oirá durante años.

Descripciones

Parámetros: Las unidades básicas de conocimiento en un modelo de IA, similares a las neuronas en un cerebro. Un mayor número de parámetros suele significar que el modelo puede realizar tareas más complejas.
Código abierto: Software disponible gratuitamente para que cualquiera pueda utilizarlo, modificarlo y distribuirlo. Es como una receta pública con la que cualquiera puede cocinar y modificar.
Tareas de visión y lenguaje: Tareas de IA que implican la comprensión conjunta de imágenes y texto, como describir lo que hay en una foto o responder a preguntas sobre una imagen.
MMMU (Multimodal Machine Understanding): Una prueba estandarizada para modelos de IA que mide lo bien que comprenden y procesan conjuntamente distintos tipos de información.
OCRBench: Una prueba que mide la precisión con la que la IA puede leer y comprender texto a partir de imágenes, como el escaneado de documentos o la lectura de señales de tráfico.
MathVista: Una prueba que evalúa lo bien que la IA puede resolver problemas matemáticos presentados de forma visual, como gráficos o diagramas.
diseño de etiquetado de azulejos 1-D: Método de Nvidia para procesar imágenes dividiéndolas en piezas más pequeñas, como si se resolviera un puzle pieza a pieza en lugar de ver toda la imagen a la vez.
Potencia de cálculo: capacidad de procesamiento necesaria para ejecutar modelos de IA, que suele medirse en términos de requisitos de hardware especializado.

Preguntas más frecuentes

P: ¿Qué diferencia a Nvidia NVLM-D-72B de otros modelos de IA? R: A diferencia de la mayoría de los modelos de IA avanzados que se mantienen en privado, NVLM-D-72B es de código abierto y de uso gratuito para cualquiera. Además, utiliza un enfoque único para procesar imágenes llamado 1-D tile-tagging, que le ayuda a superar a muchos modelos patentados tanto en tareas visuales como de texto.
P: ¿Puede cualquiera ejecutar Nvidia NVLM-D-72B en su ordenador personal? R: Para ejecutar NVLM-D-72B se necesita un hardware especializado con una potencia de cálculo considerable. Aunque el modelo es gratuito, el hardware necesario para ejecutarlo con eficacia puede ser bastante caro, por lo que es más adecuado para organizaciones con acceso a recursos informáticos adecuados.
P: ¿Cuáles son las principales aplicaciones de Nvidia NVLM-D-72B? R: NVLM-D-72B puede manejar una amplia gama de tareas, desde el análisis de imágenes y la resolución de problemas matemáticos hasta la lectura de texto a partir de imágenes y la comprensión de complejas relaciones visuales-texto. Su naturaleza de código abierto permite a los desarrolladores adaptarla para usos específicos en campos como la sanidad, la educación y la investigación.
P: ¿Cómo se compara Nvidia NVLM-D-72B con otros modelos líderes de IA? R: NVLM-D-72B iguala o supera el rendimiento de muchos modelos patentados tanto en tareas de lenguaje visual como de sólo texto. Sus puntuaciones en pruebas comparativas, especialmente en áreas como OCRBench y MathVista, demuestran que compite eficazmente con los líderes del sector.
P: ¿Qué protecciones tiene Nvidia NVLM-D-72B contra el uso indebido? R: Nvidia ha implementado restricciones de uso exclusivo para investigación en NVLM-D-72B y ha incluido varias medidas de seguridad. Sin embargo, como ocurre con cualquier tecnología de código abierto, el control de su uso tras su lanzamiento presenta importantes retos.

Tabla de contenidos

Nvidia lanza la bomba de la IA NVLM-D-72B: 72.000 millones de razones por las que OpenAI debería asustarse

Nvidia lanza la bomba de la IA NVLM-D-72B: 72.000 millones de razones por las que OpenAI debería asustarse – Notas clave

La carrera armamentística de la inteligencia artificial se vuelve salvaje

Conoce a la bestia: 72.000 millones de razones para prestar atención

Stay on Top with AI News!

Los números no mienten

Por qué es importante (muy importante)

El efecto David y Goliat

El truco (porque siempre hay un truco)

Lo que esto significa para el futuro

La respuesta de la industria

¿Y ahora qué?

Descripciones

Preguntas más frecuentes

Related Posts

Lo último en tecnología AI Text-to-Video: Explicación de Step-Video-T2V

estudio de juegos de xAI: La búsqueda de Elon Musk para “hacer que los juegos vuelvan a ser grandes”

Corea del Sur prohíbe Deepseek: Lo que hay que saber

Laszlo Szabo / NowadAIs

Recent Posts

Categories

Follow us on Facebook!

El Pixel Playground de 35 millones de dólares: Pika 1.5 lleva la magia del cine a las masas

Luces, cámara, acción con IA Meta Movie Gen podría convertir a todo el mundo en director de Hollywood

Latest from Blog

Lo último en tecnología AI Text-to-Video: Explicación de Step-Video-T2V

estudio de juegos de xAI: La búsqueda de Elon Musk para “hacer que los juegos vuelvan a ser grandes”

Corea del Sur prohíbe Deepseek: Lo que hay que saber

Eric Schmidt: el uso indebido de la IA supone un riesgo extremo

Cyberpunk Futuro Carga: Brazo robótico Neuralink controlado por un chip cerebral