Last Updated on febrero 1, 2024 2:40 pm by Laszlo Szabo / NowadAIs | Published on febrero 1, 2024 by Laszlo Szabo / NowadAIs
10 millones de dólares en subvenciones: Superalignment Fast Grants Program de OpenAI – Notas clave:
- iniciativa de 10 millones de dólares: Importante compromiso financiero para la seguridad y la alineación de la IA.
- Dirigido a IA sobrehumana: centrado en la alineación de sistemas de IA que superen la inteligencia humana.
- Abierto a diversos investigadores: Pueden participar laboratorios académicos, organizaciones sin ánimo de lucro y particulares.
- Diversas áreas de investigación: Énfasis en la generalización de débil a fuerte, la interpretabilidad y la supervisión escalable.
- Tiempo de respuesta rápido: OpenAI se compromete a dar una respuesta rápida en un plazo de cuatro semanas.
OpenAI es para la seguridad
OpenAI ha lanzado recientemente el programa Superalignment Fast Grants, destinado a apoyar la investigación técnica para garantizar la alineación y la seguridad de los sistemas de IA sobrehumanos.
Esta iniciativa de subvenciones de 10 millones de dólares es un paso importante para abordar los retos que plantea la llegada de sistemas de IA superinteligentes en la próxima década.
Comprender la superalineación
La superalineación se refiere al reto de alinear sistemas de IA que superen los niveles de inteligencia humana.
Mientras que las técnicas de alineación actuales se basan en el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), la llegada de sistemas de IA sobrehumanos presenta retos técnicos cualitativamente diferentes y más complejos.
Estos sistemas poseerán capacidades que van más allá de la comprensión humana, lo que dificultará que los humanos supervisen y evalúen su comportamiento de forma eficaz. Por ejemplo, si un modelo sobrehumano genera un millón de líneas de código intrincado, es posible que los humanos no posean la capacidad de evaluar si el código es seguro o peligroso.
En consecuencia, las técnicas de alineación existentes , como RLHF, pueden resultar inadecuadas para garantizar la alineación y la seguridad de estos sistemas avanzados de IA.
La cuestión fundamental que se plantea es
¿Cómo pueden los humanos dirigir y confiar en sistemas de IA que son significativamente más inteligentes que ellos mismos?
OpenAI reconoce este reto como uno de los problemas técnicos sin resolver más cruciales de nuestro tiempo.
Sin embargo, también cree que, con esfuerzos concertados, este problema tiene solución. OpenAI ve un inmenso potencial para que la comunidad investigadora y los investigadores individuales logren avances significativos en este campo.
De ahí que el programa Superalignment Fast Grants pretenda reunir a los mejores investigadores e ingenieros de todo el mundo para abordar este reto.
Becas rápidas de superalineación
En colaboración con el ex CEO de Google Eric Schmidt, OpenAI ha lanzado el programa Superalignment Fast Grants, que ofrece 10 millones de dólares en subvenciones para apoyar la investigación técnica centrada en la superalineación.
Las subvenciones están disponibles para laboratorios académicos, organizaciones sin ánimo de lucro e investigadores individuales.
Además, OpenAI patrocina la OpenAI Superalignment Fellowship, una beca de un año para estudiantes de posgrado que ofrece un estipendio de 75.000 dólares y 75.000 dólares en informática y financiación de la investigación.
La beca pretende capacitar a estudiantes de posgrado con talento para que contribuyan al campo de la alineación, aunque no tengan experiencia previa en este ámbito específico.
El proceso de solicitud de las ayudas y becas es sencillo, y OpenAI se compromete a dar una respuesta en un plazo de cuatro semanas a partir de la fecha límite de solicitud.
El plazo de presentación de solicitudes finaliza el 18 de febrero. OpenAI anima a los investigadores a presentar su solicitud, especialmente a aquellos que estén entusiasmados por trabajar en alineación por primera vez.
El programa de becas está abierto a un amplio abanico de líneas de investigación, y OpenAI está especialmente interesado en financiar proyectos relacionados con la generalización débil-fuerte, la interpretabilidad, la supervisión escalable y otras áreas como la honestidad, la fidelidad de la cadena de pensamiento, la robustez adversarial, las evaluaciones y los bancos de pruebas, entre otros.
Generalización de débil a fuerte
Una de las líneas de investigación en las que hace hincapié el programa de subvenciones rápidas Superalignment es la generalización de débil a fuerte.
Como humanos, a menudo tenemos dificultades para supervisar eficazmente sistemas de IA sobrehumanos en tareas complejas.
En tales casos, resulta esencial garantizar que estos modelos puedan generalizar de una supervisión débil a un rendimiento fuerte.
Esta línea de investigación pretende entender y controlar cómo los modelos fuertes generalizan a partir de una supervisión limitada o imperfecta.
Para ilustrar este concepto, consideremos el reto de supervisar un modelo más grande y más capaz con un modelo más pequeño y menos capaz.
¿Puede el modelo potente generalizar correctamente en problemas difíciles en los que el supervisor débil sólo puede proporcionar etiquetas de entrenamiento incompletas o defectuosas?
Esta dirección de investigación pretende aprovechar las notables propiedades de generalización de los modelos de aprendizaje profundo y explorar métodos para mejorar su capacidad de generalización a partir de una supervisión débil.
OpenAI ya ha realizado avances prometedores en este ámbito, como se describe en su reciente artículo sobre la generalización de débil a fuerte.
Interpretabilidad: Desvelando la caja negra
Otra línea de investigación crucial que apoya el programa de becas rápidas Superalignment es la interpretabilidad.
Dado que los sistemas modernos de IA suelen ser cajas negras inescrutables, comprender su funcionamiento interno resulta esencial para garantizar la alineación y la seguridad.
La interpretabilidad se refiere a la capacidad de comprender el funcionamiento interno de los modelos de IA y utilizar esta comprensión para detectar posibles desajustes o comportamientos engañosos.
La interpretabilidad es crucial por varias razones.
- En primer lugar, proporciona una comprobación independiente para determinar el éxito o el fracaso de otras técnicas de alineación.
- En segundo lugar, la interpretabilidad puede ayudar a detectar casos en los que los modelos intentan socavar la supervisión humana, incluso aunque destaquen por ocultar ese comportamiento durante las evaluaciones.
- Por último, el desarrollo de herramientas de interpretabilidad útiles puede revelar información valiosa sobre el comportamiento de los modelos, lo que puede contribuir al desarrollo de técnicas de alineación más sólidas.
Existen dos enfoques principales de la interpretabilidad: la interpretabilidad mecanicista y la interpretabilidad descendente.
La interpretabilidad mecanicista se centra en la ingeniería inversa de las redes neuronales para comprender su funcionamiento a un nivel granular. Este enfoque pretende descomponer los modelos complejos en bloques de construcción básicos, como neuronas y cabezas de atención.
OpenAI ya ha avanzado en esta dirección, como demuestran sus trabajos sobre circuitos transformadores y otras investigaciones relacionadas.
Por otro lado, la interpretabilidad descendente adopta un enfoque más selectivo, localizando y comprendiendo información específica dentro de un modelo sin comprender completamente su funcionamiento interno.
Este enfoque es especialmente útil para detectar comportamientos engañosos o deshonestos en los sistemas de IA. Los esfuerzos de OpenAI en este campo incluyen la investigación sobre la localización y edición de asociaciones factuales en modelos lingüísticos y el desarrollo de técnicas para comprender y controlar el funcionamiento interno de las redes neuronales.
Supervisión escalable: La IA ayuda a los humanos
Garantizar una supervisión eficaz de los sistemas de IA es otro aspecto crítico de la superalineación.
Con la complejidad y la escala de los futuros sistemas de IA superando las capacidades humanas, los humanos tendrán dificultades para evaluar sus resultados con precisión.
Por ejemplo, la revisión de un millón de líneas de código o la comprensión de las operaciones de una empresa impulsada por la IA podría estar más allá de la capacidad humana. Para hacer frente a este reto, la supervisión escalable pretende aprovechar los sistemas de IA para ayudar a los humanos a evaluar los resultados de otros sistemas de IA en tareas complejas.
El principio en el que se basa la supervisión escalable es que la evaluación es más fácil que la generación.
A los humanos les puede resultar difícil identificar fallos en el código, pero una vez identificados, es más fácil validar su presencia.
En este contexto, los sistemas de IA pueden desempeñar un papel crucial en la crítica del código escrito por otros sistemas de IA, ayudando así a los humanos a evaluar la seguridad y fiabilidad de estos sistemas avanzados de IA.
OpenAI fomenta la investigación en este ámbito y está especialmente interesada en proyectos que se centren en desarrollar conjuntos de datos de evaluación de código abierto y estrategias para estudiar la supervisión escalable.
Conclusión
El programa Superalignment Fast Grants de OpenAI que aborda los retos de la superalineación se ha convertido en una prioridad urgente.
El programa de subvenciones y becas proporciona una plataforma para que investigadores, ingenieros y estudiantes de posgrado contribuyan al campo de la alineación, incluso si son nuevos en este ámbito de investigación.
Mediante el apoyo a líneas de investigación como la generalización de débil a fuerte, la interpretabilidad y la supervisión escalable, OpenAI pretende impulsar el progreso y desarrollar soluciones sólidas para dirigir y confiar en sistemas de IA que superen los niveles de inteligencia humana.
Preguntas más frecuentes:
- ¿Qué es el programa Superalignment Fast Grants?
Una iniciativa de 10 millones de dólares de OpenAI para apoyar la investigación que garantice la seguridad y la alineación de los sistemas de IA sobrehumana. - ¿Quién puedesolicitar estas becas?
Pueden solicitarlas laboratorios académicos, organizaciones sin ánimo de lucro, investigadores individuales y estudiantes de posgrado. - ¿Cuál es el objetivo principal delas becas de investigación?
Las becas se centran en abordar los retos técnicos que plantean los sistemas de IA que superan los niveles de inteligencia humana. - ¿Cuál es el proceso de solicitud de estas ayudas?
Los solicitantes pueden presentar su solicitud a través de un proceso sencillo, y OpenAI dará una respuesta en un plazo de cuatro semanas a partir de la fecha límite.