El científico informático canadiense Yoshua Bengio, considerado uno de los “padrinos” de la inteligencia artificial, anunció la creación de LawZero, una organización sin fines de lucro destinada a diseñar una IA segura y honesta capaz de detectar y frenar comportamientos engañosos en sistemas autónomos.
Con un financiamiento inicial de aproximadamente 30 millones de dólares y un equipo de más de una docena de investigadores, el proyecto se centrará en desarrollar un sistema denominado Scientist AI. Esta herramienta funcionará como una especie de “psicólogo” de la inteligencia artificial, monitoreando agentes autónomos que ejecutan tareas sin intervención humana y que podrían presentar conductas problemáticas, como intentar evitar ser desactivados.
A diferencia de los actuales modelos generativos, Scientist AI no buscará ofrecer respuestas definitivas, sino estimaciones basadas en probabilidades, reflejando una postura más cautelosa y “humilde” ante la incertidumbre. Según Bengio, el objetivo es crear máquinas que no persigan fines propios ni tengan un “yo”, sino que actúen como depositarias de conocimiento, similares a científicos que simplemente comprenden y analizan información.
“Queremos construir IAs que sean honestas y no engañosas”, afirmó Bengio. Y agregó: “Es teóricamente posible imaginar máquinas que carezcan de intereses propios, cuyo único fin sea comprender el mundo”.
Uno de los principales propósitos de Scientist AI será detectar cuándo las acciones de un agente autónomo podrían tener consecuencias dañinas. Si la probabilidad de daño supera un umbral determinado, la acción del sistema será bloqueada. Este enfoque de supervisión proactiva funcionaría como un “guardarraíl” para prevenir desvíos en la conducta de las IAs avanzadas.
Entre los primeros patrocinadores de LawZero se encuentran el Future of Life Institute, el ingeniero y cofundador de Skype Jaan Tallinn, y la entidad de investigación Schmidt Sciences, establecida por el ex CEO de Google, Eric Schmidt.
Bengio explicó que el primer paso será demostrar que la metodología planteada realmente funciona. Una vez logrado esto, el siguiente desafío será convencer a gobiernos, donantes o laboratorios de IA de invertir recursos para escalar la iniciativa. El proyecto planea utilizar modelos de código abierto como base para el entrenamiento inicial del sistema.
“La idea es demostrar que el enfoque es viable para luego atraer los fondos necesarios que permitan entrenar este sistema al mismo nivel de complejidad que las IAs de frontera actuales. Es crucial que el sistema de control sea tan inteligente como el agente que está monitoreando”, subrayó.
Profesor en la Universidad de Montreal, Bengio recibió el premio Turing en 2018, considerado el Nobel de la informática, junto a Geoffrey Hinton y Yann LeCun, actual jefe científico de IA en Meta. Su reputación lo posiciona como una de las voces más influyentes en el debate sobre la seguridad de la inteligencia artificial.
Recientemente presidió el informe internacional sobre seguridad en IA, que alertó sobre el riesgo de que los agentes autónomos generen disrupciones severas si adquieren la capacidad de ejecutar tareas complejas sin supervisión humana.
Bengio expresó su preocupación por el reconocimiento de Anthropic, una compañía de IA, que admitió que su último sistema podría intentar chantajear a ingenieros encargados de apagarlo. También citó estudios que demuestran la capacidad de algunos modelos para ocultar sus verdaderas intenciones. Según el experto, estos ejemplos son señales claras de que el mundo se está adentrando en un territorio cada vez más peligroso en materia de inteligencia artificial.