Tanto los seres vivos como las máquinas impulsadas por IA necesitan actuar de forma rápida y adaptativa en respuesta a las situaciones. En psicología y neurociencia, el comportamiento se puede clasificar en dos categorías: habitual (rápido y simple pero flexible) y dirigido a objetivos (flexible pero complejo y lento). Daniel Kahneman, premio Nobel de Ciencias Económicas, distingue entre Sistema 1 y Sistema 2. Sin embargo, existe un debate en curso sobre si se trata de entidades independientes y distintas o componentes que se apoyan mutuamente.

Científicos del Instituto de Ciencia y Tecnología de Okinawa (OIST) y Microsoft Research Asia en Shanghai han propuesto un nuevo método de inteligencia artificial en el que los sistemas de comportamiento basados ​​en hábitos y objetivos aprenden a apoyarse entre sí. A través de simulaciones por computadora que imitan la exploración de laberintos, el método se adapta a entornos que cambian rápidamente e incluso reproduce el comportamiento de humanos y animales después de que han estado acostumbrados a un entorno particular durante mucho tiempo.

El estudio, publicado en Comunicaciones de la naturalezano solo allana el camino para el desarrollo de sistemas que se adaptan de manera rápida y confiable al creciente campo de la IA, sino que también informa cómo tomamos decisiones en los campos de la neurociencia y la psicología.

Los científicos derivaron un modelo que integra sistemas basados ​​en hábitos y objetivos para aprender comportamientos en agentes de IA que realizan aprendizaje por refuerzo, un método de aprendizaje basado en recompensas y castigos, llamado “inferencia activa”, está basado en teoría y se centra en. Mucha atención últimamente. En el artículo, crearon una simulación por computadora que simula una tarea en la que las ratas exploran un laberinto basándose en señales visuales y son recompensadas con comida cuando alcanzan la meta.

Examinaron cómo estos dos sistemas se adaptan e integran durante las interacciones con el medio ambiente, demostrando que pueden adquirir rápidamente un comportamiento adaptativo. Se observó que el agente de IA recopiló datos y mejoró su comportamiento mediante el aprendizaje por refuerzo.

Lo que le gusta a nuestra mente.

Después de un largo día de trabajo, normalmente volvemos a casa en piloto automático (comportamiento habitual). Sin embargo, si acaba de mudarse de casa y no presta atención, es posible que, por costumbre, regrese a su antiguo lugar. Cuando te das cuenta de que estás haciendo esto, cambias de marcha (comportamiento dirigido a objetivos) y te diriges a tu nuevo hogar. Tradicionalmente, se ha considerado que estos dos comportamientos operan de forma independiente, lo que da como resultado comportamientos que son habituales y rápidos pero complejos, o orientados a objetivos y flexibles pero lentos.

“El cambio automático del comportamiento dirigido a objetivos al comportamiento habitual durante el aprendizaje es un descubrimiento bien conocido en psicología. Nuestros modelos y simulaciones pueden explicar por qué sucede esto: el cerebro prefiere el comportamiento con alta certeza. Por ejemplo, a medida que avanza el aprendizaje, el comportamiento habitual se vuelve menos aleatorio , aumentando así la confianza, el cerebro prefiere confiar en el comportamiento habitual después de un entrenamiento significativo”, explicó el Dr. Dongqi Han, profesor de neurorobótica cognitiva en OIST, ex estudiante de doctorado en la unidad de investigación y primer autor del artículo.

Para un nuevo propósito para el que la IA no ha sido entrenada, utiliza un modelo interno del entorno para planificar sus acciones. No necesita considerar todas las acciones posibles, sino que utiliza un conjunto de comportamientos habituales, lo que hace que la planificación sea más eficiente. Esto desafía los métodos tradicionales de IA que requieren que todos los objetivos posibles se incluyan implícitamente en el entrenamiento. En este modelo, cada objetivo deseado se puede lograr sin capacitación explícita, sino combinando de manera flexible el conocimiento aprendido.

“Es esencial lograr una especie de equilibrio o compensación entre el comportamiento flexible y adaptativo”, afirmó el profesor Jon Tani, jefe de la Unidad de Investigación de Neurorobótica Cognitiva. “Puede haber muchas formas posibles de lograr una meta, pero es demasiado costoso considerar todas las acciones posibles, por lo que el comportamiento dirigido a una meta está limitado por el comportamiento rutinario para reducir las opciones”.

Construyendo una mejor IA

El Dr. Han se interesó en la neurociencia y la diferencia entre inteligencia artificial y humana cuando comenzó a trabajar en algoritmos de IA. “Comencé a pensar en cómo la IA podría comportarse de manera más eficiente y adaptativa como los humanos. Quería comprender los principios matemáticos básicos y cómo podríamos usarlos para mejorar la IA. Ese fue el impulso para la investigación de doctorado”.

Comprender la diferencia entre conducta habitual y conducta dirigida a objetivos tiene implicaciones importantes, particularmente en el campo de la neurociencia, ya que puede arrojar luz sobre trastornos neurológicos como el TDAH, el TOC y la enfermedad de Parkinson.

“Estamos explorando los principios computacionales mediante los cuales múltiples sistemas del cerebro trabajan juntos”, explicó el profesor Kenji Doya, jefe de la Unidad de Computación Neural. “Los sistemas de IA inspirados en el cerebro y que han demostrado resolver problemas prácticos pueden servir como herramientas valiosas para comprender lo que sucede en los cerebros de humanos y animales”.

Al Dr. Han le gustaría ayudar a crear una mejor IA que pueda adaptar su comportamiento para lograr objetivos complejos. “Estamos muy interesados ​​en desarrollar una IA que se acerque a las capacidades humanas al realizar tareas cotidianas, por lo que queremos cerrar esta brecha entre humanos e IA. Nuestros cerebros tienen dos mecanismos de aprendizaje y necesitamos comprender mejor cómo trabajan juntos para lograr sus objetivos. objetivos.”

Source link