Los humanos, muestra, son mejores que el modelo de IA existente para describir y traducir interacciones sociales en la escena móvil. Son las habilidades necesarias para automóviles autopoderados, robots auxiliares y otras tecnologías que dependen del sistema de IA para navegar por el mundo real.

El estudio, dirigido por los científicos de la Universidad Johns Hopkins, ha demostrado que los sistemas de inteligencia artificial no comprenden la dinámica social y los contextos necesarios para comunicarse con las personas y sugerir que la raíz del problema puede estar en la infraestructura del sistema de IA.

“Por ejemplo, para un automóvil autopoderado, la IA necesitará reconocer las intenciones, los objetivos y los pasos de los conductores y peatones humanos. Le gustaría saber de qué peatones comienzan a caminar, o dos personas están hablando de cruzar la calle”. Siempre que desee comunicarse con humanos, quiere que la gente sepa qué está haciendo la gente. Creo que el hecho de que este sistema aún no lo es “.

Kathy García, una estudiante de doctorado que trabaja en el Laboratorio ISIC en el momento de la investigación y co -autor, presentará resultados de investigación en una conferencia internacional el 24 de abril para representar el aprendizaje.

Para determinar cómo los modelos de IA miden a los seres humanos, los investigadores dijeron a los participantes humanos que analizaran las características de tres segundos de videoclips y tarifas para comprender las interacciones sociales en una escala de uno a cinco. En los clips, las personas interactúan entre sí, realizan suplementos o realizan actividades gratuitas ellos mismos.

Luego, los investigadores preguntaron a más de 350 modelos de lenguaje, video e imagen de IA para adivinar cómo los humanos decidirían sobre estos videos y cómo responderían a sus mentes. Los grandes modelos del lenguaje, los investigadores tienen un breve título escrito humano.

Los participantes, para la mayoría de las partes, estuvieron de acuerdo entre sí en todas las preguntas. El modelo AI, independientemente de sus datos capacitados, no sucedió. Los modelos de video no pudieron explicar con precisión lo que la gente estaba haciendo en los videos. Incluso los modelos de imagen que todavía recibieron una serie de marcos para analizar no pueden predecir de manera confiable si las personas están hablando o no. Los modelos de lenguaje fueron mejores para predecir el comportamiento humano, mientras que los modelos de video fueron mejores para predecir la actividad neurológica en el cerebro.

Los investigadores dicen que los resultados proporcionan lo contrario del éxito de la IA en la lectura de imágenes de acero.

“No es suficiente ver una sola imagen y reconocer elementos y caras. Este fue el primer paso, lo que nos llevó a una larga distancia. Pero la vida real no es estable. No necesitamos una IA para comprender la historia que sale en una escena. La relación de la interacción social, el desarrollo del país, es una cuestión de comprensión y la realización de ella.

Los investigadores creen que la razón de esto es que la red neuronal de IA se vio afectada por la infraestructura del cerebro que actúa sobre las imágenes estáticas, que es diferente del sector cerebral que actúa en escenas sociales dinámicas.

“Hay muchos matices, pero ninguno de los modelos de IA en el modelo de IA puede igualar la respuesta de las escenas del cerebro y el tablero humano, como lo hacen para escenas estáticas”, dijo el ISIC. “Creo que la forma en que los humanos están procesando escenas es algo básico que faltan estos modelos”.

Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here