La inteligencia artificial (AI), especialmente un modelo de lenguaje grande, como GPT4, ha tenido un desempeño de manera impresionante en las tareas del razonamiento. Pero, ¿la IA realmente entiende los conceptos abstractos, o es simplemente imitando patrones? Un nuevo estudio realizado por la Universidad de Amsterdam y el Instituto de Santa Fe ha revelado que el modelo GPT funciona bien en algunos trabajos de imitación, cuando se cambian los problemas, disminuyen.
El argumento de imitación es la capacidad de comparar entre dos cosas diferentes basadas en sus similitudes en algunos aspectos. Esta es una forma común a través de la cual un ser humano busca comprender y tomar decisiones. Un ejemplo de razonamiento de imitación: la taza es suficiente como la sopa (la respuesta es: tazón)
Los modelos de idiomas grandes como GPT -4 funcionan bien en varias pruebas, lo que requiere razonamiento para la imitación. Pero, ¿pueden los modelos de IA realmente participar en un razonamiento fuerte, o pueden confiar más en muestras que en sus datos de entrenamiento? Este estudio realizado por el idioma y la experta en IA Martha Lewis (Instituto de Lógica, Lenguaje y Cálculo de la Universidad de Amsterdam) y Melania Mitchell (Santa Fer Institute) inspeccionaron si el modelo GPT debe ser identificado y fuerte. Lewis explicó: “Esto es muy importante, porque la IA se usa para decidir y resolver rápidamente el problema en el mundo real”.
Para comparar los modelos de IA con el rendimiento humano
Lewis y Mitchell comparan el rendimiento de los modelos humanos y GPT en tres tipos diferentes de problemas.
- Secuencia de letra – Identificar patrones en la secuencia de la letra y completarlos correctamente.
- Matriz de dígitos – Analizar muestras de números y determinar los números faltantes.
- Historia – Comprenda cuál de las dos historias es compatible con la historia.
Un sistema que realmente comprende los síntomas debería mantener un alto rendimiento incluso en variaciones
Además de probar si los modelos GPT pueden resolver los problemas reales, este estudio examinó qué tan bien lo hicieron cuando estos problemas se cambiaron correctamente. En su artículo, los autores describen: “Un sistema que realmente comprende los síntomas debería mantener un alto rendimiento en estas variaciones incluso en estas variaciones”.
Los modelos GPT luchan con fuerte
Los humanos mantienen un alto rendimiento en la versión más modificada de los problemas, pero los modelos GPT, al tiempo que funcionan bien en los problemas de imitación estándar, luchan con variaciones. Lewis explicó: “Esto muestra que los modelos de IA a menudo hacen argumentos menos flexibles que los humanos y su razonamiento es menos sobre la comprensión abstracta real y más sobre la coincidencia de patrones”, explicó Lewis.
En la matriz Digate, los modelos GPT mostraron una reducción significativa en el rendimiento cuando cambió el número perdido. Los humanos no tuvieron ningún problema con esto. En la historia de la historia, la tendencia GPT -4 a seleccionar la respuesta anterior, mientras que los humanos no se vieron afectados por la respuesta. Además, el GPT4 luchó más que los humanos cuando los elementos clave de una historia fueron considerados, y la razón profunda sugiere confiar en niveles de niveles en lugar de razonamiento.
En tareas fáciles de usar, los modelos GPT mostraron una reducción en el rendimiento al verificar la versión modificada, mientras que los humanos siguen siendo permanentes. Sin embargo, tanto los humanos como la IA lucharon por argumentos de imitación más complejos.
Debilitado por la percepción humana
Esta investigación desafía la suposición generalizada de que los modelos de IA como GPT4 hacen seres humanos. Lewis y Mitchell concluyen: “Aunque los modelos de IA demuestran habilidades impresionantes, no significa que realmente entiendan lo que están haciendo”. ‘La capacidad de normalizar sus variaciones es mucho más débil que la cognición humana. Los modelos GPT a menudo dependen de patrones superficiales en lugar de una comprensión profunda. ‘
Esta es una advertencia importante para áreas decisivas clave como la IA en educación, derecho y atención médica. La IA puede ser una herramienta poderosa, pero aún no es una alternativa al pensamiento y el razonamiento humano.