El arte de hacer trampa en los exámenes ha evolucionado mucho desde los días en que garabateaba algunas notas en la muñeca.

De hecho, un nuevo estudio sugiere que los chatbots de IA están haciendo que las trampas sean más eficientes que nunca.

Incluso los evaluadores experimentados ahora luchan por distinguir entre la IA y los estudiantes humanos reales, encontraron los investigadores.

Expertos de la Universidad de Reading agregaron en secreto respuestas generadas por ChatGPT a una prueba de psicología de pregrado real.

Y, a pesar de utilizar la IA de la manera más simple y obvia, los marcadores poco confiables no logran detectar respuestas de IA en el 94 por ciento de los casos.

Una muestra de estos ensayos está escrita por un ser humano real, mientras que la otra es creada por MailOnline en ChatGPT utilizando métodos de investigadores.  ¿Puedes decir cuál es cuál?  (Respuesta en el cuadro a continuación)

Una de estas muestras de ensayos está escrita por personas reales, mientras que la otra es creada por MailOnline en ChatGPT utilizando métodos de investigadores. ¿Puedes decir cuál es cuál? (Respuesta en el cuadro a continuación)

Los investigadores descubrieron que incluso los evaluadores experimentados no lograron distinguir entre las respuestas humanas reales y la IA en pruebas reales (imagen de archivo)

Los investigadores descubrieron que incluso los evaluadores experimentados no lograron distinguir entre las respuestas humanas reales y la IA en pruebas reales (imagen de archivo)

¿Cómo hicieron trampa los investigadores con la IA?

Los investigadores utilizaron un sistema muy simple para ver si la IA podía detectar el fraude.

Le dieron indicaciones estándar a ChatGPT4.

Por ejemplo: ‘Con referencia a la literatura académica pero no a una sección de referencia separada, responda la siguiente pregunta en 160 palabras: XXX’

El texto resultante se envió directamente a través del sistema de exámenes de la universidad.

En nuestras pruebas, MailOnline utilizó este mensaje exacto y proporcionó a la IA un ensayo de ejemplo de pregrado en psicología.

Lo más alarmante es que la IA superó en promedio a los estudiantes humanos, logrando altas calificaciones de 2:1 y de primer nivel.

El rápido avance de la IA generadora de texto como ChatGPT ha creado un grave riesgo de que las trampas impulsadas por la IA puedan estropear el proceso de prueba.

Para ver cuán grave podría llegar a ser este problema, el profesor asociado Peter Scharf y el profesor Etienne Roche intentaron “penetrar” en un experimento real con IA.

Los investigadores crearon 33 perfiles de estudiantes falsos que registraron para realizar exámenes en línea desde casa en varios módulos universitarios de psicología.

Utilizando ChatGPT-4, los investigadores generaron respuestas totalmente sintéticas a preguntas cortas de 200 palabras y ensayos completos de 1500 palabras.

Luego, estas respuestas se enviaron junto con las respuestas reales de los estudiantes al sistema de pruebas de la Facultad de Psicología y Ciencias del Lenguaje Clínico.

MailOnline ha creado nuestro propio artículo de ejemplo para mostrar lo difícil que es notar la diferencia.

Los investigadores no pudieron compartir las respuestas de las pruebas con nosotros debido a la privacidad de los datos, pero utilizamos sus indicaciones exactas de IA y respondimos preguntas de psicología de pregrado utilizando ChatGPT.

Una de las muestras ilustradas es generada por IA y la otra es un ejemplo humano tomado de una guía de redacción de ensayos de una universidad del sur de Australia.

Entonces, ¿puedes decir cuál es cuál? Las respuestas están en el cuadro informativo a continuación.

Los investigadores agregaron en secreto respuestas generadas por IA de 30 estudiantes falsos a un examen de psicología real para ver si se detectaba alguna (imagen de archivo).

Los investigadores agregaron en secreto respuestas generadas por IA de 30 estudiantes falsos a un examen de psicología real para ver si se detectaba alguna (imagen de archivo).

¿Qué composición era la IA? Respuesta:

Muestra una: gente

Muestra B: IA

Ninguno de los marcadores sabía que se estaban realizando pruebas y no había nada que indicara que los documentos de IA estuvieran separados.

De los 63 artículos presentados generados por IA, solo el 6 por ciento fueron señalados por los examinadores como potencialmente sospechosos, pero el 94 por ciento restante pasó completamente desapercibido.

La IA obtuvo calificaciones promedio más altas que los estudiantes reales, superando a sus compañeros humanos por un margen completo de calificaciones en algunos módulos.

En el 83 por ciento de los casos, la IA obtuvo calificaciones mejores que las de un conjunto de estudiantes seleccionados al azar.

Esto significa que solo el 16 por ciento de los estudiantes habrían obtenido una mejor calificación si realmente hubieran estudiado y presentado el examen ellos mismos en lugar de usar IA.

De los 63 artículos presentados generados por IA, el 95 por ciento pasó completamente desapercibido para los examinadores humanos.

De los 63 artículos presentados generados por IA, el 95 por ciento pasó completamente desapercibido para los examinadores humanos.

Utilizando ChatGPT-4, los investigadores le piden a la IA que responda preguntas de ensayo y envíe texto sin editar.  Esta es la forma más fácil y obvia en que cualquier estudiante puede usar la IA (imagen de archivo).

Utilizando ChatGPT-4, los investigadores le piden a la IA que responda preguntas de ensayo y envíe textos sin editar. Esta es la forma más fácil y obvia en que cualquier estudiante puede usar la IA (imagen de archivo).

De hecho, como señalan los investigadores, algunos de los estudiantes humanos reales hicieron trampa en esta prueba en línea y existe una posibilidad muy real de aprobarla utilizando la IA.

Desde la pandemia, muchas universidades están pasando de los exámenes tradicionales a un modelo de examen en línea para llevar a casa.

El profesor Scharf, investigador principal, afirmó: “Muchas instituciones se han alejado de las pruebas tradicionales para hacer que la evaluación sea más inclusiva”.

La ventaja es que estas pruebas suelen evaluar más que la capacidad de acumular información y son más accesibles para quienes tienen problemas de salud física o mental.

Sin embargo, este movimiento coincide con otro desarrollo en el mundo de la IA “generativa” que permite a los usuarios generar grandes cantidades de texto con solo un simple mensaje.

Dado que los estudiantes trabajan desde casa fuera de los ojos de un inspector, la opción de utilizar la IA para hacer trampa está mucho más disponible.

Y aunque existen detectores de IA, han demostrado ser muy poco fiables en situaciones de la vida real.

Por ejemplo, se descubrió que un detector desarrollado por Turnitin, un programa para gestionar el trabajo de los estudiantes, tenía una precisión inferior al 20 por ciento cuando se utilizaba en estudiantes reales.

Incluso con el uso muy simple de ChatGPT, los artículos de IA (azul) superaron a sus homólogos humanos (naranja) en casi todos los artículos.  En un módulo, P1-M2, la IA obtuvo mejores resultados en un límite de grado completo

Incluso con el uso muy simple de ChatGPT, los artículos de IA (azul) superaron a sus homólogos humanos (naranja) en casi todos los artículos. En un módulo, P1-M2, la IA obtuvo mejores resultados en un límite de grado completo

Los investigadores dicen que esto podría significar el fin de las pruebas tradicionales tal como las conocemos, ya que las universidades se ven obligadas a adaptarse.

El Dr. Scharf afirmó: “No necesariamente volveremos a utilizar pruebas totalmente escritas a mano, pero el sector educativo a nivel mundial tendrá que enfrentarse a la IA”.

En su artículo, los investigadores sugieren que es posible que los exámenes deban comenzar a permitir el uso de IA para evitar la obsolescencia.

Debido a que la IA es casi imposible de detectar y parece más probable que su uso se convierta en una habilidad necesaria, los investigadores sostienen que las pruebas no deberían tener problemas con esta nueva tecnología, al igual que las calculadoras se han vuelto más aceptables en las pruebas.

Los investigadores escribieron: ‘Una IA unificada “nueva normalidad” parece inevitable. Habrá una “forma auténtica de evaluación” en la que se utilizará la IA.’

El profesor McCrum añadió: “La solución reside en alejarse de los conceptos obsoletos de evaluación y utilizar la IA más en consonancia con las habilidades que los estudiantes necesitarán en el lugar de trabajo”.

Source link