Los modelos de inteligencia artificial suelen desempeñar un papel en el diagnóstico médico, especialmente cuando se trata de analizar imágenes como las radiografías. Sin embargo, los estudios han encontrado que estos modelos no siempre funcionan bien en todos los grupos demográficos, generalmente peores en mujeres y personas de color.

También se ha demostrado que estos modelos desarrollan algunas capacidades sorprendentes. En 2022, investigadores del MIT informaron que los modelos de IA podían hacer predicciones precisas sobre la raza de un paciente a partir de sus radiografías de tórax, algo que los radiólogos altamente capacitados no podían.

El equipo de investigación ha descubierto ahora que los modelos que son más precisos a la hora de realizar predicciones demográficas también muestran las mayores “diferencias de equidad”, es decir, al evaluar correctamente imágenes de personas de diferentes razas o géneros, inconsistencias en sus capacidades. Los investigadores dicen que los hallazgos muestran que estos modelos utilizan “atajos demográficos” al realizar sus evaluaciones de pronóstico, lo que genera resultados inexactos para las mujeres, los negros y otros grupos.

“Está bien establecido que los modelos de aprendizaje automático de alta capacidad son buenos predictores de la demografía humana, como la raza, el género o la edad autoinformados. Este documento demuestra esta capacidad nuevamente y luego varía esa capacidad en grupos, lo que nunca se ha hecho. ” dijo Marzih Qasmi, profesor asociado de ingeniería eléctrica e informática en el MIT, miembro del Instituto de Ingeniería y Ciencias Médicas del MIT. Y dice el autor principal del estudio.

Los investigadores también descubrieron que podían volver a entrenar los modelos de manera que mejoraran su equidad. Sin embargo, su enfoque para “eliminar el sesgo” funcionó mejor cuando los modelos se probaron en los mismos tipos de pacientes en los que fueron entrenados, como pacientes del mismo hospital. Cuando estos modelos se aplicaron a pacientes de diferentes hospitales, las diferencias en equidad volvieron a ser evidentes.

“Creo que los puntos clave son, en primer lugar, que se debe evaluar minuciosamente cualquier modelo externo en sus datos porque cualquier garantía justa de que lo que los desarrolladores de modelos proporcionan en sus datos de entrenamiento no se puede transferir a la población. En segundo lugar, se deben entrenar modelos. en sus datos siempre que haya suficientes datos”, afirma Horan Zhang, estudiante de posgrado del MIT y uno de los autores principales del nuevo artículo. Yuze Yang, estudiante de posgrado del MIT, también es el autor principal del artículo, que aparecerá en él. Medicina de la naturaleza. Judy Gichoya, profesora asociada de radiología y ciencias de la imagen en la Facultad de Medicina de la Universidad de Emory, y Dina Katabi, profesora Thuan y Nicole Pham de ingeniería eléctrica e informática en el MIT, también son autoras del artículo.

Eliminando prejuicios

En mayo de 2024, la FDA había aprobado 882 dispositivos médicos habilitados para IA, de los cuales 671 están diseñados para su uso en radiología. Desde 2022, cuando Ghasemi y sus colegas demostraron que estos modelos de diagnóstico pueden predecir con precisión la raza, él y otros investigadores han demostrado que dichos modelos también son muy buenos para predecir el género y la edad, aunque los modelos no están capacitados para realizar estas tareas. .

“Muchos modelos populares de aprendizaje automático tienen capacidades de predicción demográfica sobrehumanas: los radiólogos no pueden detectar la raza autoinformada en una radiografía de tórax”, dice Ghasemi. “Estos son modelos que son buenos para predecir enfermedades, pero están aprendiendo a predecir otras cosas durante el entrenamiento que podrían no ser deseables”. En este estudio, los investigadores se propusieron explorar por qué estos modelos no funcionan para ciertos grupos. Específicamente, querían ver si los modelos que usaban atajos demográficos hacían predicciones menos precisas para algunos grupos. Estos atajos pueden surgir en los modelos de IA cuando utilizan atributos demográficos para determinar si existe una afección médica, en lugar de depender de otras características de las imágenes.

Utilizando conjuntos de datos de rayos X de tórax disponibles públicamente del Centro Médico Beth Israel Deaconess en Boston, los investigadores entrenaron modelos para determinar si los pacientes tenían una de tres condiciones médicas diferentes: acumulación de líquido en los pulmones, descomposición o agrandamiento del corazón. A continuación, probaron los modelos en rayos X extraídos de los datos de entrenamiento.

En general, los modelos funcionaron bien, pero la mayoría de ellos mostraron “diferencias justas”, es decir, entre las tasas de precisión para hombres y mujeres, y para pacientes blancos y negros.

Los modelos también pudieron predecir el sexo, la raza y la edad de los sujetos de rayos X. Además, hubo una correlación significativa entre la precisión de cada modelo al realizar predicciones demográficas y el tamaño de su varianza justa. Esto sugiere que los modelos utilizan categorías demográficas como atajos para predecir su enfermedad.

Luego, los investigadores intentaron reducir la brecha de justicia utilizando dos estrategias diferentes. Para un conjunto de modelos, los entrenaron para optimizar la “robustez del subgrupo”, lo que significa que los modelos son recompensados ​​por tener un mejor desempeño en el subgrupo en el que se desempeñan mejor, y si exceden su tasa de error para un grupo, son penalizados. otros

En otro conjunto de modelos, los investigadores los obligaron a eliminar cualquier información demográfica de las imágenes, utilizando un enfoque “antigrupo”. Los investigadores descubrieron que ambas estrategias funcionaron bastante bien.

“Para estos datos distributivos, se pueden utilizar métodos de última generación existentes para reducir la brecha de equidad sin reducir significativamente el rendimiento general”, afirma Qasmi. “Los métodos de robustez de subgrupos hacen que los modelos sean susceptibles a estimar erróneamente un grupo en particular, y los métodos antigrupo intentan eliminar la información del grupo por completo”.

No siempre es justo

Sin embargo, el procedimiento sólo funcionó cuando los modelos se probaron con el mismo tipo de datos de pacientes con los que fueron entrenados; por ejemplo, sólo pacientes del conjunto de datos del Centro Médico Beth Israel Deaconess.

Cuando los investigadores probaron modelos “dessesgados” utilizando los datos del BIDMC para analizar pacientes de otros cinco conjuntos de datos hospitalarios, descubrieron que la precisión general de los modelos seguía siendo alta, pero algunos de ellos mostraban grandes diferencias.

“Si se desvía el modelo en un conjunto de pacientes, esa equidad no necesariamente se cumple cuando se transfiere un nuevo conjunto de pacientes de un hospital diferente a otra ubicación”, dice Zhang.

Esto es preocupante, dicen los investigadores, porque en muchos casos, los hospitales utilizan modelos que se han desarrollado a partir de datos de otros hospitales, especialmente en los casos en los que se compra un modelo disponible en el mercado.

“Descubrimos que incluso los modelos de última generación que funcionan mejor con datos similares a sus conjuntos de entrenamiento no son óptimos, es decir, no hacen un equilibrio óptimo entre el rendimiento general y el de subgrupo, configuraciones en el novela”, dice Qasmi. “Desafortunadamente, esa es en realidad la probabilidad de que se implemente un modelo. La mayoría de los modelos se entrenan y validan con datos de un hospital o una fuente, y luego se implementan ampliamente”.

Los investigadores descubrieron que los modelos que habían sido sometidos a sesgos utilizando métodos de contraste grupal funcionaron ligeramente mejor cuando se probaron en nuevos grupos de pacientes utilizando métodos de robustez de subgrupos. Ahora planean intentar desarrollar métodos adicionales y probar si pueden crear modelos que hagan un mejor trabajo al hacer predicciones justas sobre nuevos conjuntos de datos.

Los hallazgos sugieren que los hospitales que utilizan este tipo de modelos de IA deberían probarlos en sus propias poblaciones de pacientes antes de comenzar a usarlos, para asegurarse de que no produzcan resultados falsos en ciertos grupos.

Esta investigación fue apoyada por un premio Google Research Scholar, el Programa de Desarrollo de la Facultad de Medicina Harold Amos de la Fundación Robert Wood Johnson, RSNA Health Disparities, el Fondo Lacona, la Fundación Gordon y Battymore, el Instituto Nacional de Imágenes Biomédicas y Bioingeniería y el Instituto Nacional. brindó asistencia financiera. Instituto del Corazón, los Pulmones y la Sangre.

Source link