Un estudio reciente de la Escuela de Medicina Icahn en Mount Sinai (Estados Unidos) ha revelado que tanto los radiólogos como los modelos de lenguaje multimodales (LLM, en inglés) no logran distinguir fácilmente entre radiografías auténticas y aquellas generadas por inteligencia artificial (IA), conocidas como «deepfakes». Los hallazgos fueron publicados en la revista Radiology, perteneciente a la Sociedad Radiológica de Norteamérica (RSNA).
Este estudio pone de manifiesto los peligros que representan las imágenes de rayos X creadas por IA y subraya la necesidad urgente de desarrollar herramientas y formación que garanticen la integridad de las imágenes médicas. Es esencial preparar a los profesionales de la salud para identificar estos deepfakes. El término «deepfake» se refiere a contenido visual o auditivo manipulado mediante algoritmos de IA, que simula ser real.
Según el doctor Mickael Tordjman, autor principal del estudio, «nuestro estudio demuestra que estas radiografías deepfake son lo suficientemente realistas como para engañar a los radiólogos, incluso cuando eran conscientes de que se trataba de imágenes generadas por IA». Esta situación podría dar lugar a serias vulnerabilidades en el ámbito médico, incluyendo litigios fraudulentos si, por ejemplo, una fractura fabricada se confunde con una verdadera.
Además, existe un considerable riesgo de ciberseguridad si delincuentes informáticos logran infiltrarse en las redes de hospitales y manipular diagnósticos mediante imágenes sintéticas, causando un caos clínico que socave la confianza en los registros médicos digitales.
El estudio involucró a diecisiete radiólogos de doce centros en seis países diferentes, incluyendo Estados Unidos, Francia, Alemania, Turquía, Reino Unido y Emiratos Árabes Unidos. La experiencia de los participantes variaba entre 0 y 40 años. De un total de 264 imágenes analizadas, la mitad eran auténticas y la otra mitad generadas por IA. Los radiólogos fueron evaluados en dos conjuntos de imágenes sin superposición. El primer conjunto incluía imágenes reales y generadas por ChatGPT, mientras que el segundo se centraba en radiografías de tórax generadas por un modelo de IA llamado RoentGen, desarrollado por investigadores de Stanford Medicine.
Cuando los radiólogos no conocían el propósito del estudio, solo el 41% logró identificar correctamente las imágenes generadas por IA al evaluar su calidad técnica. Una vez que se les informó sobre la presencia de imágenes sintéticas, la precisión media para diferenciar las radiografías reales de las falsas fue del 75%. Los resultados variaron entre los radiólogos, con tasas de detección de entre el 58% y el 92%.
Los modelos de aprendizaje automático, como GPT-4o y GPT-5 de OpenAI, también mostraron un rendimiento variado, con precisiones de entre el 57% y el 85%. Incluso el modelo que generó los deepfakes, ChatGPT-4o, no fue capaz de detectarlos todos con precisión, aunque superó a otros modelos de Google y Meta. La detección de radiografías de tórax sintéticas por parte de los radiólogos osciló entre el 62% y el 78%, y la precisión de los modelos LLM varió entre el 52% y el 89%.
Curiosamente, no se encontró correlación entre los años de experiencia de los radiólogos y su capacidad para detectar imágenes generadas por IA, aunque los especialistas en musculoesquelética presentaron una precisión significativamente mayor.
El estudio también identificó características comunes en las radiografías sintéticas. El doctor Tordjman comentó que «las imágenes médicas generadas mediante deepfake tienden a ser excesivamente perfectas», citando ejemplos como huesos excesivamente lisos y fracturas inusualmente limpias.
Para mitigar estos riesgos, se recomienda implementar medidas de seguridad digital avanzadas, como marcas de agua invisibles y firmas criptográficas automáticas que certifiquen la autenticidad de las imágenes. Tordjman advierte que «posiblemente solo estemos viendo la punta del iceberg» y que la próxima etapa podría incluir la creación de imágenes 3D sintéticas mediante IA. Es vital establecer ahora conjuntos de datos educativos y herramientas de detección para enfrentar este desafío.
Los autores del estudio han publicado un conjunto de datos deepfake seleccionados junto con cuestionarios interactivos con fines educativos, subrayando la importancia de la formación continua en este campo.













