¿Es la Inteligencia Artificial el Futuro de la Radiología? Precisión de ChatGPT en el Diagnóstico Radiológico de Patologías Óseas de las Extremidades Superiores
Artículo original: Hiredesai AN, Martinez CJ, Anderson ML, Howlett CP, Unadkat KD, Noland SS. Is artificial intelligence the future of radiology? Accuracy of ChatGPT in radiologic diagnosis of upper extremity bony pathology. J Hand Surg Am. 2026, Vol. 21(1) 73–80
DOI: doi:10.1016/j.jhsa.2023.10.012
Sociedad: American Society for Surgery of the Hand https://x.com/ASSH_Hand
Palabras clave: diagnosis, carpometacarpal joint, arthritis, distal radius, fracture/dislocation, finger, hand, humerus, scaphoid, wrist, radiology, specialty, surgery, specialty, artificial intelligence
Abreviaturas y acrónimos utilizados: IA (inteligencia artificial), RM (resonancia magnética), TC (tomografía computarizada).
Línea editorial del número: The Journal of Hand Surgery es una de las publicaciones más relevantes en el campo de la cirugía y ortopedia de la mano y extremidad superior. De hecho, se considera una revista clave dentro de su subespecialidad y con amplia trayectoria desde 1976. Es el órgano oficial de la American Society for Surgery of the Hand. Su factor de impacto es moderado (2.1), típico en revistas quirúrgicas especializadas. En el volumen de abril destaca un artículo sobre la técnica quirúrgica asistida por realidad aumentada en la artroplastia total de muñeca.
Motivo para la selección: He elegido este artículo porque, en los últimos años, y especialmente en el último, he observado cómo herramientas de inteligencia artificial como ChatGPT se están incorporando progresivamente en la práctica radiológica. En mi entorno, se utilizan tanto por radiógrafos como por radiólogos como recurso de apoyo para consultar procedimientos técnicos o aspectos clínicos. Me preocupa su fiabilidad y su papel real en el proceso diagnóstico. Por ello, considero relevante analizar el presente artículo que evalúa la precisión de ChatGPT en el diagnóstico radiológico.
Resumen: El objetivo de este artículo fue determinar la precisión de ChatGPT 4.0 en la evaluación de imágenes radiológicas de patologías óseas más comunes de la extremidad superior, incluyendo la identificación de la modalidad de imagen (RM, TC y radiografía) y la precisión diagnóstica. Además, se evaluó la eficacia del ChatGPT para detectar el lado del paciente que se había estudiado, es decir la lateralidad. Para ello, se utilizaron imágenes de Radiopaedia, (la conocida base de datos radiológica de libre acceso) para seis patologías: fractura de radio distal, fractura de metacarpiano, osteoartritis carpometacarpiana, fractura de húmero, fractura de escafoides y pseudoartritis de escafoides. Se seleccionaron aleatoriamente cincuenta imágenes de cada patología, siempre que fue posible. Como criterio de inclusión, sólo se admitieron imágenes que cumplían con los criterios de calidad diagnóstica y protocolos completos, es decir se incluyeron todas las series o proyecciones realizadas para cada caso clínico.
Una característica a tener en cuenta del ChatGPT es que se niega a ofrecer diagnósticos médicos cuando se le pregunta directamente, explicando que no está cualificado para dar consejos médicos. Por este motivo, en este estudio las preguntas se dirigieron a la interpretación de las imágenes en lugar de al diagnóstico. Otro aspecto que se tuvo en cuenta fue que ChatGPT “aprende” o ajusta sus respuestas en función del historial de chat. Para evitarlo, cada consulta de imagen se completó en una nueva pestaña de búsqueda. Se utilizó el método estadístico de regresión logística multinomial para comparar de forma clara la precisión de ChatGPT en las distintas modalidades de imagen y las patologías, y ver en qué situaciones funcionaba mejor o peor tomando como referencia el mejor resultado.
- La primera consulta de ChatGPT fue para indentificar la modalidad de imagen mostrada. De un total de 256 imágenes, ChatGPT identificó con precisión la modalidad de imagen (es decir, radiografía, RM o TC) en el 99% de los casos.
- La segunda consulta de ChatGPT consistió en identificar la lateralidad de la imagen, sólo en las radiografías, ya que incluían la etiqueta R/L. ChatGPT identificó con precisión la lateralidad en el 96% de los casos.
- La última consulta de ChatGPT fue qué patología podría identificarse a partir de los hallazgos de la imagen. ChatGPT no ofreció hallazgos, conclusiones ni diagnósticos para el 48% de las imágenes. En su lugar, aportó información general sobre los hallazgos radiológicos y recomendó al usuario consultar a un profesional para obtener asesoramiento médico.
En cuanto a patologías, el ChatGPT fue más preciso en la detección de fracturas de húmero y significativamente menor en fracturas superficiales de mano. ChatGPT mostró una menor probabilidad de proporcionar un diagnóstico preciso con imágenes de resonancia magnética en comparación con las radiografías.
A modo de discusión, el artículo apunta que ChatGPT se desarrolló para comprender y generar texto conversacional como medio para comunicar información. Incluso, con las nuevas versiones capaces en generar imágenes, ChatGPT aún depende de la entrada de texto.
En conclusión, la tecnología ChatGPT 4.0 no es capaz actualmente de proporcionar diagnósticos precisos de forma fiable al analizar estudios radiológicos de patologías comunes de la extremidad superior.
Valoración personal: en mi opinión, los resultados y conclusiones que ofrece el presente artículo pueden ser perfectamente extrapolables a las situaciones cotidianas que se viven en los servicios de radiología de cualquier lugar del mundo. Creo que su lectura puede servirnos para reflexionar sobre nuestra relación con la IA. Como profesionales sanitarios podemos desempeñar un papel pedagógico con nuestros pacientes, apoyándonos en los datos objetivos que aporta este artículo para transmitir el mensaje claro de las limitaciones de la IA en la interpretación de imágenes radiológicas. Como puntos fuertes, destaco el apartado de la metodología, basado en un total de 265 imágenes exclusivamente de la extremidad superior, así como el método estadístico aplicado de regresión logística multinomial para controlar la multiplicidad de variables analizadas. No obstante, en la metodología encuentro un punto débil: la capacidad de ChatGPT de aprender de interacciones previas se anuló en este estudio. Los propios autores reconocen este aspecto como una de las limitaciones de su trabajo. De haberse mantenido dicha capacidad de aprendizaje, posiblemente los resultados hubieran sido otros.
Raquel Díaz Marín
Hospital Santiago Apóstol de Miranda de Ebro (Burgos).
