Un simulacro que piensa como un médico
Microsoft ha creado un entorno de simulación clínica a partir de 304 casos reales publicados en el New England Journal of Medicine. Con esos casos, ha creado una prueba llamada Punto de Referencia de Diagnóstico Secuencial, que evalúa si una IA es capaz de razonar paso a paso como un médico: desde los primeros síntomas hasta dar con el diagnóstico.
El protagonista del experimento es MAI - DxO, un sistema que replica el proceso diagnóstico de un médico: empieza con una presentación clínica, formula preguntas, solicita pruebas y emite una conclusión. Pero no se trata de un único modelo de inteligencia artificial. MAI - DxO actúa como un orquestador que organiza el razonamiento clínico con distintos modelos de lenguaje —como GPT-4o (OpenAI), Gemini (Google), Claude (Anthropic), Grok (xAI) o DeepSeek— evaluados de forma separada bajo las mismas condiciones.
Más precisión, menos gasto
Cuando se combina con el modelo o3 de OpenAI, MAI - DxO resolvió entre el 80 % y el 85,5 % de los casos clínicos presentados en el simulador. Los mismos casos fueron resueltos también por un grupo de 21 médicos en ejercicio, de Estados Unidos y Reino Unido, pero bajo condiciones restringidas: sin acceso a colegas, literatura médica ni herramientas de apoyo digital. Su tasa de acierto rondó el 20 %.
La distancia entre ambos resultados no solo refleja una diferencia en la capacidad de diagnóstico. También evidencia una eficiencia distinta en el uso de recursos. MAI - DxO seleccionó pruebas de forma estratégica, valorando cada decisión como si tuviera un coste real. En promedio, redujo el gasto estimado entre un 20 % y un 30 %, simulando un escenario clínico donde la precisión no puede desligarse del presupuesto.
Retos antes del hospital
Los resultados abren la puerta a un nuevo tipo de asistencia diagnóstica, pero también plantean límites. Las pruebas se centraron en casos especialmente complejos, no en consultas comunes con síntomas como fiebre, tos o malestar general.
Tampoco se reprodujo el contexto habitual de trabajo porque los médicos participaron sin acceso a materiales de referencia ni posibilidad de discutir con colegas. Microsoft admite que el sistema necesita validación en entornos reales y el visto bueno de las autoridades regulatorias antes de cualquier despliegue clínico.
Un horizonte con matices
Aun así, la ambición está clara. Mustafa Suleyman, responsable de Microsoft AI, asegura que el sistema podría operar «prácticamente sin errores» en un plazo de cinco a diez años. Pero incluso con ese horizonte, el papel del médico no desaparece. La decisión final, la generación de confianza y la gestión de la incertidumbre seguirán siendo funciones humanas. La IA se presenta como una herramienta para reducir carga, no para asumir el control completo.
Ecos de una carrera más amplia
El caso de MAI - DxO se suma a una carrera más amplia por integrar IA en la práctica clínica. Google trabaja con Med - PaLM M en entornos radiológicos. Microsoft, por su parte, ya aplica DxGPT en el sistema de salud madrileño, con cerca de medio millón de pacientes y un 60 % de acierto en diagnósticos automatizados.
Ahora, el plan es llevar MAI - DxO a herramientas como Copilot y Bing Salud. Solo en estas plataformas, Microsoft estima más de 50 millones de sesiones diarias relacionadas con salud. También desarrolla herramientas complementarias como RAD‑DINO para radiología o Dragon Copilot, un asistente de voz clínico.
¿Quién tomará la última decisión?
La promesa de la superinteligencia médica no se mide solo en porcentajes de acierto. A medida que estos sistemas se integren en la atención diaria, surgirán nuevas preguntas: ¿Quién define los márgenes de error aceptables? ¿Quién asume la responsabilidad cuando el algoritmo falla? Por ahora, la IA se ofrece como copiloto. Pero a medida que gana protagonismo, también redefine los límites entre la ayuda y la decisión clínica.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.