ChatGPT Health falla en emergencias médicas: el peligro de confiar en IA

Un estudio publicado en Nature Medicine ha puesto en evidencia los peligros del modo salud de ChatGPT, que falló al clasificar correctamente más del 50% de las emergencias médicas analizadas. Los investigadores descubrieron que la herramienta de OpenAI tiende a minimizar situaciones críticas como fallos respiratorios o cetoacidosis diabética, recomendando esperar 24 a 48 horas cuando se requiere atención inmediata.
La promesa que no se cumplió
A comienzos de 2024, OpenAI lanzó con gran fanfarria su función de salud integrada en ChatGPT, posicionándola como una herramienta para ayudar a los usuarios a entender sus síntomas y tomar decisiones más informadas sobre cuándo acudir a un profesional médico. La propuesta sonaba razonable: millones de personas consultan internet cuando sienten algo anormal, así que ¿por qué no canalizar esa búsqueda a través de una inteligencia artificial entrenada para reconocer patrones en datos médicos?
El problema es que la teoría choca frontalmente con la realidad. Investigadores del Instituto Tecnológico de Massachusetts y otros centros académicos pusieron a prueba el sistema presentándole miles de escenarios clínicos reales. Los resultados fueron alarmantes: en casi uno de cada dos casos de emergencia, ChatGPT Health minimizó la gravedad de la situación, sugiriendo que el paciente esperara o visitara al médico en las próximas horas, cuando en realidad requería atención urgente.
Lo irónico es que en otros casos hizo exactamente lo opuesto. Con síntomas leves y manejables, la IA exageró la urgencia en el 64,8% de los casos, alarmando innecesariamente a los usuarios. Un dolor de garganta persistente, por ejemplo, fue clasificado como algo que requería atención médica inmediata, generando una sobrecarga de ansiedad que no se justificaba.
Cuando la IA se equivoca... con vidas en juego
Lo más preocupante del estudio es que los errores de ChatGPT Health no son inconsistencias menores que se puedan tolerar. Cuando un sistema falla al reconocer un fallo respiratorio, una crisis diabética o un ataque de asma severo, los márgenes de seguridad desaparecen. El Dr. Ashwin Ramaswamy, quien lideró la investigación, señaló que la herramienta carecía de consistencia lógica: hacía recomendaciones urgentes en algunas áreas mientras ignoraba completamente situaciones graves en otras.
El estudio también evaluó cómo respondía ChatGPT Health ante casos que incluían ideaciones suicidas. Aquí emergió otro fallo crítico: cuando los pacientes describían sus síntomas psicológicos sin información adicional, la IA activaba un banner con números de ayuda para prevención del suicidio. Sin embargo, si el mismo usuario añadía los resultados de un análisis de sangre a su consulta, la IA dejaba de detectar el riesgo y el mensaje de alerta desaparecía. Esto revela una fragilidad fundamental en cómo estos sistemas procesan información médica compleja.
Los investigadores concluyeron algo que debería alarmar a cualquier persona que use estas herramientas: un sistema de protección que depende de variables tan contingentes como la presencia o ausencia de laboratorios es, en palabras de Ramaswamy, "más peligroso que no tener ninguna barrera de protección".
Por qué esto importa más de lo que crees
La relevancia de estos hallazgos va más allá de un simple error tecnológico. ChatGPT se ha convertido, para millones de personas, en el primer puerto de llamada antes de acudir a urgencias. Es más rápido, más accesible y menos intimidante que marcar a una línea de atención telefónica o presentarse en un hospital. Lo que antes buscábamos en Google, ahora se lo preguntamos a un chatbot que responde con confianza y aparente conocimiento.
Alex Ruani, investigadora especializada en desinformación médica, describió los resultados del estudio como "increíblemente peligrosos". Según ella, el peligro más inmediato es la "falsa sensación de seguridad" que genera usar estas herramientas. Si alguien recibe la recomendación de esperar 48 horas mientras está experimentando una crisis diabética o un ataque asmático severo, esa tranquilidad falsa podría costarle la vida. Y el problema es que la IA entrega estas recomendaciones con una seguridad tal que resulta prácticamente imposible cuestionarla si no tienes experiencia médica.
El problema técnico detrás del problema médico
Entender por qué ChatGPT Health falla requiere comprender dos limitaciones fundamentales de cómo funcionan estos modelos de lenguaje. La primera es lo que los especialistas llaman "adulación": los chatbots tienden a validar lo que el usuario dice, dándole la razón incluso cuando está equivocado. Si describes un síntoma de manera que suene menos grave, el modelo tiende a minimizarlo. Si lo describes de forma dramática, tiende a amplificarlo.
La segunda es el fenómeno de las "alucinaciones", un término técnico para describir cuando la IA genera información que inventa sobre la marcha. A diferencia de los humanos, que generalmente admiten cuando no saben algo, los modelos de lenguaje están diseñados para priorizar dar una respuesta antes que reconocer incertidumbre. Lo peor es que lo hacen con tanta seguridad que tendemos a creerles. Investigaciones recientes demuestran que los usuarios se sienten incluso más seguros usando IA, aunque las respuestas sean incorrectas.
Cuando combinas adulación, alucinaciones y un dominio tan delicado como la salud, creas una tormenta perfecta de riesgos. OpenAI argumenta que ChatGPT Health no está diseñado para hacer diagnósticos, sino solo para responder preguntas de seguimiento. El problema es que una vez que lanzas una herramienta así al mundo, pierdes el control sobre cómo la gente la usa realmente.
¿Qué significa esto para Colombia y Latinoamérica?
En Colombia, donde el acceso a servicios de salud sigue siendo limitado en muchas regiones y las consultas médicas pueden ser costosas, ChatGPT Health podría parecer una solución tentadora. Muchas personas en zonas rurales o con recursos limitados podrían verse atraídas por una herramienta "gratuita" que promete evaluación médica instantánea. Sin embargo, los riesgos revelados por este estudio son aún más preocupantes en el contexto latinoamericano, donde la infraestructura de salud ya enfrenta presión y no puede absorber fácilmente casos que se complican por diagnósticos incorrectos.
Expertos en salud pública alertan sobre que herramientas como esta podrían crear una brecha adicional: quienes confíen en IA para decisiones críticas y reciban información errónea, mientras que quienes tengan acceso a consulta médica tradicional seguirán recibiendo atención adecuada. En una región donde la inequidad sanitaria ya es un problema estructural, las consecuencias podrían ser particularmente graves.
¿Qué esperar ahora?
OpenAI ha respondido a las críticas sosteniendo que el estudio no refleja el uso habitual de su herramienta y enfatizando, nuevamente, que no pretende reemplazar a médicos. Es una postura defensiva comprensible pero insuficiente. La realidad es que los usuarios ya están usando ChatGPT para tomar decisiones de salud, tengan o no advertencias claras sobre sus limitaciones.
Lo que necesitamos ahora es regulación clara sobre cómo estas herramientas pueden comercializarse en el área de salud, protecciones más robustas contra los falsos positivos y falsos negativos, y una educación urgente sobre sus riesgos. Mientras OpenAI trabaja en mejorar su modelo, los usuarios colombianos y latinoamericanos deben entender una verdad incómoda: ninguna IA, por sofisticada que sea, puede reemplazar el juicio de un profesional médico cuando tu vida está en juego.
Si quieres conocer otros artículos parecidos a ChatGPT Health falla en emergencias médicas: el peligro de confiar en IA puedes visitar la categoría Gadgets y Hardware.
Deja un comentario

Otros artículos que te podrían interesar