Implementar IA en Salud Sin Evidencia: El Costo Oculto de Llegar Primero. Homero Bagnulo y Carlos Vivas

22.02.2026

En octubre de 2023, Kaiser Permanente, uno de los sistemas de salud integrados más grandes de Estados Unidos con más de 12 millones de afiliados, habilitó una tecnología de asistentes digitales de documentación basada en inteligencia artificial (IA)para 10,000 médicos a lo largo de 21 centros médicos.

La decisión se tomó apenas seis semanas después de una experiencia limitada con 47 médicos. En las primeras diez semanas, la herramienta se usó en más de 303,000 encuentros clínicos. La evaluación de la calidad, sin embargo, se realizó en solo 35 notas: el 0.01% del total. Esta contradicción entre la velocidad de implementación y un inadecuado programa de evaluación no es una anomalía, sino un síntoma revelador de cómo los sistemas de salud están respondiendo a las promesas de la IA en un contexto de presiones múltiples y evidencia limitada.

La documentación clínica en la historia clínica electrónica se ha convertido en una carga desproporcionada para los profesionales de salud. Los estudios demuestran que los médicos de atención primaria dedican más de la mitad de su jornada a tareas administrativas y documentación, con solo un cuarto del tiempo en contacto directo con pacientes. Esta inversión de prioridades está asociada con burnout, reducción del esfuerzo laboral e intención de abandonar la profesión. Los asistentes digitales de documentación, que utilizan procesamiento de lenguaje natural para transcribir y resumir encuentros clínicos en tiempo real, son presentados como la solución que podría liberar a los médicos de esta carga. La pregunta es si la evidencia respalda esta promesa.

Los sistemas de IA en la salud involucran múltiples actores con autoridades independientes: quienes recolectan datos, quienes desarrollan los modelos, y quienes los despliegan en el cuidado clínico. Aunque existen regulaciones específicas para cada nivel -protección de datos, estándares de desarrollo, normativas de práctica médica- falta un mecanismo integrador que supervise el sistema completo. Esta fragmentación crea el problema de "muchas manos, muchos ojos": cuando las responsabilidades están dispersas, nadie tiene visión completa del riesgo, y emergen brechas donde los problemas pasan inadvertidos.

Por ello, en los Países Bajos se ha propuesto un marco regulatorio que identifica tres niveles críticos: rendición de cuentas del producto (los datos, modelos y planes de tratamiento deben cumplir estándares), del proceso (los métodos deben ser transparentes y auditables), y de la decisión (¿quién es responsable cuando una decisión clínica influenciada por IA sale mal?). Los autores argumentan que esta responsabilidad debe ser compartida entre profesionales de salud y desarrolladores, ya que hacer responsables solo a unos o a otros ignora la naturaleza interdependiente del sistema. Sin embargo, reconocen que su propuesta necesita validación empírica. La pregunta es qué ocurre en la realidad.

El Estado Actual: Brecha Entre Promesa y Evidencia

Una cumbre convocada por la revista médica JAMA en 2024 reunió múltiples actores para evaluar el estado de las herramientas de IA en la salud. El panorama que emerge es preocupante. De más de 1,200 herramientas clínicas aprobadas -software para detección de retinopatía diabética, algoritmos de alerta de sepsis, tecnología de imagenología- la mayoría carece de evaluaciones robustas de efectividad en el mundo real. Las evaluaciones se enfocan en satisfacción de usuarios y flujo de trabajo, no en efectos sobre calidad de salud o resultados de pacientes.

Las brechas son múltiples. Primero, no está claro quién debe evaluar: los desarrolladores conducen evaluaciones proporcionales a sus intereses comerciales, las organizaciones de salud carecen de fondos o experiencia para evaluaciones exhaustivas, y el financiamiento gubernamental es insuficiente. Segundo, realizar evaluaciones adecuadas es costoso y complejo: capturar resultados clínicos puede exceder el costo de desarrollar la herramienta misma, lo que desestimula una investigación rigurosa. Tercero, las herramientas de operaciones administrativas -que optimizan la programación, la gestión de ingresos, y releve la capacidad de camas- se adoptan rápidamente, pero sus consecuencias para los pacientes no se comprenden. Un sistema que implemente IA para optimizar la programación quirúrgica puede afectar dramáticamente el acceso a intervenciones urgentes, pero estos efectos rara vez se evalúan porque su uso no requiere revisión regulatoria.

La cumbre concluyó que los estándares de monitoreo propuestos por la industria se enfocan en el cumplimiento de procesos, pero ninguno aborda cómo determinar su efectividad -mejores resultados clínicos- en diferentes entornos y a lo largo del tiempo. Los sistemas están adoptando herramientas que carecen de capacidad para validar adecuadamente.

Lecciones de los sistemas de salud

Una revisión sistemática de la universidad de Yale concluyó: "A pesar de un interés creciente en el uso de IA en el cuidado de la salud, hay una escasez de evidencia de alta calidad del mundo real sobre su utilidad. Antes de que se considere expansión adicional, deberían conducirse estudios robustos a gran escala sobre usabilidad, aceptación, efectividad, retroalimentación de pacientes, precisión, seguridad y costos". Esta evaluación independiente valida las preocupaciones que emergen del análisis detallado: los sistemas de salud están adoptando tecnología antes de evidencia robusta de efectividad, impulsados por presión de no quedarse atrás y promesas comerciales.

La fragmentación de responsabilidad se manifiesta claramente: los desarrolladores buscan penetración de mercado, los sistemas de salud buscan eficiencias operativas, los reguladores tienen autoridad limitada, y los médicos enfrentan la presión de adoptar herramientas cuya seguridad no han validado. Nadie tiene visión completa del riesgo. Los pacientes, quienes deberían ser principales beneficiarios, están ausentes de la mayoría de las evaluaciones.

Las lecciones son directas. Primero, no confiar en estudios pequeños con resultados dramáticos: el sesgo de selección significa que estas publicaciones iniciales sobreestiman los beneficios. Segundo, el tiempo ahorrado en documentación no equivale automáticamente a un mejor cuidado: puede usarse para ver más pacientes en lugar de mejorar la calidad de las consultas. Tercero, los costos ocultos -capacitación, tiempo de edición, soporte técnico- no suelen contabilizarse. Cuarto, el burnout no se resuelve con herramientas tecnológicas: es un problema complejo con múltiples causas organizacionales. Quinto, la seguridad del paciente puede estar comprometida sin sistemas de detección: las alucinaciones documentadas en muestras pequeñas sugieren que ocurren a escala sin ser identificadas.

Para los gerentes de empresas de atención de la salud, la evidencia actual es insuficiente para una implementación sin restricciones de la IA si se aplicaran estándares comparables a los que se exigen para dispositivos médicos tradicionales. El monitoreo post-comercialización es crítico, pero inexistente: no hay equivalente de farmacovigilancia. Los conflictos de interés institucionales requieren que evaluaciones hechas por agencias independientes. Los subsidios para adopción solo deberían otorgarse con evidencia robusta de beneficio, y poblaciones vulnerables no deberían ser campos de prueba.

La experiencia de Kaiser no refleja incompetencia sino la dinámica del ciclo de la exageración tecnológica: presión institucional, urgencia de innovar, conflicto entre rigor científico y necesidad de justificar inversiones. Este patrón se repite en medicina: cirugía robótica adoptada antes de evidencia de superioridad, historias clínicas electrónicas implementadas rápidamente con problemas posteriores, dispositivos portátiles con mercado masivo, pero beneficio limitado.

La pregunta para cada sistema de salud es si adoptar la IA durante este período de exageración pagando los costos de ser adoptantes tempranos, o aprender de errores ajenos esperando evidencia más robusta. La respuesta debe equilibrar la promesa genuina de estas tecnologías con la responsabilidad de proteger a pacientes y profesionales de implementaciones prematuras cuyas consecuencias no comprendemos completamente. En Uruguay, donde el burnout del personal de salud es reconocido como problema serio, la tentación de buscar soluciones tecnológicas rápidas será fuerte. La evidencia sugiere que la prudencia, no la precipitación, debería guiar estas decisiones.

Nota elaborada con el apoyo de herramientas de IA generativa de lenguaje, bajo supervisión y edición de los autores.

Referencias

1 Tierney AA, Gayre G, Hoberman B, Mattern B, Ballesca M, Kipnis P, et al. Ambient artificial intelligence scribes to alleviate the burden of clinical documentation. NEJM Catal Innov Care Deliv. 2024;5(3):CAT.23.0404.

2. Swart R, Abadi S, Vroom F, Vermaas P. Accountability in AI for healthcare: a framework for multi-stakeholder systems. AI Ethics. 2025;15(2):145-67.

3. Parikh RB, Teeple S, Navathe AS. Overcoming the challenges of AI implementation in health care delivery. JAMA. 2025;333(8):645-52.

4. Duggan MJ, Gervase J, Schoenbaum A, Taylor B, Hernandez R, Williams PA, et al. Clinician experiences with ambient scribe technology to assist with documentation burden and efficiency: systematic review. JMIR AI. 2025;4(1):e52847.

Dres. Homero Bagnulo; Carlos Vivas