Investigadores pertenecientes al Comité de Investigación Estudiantil de la Facultad de Medicina de la Universidad de Ciencias Médicas Shahid Beheshti, de Teherán, y del Comité de Investigación y Desarrollo de Cirugía Cardiovascular de la Universidad de Ciencias Médicas de Irán (IUMS), realizaron una revisión sistemática y un metaanálisis cuyo propósito fue analizar el rol de modelos de inteligencia artificial y aprendizaje automático para la predicción de mortalidad en pacientes que reciben un trasplante cardíaco, y publicaron sus hallazgos y conclusiones en la edición del 4 de abril de 2025 del Frontiers in Artificial Intelligence*.
Éste será el tema a considerar hoy en la NOTICIA DEL DÍA.
En la introducción a la ponencia, los autores iraníes plantearon que el trasplante de corazón (HT por sus siglas en inglés de heart transplantation) es un tratamiento que salva vidas para pacientes en las últimas etapas de insuficiencia cardíaca, brindándoles una última oportunidad de supervivencia y al mismo tiempo mejorando su calidad de vida.
Sin embargo, sigue siendo uno de los procedimientos más desafiantes en medicina debido a la disponibilidad muy limitada de un corazón de donante adecuado, las complejidades en la compatibilidad entre el donante y el receptor, y los riesgos significativos después del trasplante, incluido el rechazo del injerto y la infección.
La evaluación y decisión precisas sobre la elegibilidad, la compatibilidad óptima del donante y la estrecha monitorización posoperatoria para prevenir el rechazo del injerto son necesarias en cada paso del procedimiento.
Estos desafíos se agravan porque las variables fisiológicas e inmunes son muy complejas y varían mucho entre individuos, lo que aumenta la demanda de herramientas predictivas muy precisas para guiar a los médicos en cada paso.
Se han desarrollado varios modelos de puntuación de riesgo para ayudar a superar algunos de estos desafíos y guiar a los médicos con respecto a la viabilidad y los resultados del trasplante.
Los más utilizados incluyen el Índice de Riesgo del Donante (DRI por sus siglas en inglés de Donor Risk Index), la puntuación de estratificación del riesgo (RSS por sus siglas en inglés de risk stratification score) y el Índice para la Predicción de Mortalidad Después del Trasplante Cardíaco (IMPACT por sus siglas en inglés de Index for Mortality Prediction After Cardiac Transplantation).
Estos modelos basados en regresión dependen de diferentes variables clínicas y relacionadas con el donante para estimar el riesgo del paciente y predecir la mortalidad después del trasplante.
Si bien estos modelos son útiles, existe una limitación inherente en la especificidad y la generalización de muchos modelos basados en regresión hacia problemas de trasplante complejos y personalizados.
Recientemente, la inteligencia artificial (IA) y el aprendizaje automático (ML por sus siglas en inglés de machine learning) han surgido como alternativas sólidas al modelo convencional de puntuación de riesgo, ofreciendo una mayor precisión predictiva y personalización.
Mientras que los modelos convencionales se basan en variables preespecificadas y relaciones lineales, los algoritmos de IA y ML analizan grandes volúmenes de datos diversos y complejos, identificando patrones e interacciones que habrían pasado desapercibidos con los enfoques tradicionales.
Los métodos avanzados incluyen redes neuronales, métodos de conjunto y aprendizaje profundo, que potencian aún más los modelos predictivos impulsados por IA para realizar predicciones más personalizadas con respecto a los cambios fisiológicos en tiempo real, lo que permite una toma de decisiones dinámica en todo el proceso de trasplante.
Estos representan algunas de las oportunidades clave con respecto a la estratificación del riesgo, la compatibilidad donante-receptor y el monitoreo posterior al trasplante, todos los cuales se adaptan al perfil único de cada paciente de una manera que puede reducir potencialmente la mortalidad posterior al procedimiento y mejorar los resultados a largo plazo.
Esta revisión sistemática y metaanálisis tuvo como objetivo evaluar el rendimiento de los modelos de aprendizaje automático (ML) para lel trasplante cardíaco, centrándose en el AUC (por sus siglas en inglés de Area under the curve, -área bajo la curva-) como indicador de precisión predictiva.
La revisión buscó destacar el potencial clínico de los modelos basados en IA para predecir los resultados de los trasplantes y contribuir a la creciente evidencia que respalda su uso.
Los modelos de aprendizaje automático (ML) se han aplicado cada vez más para predecir la mortalidad tras un trasplante cardíaco, con el objetivo de mejorar la toma de decisiones y optimizar los resultados.
Esta revisión sistemática y metaanálisis evaluó el rendimiento de los algoritmos de ML en la predicción de la mortalidad y exploró los factores que contribuyen a la precisión del modelo.
Una búsqueda sistemática en PubMed, Scopus, Web of Science y Embase identificó estudios relevantes.
Así, se incluyeron 17 estudios en la revisión y 12 en el metaanálisis.
Los algoritmos evaluados incluyeron bosques aleatorios, CatBoost, -un algoritmo ruso de código abierto que utiliza Machine Learning-, redes neuronales y otros.
El rendimiento del modelo se evaluó mediante valores agrupados del área bajo la curva (AUC), con análisis de subgrupos para el tipo de algoritmo, los métodos de validación y los plazos de predicción.
El riesgo de sesgo se evaluó mediante la herramienta QUADAS-2.
El AUC agrupado de todos los algoritmos de ML fue de 0,65 (IC del 95 %: 0,64, 0,67), sin diferencias significativas entre los modelos de aprendizaje automático y de aprendizaje profundo ( p = 0,67).
Entre los algoritmos, CatBoost demostró la mayor precisión (AUC 0,80, IC del 95 %: 0,74, 0,86), mientras que K-nearest neighbor tuvo la menor precisión (AUC 0,53, IC del 95 %: 0,50, 0,55).
Una metarregresión indicó un mejor rendimiento del modelo con períodos posteriores al trasplante más largos ( p = 0,008).
Al agrupar solo los modelos de mejor rendimiento, el AUC mejoró a 0,73 (IC del 95 %: 0,68, 0,78).
El riesgo de sesgo fue alto en ocho estudios, y los dominios de flujo y tiempo fueron los que contribuyeron al sesgo con mayor frecuencia.
En la discusión de las observaciones señaladas, los autores destacaron que la predicción del riesgo es un aspecto crucial de las cirugías cardiovasculares, especialmente en el trasplante de corazón.
Dada la disponibilidad limitada de donantes de órganos, las decisiones sobre la elegibilidad y la asignación de órganos para el trasplante se ven influenciadas en gran medida por el riesgo previsto de complicaciones y mortalidad postrasplante.
Evaluar con precisión el riesgo de mortalidad de los receptores es crucial para optimizar la asignación de órganos y garantizar la mejor compatibilidad entre donante y receptor.
Con este fin, se han desarrollado en la literatura numerosos modelos para predecir la mortalidad tras el trasplante cardíaco.
Si bien los modelos tradicionales basados en regresión han tenido un éxito relativo en la predicción de la mortalidad, los modelos de aprendizaje automático (ML) han demostrado ser muy prometedores al superarlos, ya que están mejor equipados para capturar interacciones no lineales más complejas entre características.
Para comprender y comparar mejor estos modelos, esta revisión sistemática y metaanálisis tuvieron como objetivo evaluar la precisión de los modelos de ML para predecir la mortalidad tras el trasplante.
Los autores encontraron que la capacidad predictiva general de los modelos de ML fue de 0,65, y el metaanálisis de los algoritmos con mejor rendimiento de cada estudio arrojó un AUC agrupado de 0,73.
En promedio, CatBoost obtuvo el mejor rendimiento con un AUC de 0,80, mientras que KNN obtuvo el peor rendimiento con un AUC de 0,53.
Tanto los algoritmos de aprendizaje automático tradicional como los de aprendizaje profundo tuvieron un rendimiento similar, y los modelos obtuvieron mejores resultados cuando transcurrió más tiempo desde el trasplante.
Aunque el análisis agrupado reveló un poder de discriminación relativamente bajo entre los modelos ML, es esencial contextualizar su desempeño comparándolos con otros modelos de predicción establecidos en la literatura.
El índice de riesgo del donante (DRI), la puntuación de estratificación del riesgo (RSS) y el índice de predicción de mortalidad después del trasplante cardíaco (IMPACT) fueron tres de los modelos más destacados que se han desarrollado utilizando regresión logística.
Nilsson et al. compararon el modelo del algoritmo internacional de supervivencia del trasplante cardíaco (IHTSA por sus siglas en inglés de International Heart Transplantation Survival Algorithm) con DRI, RSS e IMPACT y descubrieron que el IHTSA superó a los tres modelos en la predicción de la mortalidad a 1 año.
De manera similar, Medved et al. también descubrieron que el IHTSA mostró un poder de discriminación superior para predecir la mortalidad a 1 año y la supervivencia a largo plazo después del trasplante cardíaco que el IMPACT.
Además, un resumen de Yagi et al. al validar externamente tanto el IHTSA como el IMPACT, se encontró que el índice C de supervivencia utilizando la puntuación IMPACT y la tasa de mortalidad a 5 años basada en el modelo IHTSA fueron 0,689 y 0,720, respectivamente, lo que denota la superioridad del IHTSA.
En los estudios incluidos se identificaron diversas variables como contribuyentes significativos a la mortalidad, que pueden agruparse en categorías como factores del receptor, factores del donante y factores relacionados con el trasplante y posoperatorios.
Las características del receptor, incluido el estado funcional, la edad, los diagnósticos específicos y las consideraciones pediátricas, surgieron como predictores clave de mortalidad.
Ashfaq et al. identificaron el estado funcional del receptor en la lista como uno de los predictores más importantes de mortalidad a 1 año.
De manera similar, Shou et al. informaron que el estado funcional del receptor, la edad y la presión de enclavamiento capilar pulmonar fueron las variables más predictivas en su modelo GBM (por sus siglas en inglés de gradient boosting machine, -máquina de refuerzo de gradiente-).
Nilsson et al. destacaron la edad del receptor y los niveles de creatinina como predictores críticos en el Algoritmo Internacional de Supervivencia del Trasplante de Corazón (IHTSA).
Miller et al. también informaron que los niveles de bilirrubina y creatinina en el trasplante fueron predictores importantes de mortalidad en los modelos LR, RF y XGB.
Agasthi et al. y Lisboa et al. también encontraron que la edad era un factor importante del receptor.
Los diagnósticos específicos también desempeñaron un papel importante, ya que el modelo RF de Miller et al. encontró que el defecto cardíaco congénito en la lista era la variable más predictiva de la mortalidad pediátrica a 1, 3 y 5 años.
Además, la miocardiopatía y la ECMO (por sus siglas en inglés de «extracorporeal membrane oxygenation”) en el trasplante fueron predictivas de la mortalidad a 1 año, con la miocardiopatía y los niveles de bilirrubina predictivos de la mortalidad a 3 años.
El modelo CatBoost de Kampaktsis et al. identificó la edad del receptor y la TFGe (tasa de filtración glomerular estimada) como predictores clave de la mortalidad a 1 año.
Dag et al. enfatizaron la importancia del estado socioeconómico del receptor, el diagnóstico para trasplante cardíaco en la candidatura y el estado funcional en la lista y el trasplante para predecir la mortalidad a largo plazo a 1, 5 y 9 años.
Se demostró que las características del donante influyen significativamente en los resultados.
El modelo de red de respuesta parcial-Lasso de Lisboa et al. identificó la edad del donante y el tiempo de isquemia como factores altamente predictivos de la mortalidad a 1 año.
Nilsson et al. también encontraron que la edad del donante era un factor importante en su análisis.
El modelo de RF de Miller et al. también destacó el estado del donante frente al citomegalovirus y los niveles de antígeno B1 como predictores de la mortalidad a 5 años en pacientes pediátricos.
Las variables relacionadas con el proceso de trasplante, como el uso del respirador el tiempo de isquemia y el estado del injerto, fueron prominentes en varios modelos.
Ashfaq et al. destacaron el uso del respirador en el trasplante como un predictor importante de la mortalidad a 1 año.
Lisboa et al. y Agasthi et al. identificaron el tiempo de isquemia como un factor significativo en la mortalidad a 1 y 5 años, respectivamente.
El modelo RF de Killian et al. también encontró que el estado del injerto y los días en estado 1A eran altamente predictivos de la mortalidad a 1, 3 y 5 años.
Los factores postoperatorios también contribuyeron al pronóstico.
Kampaktsis et al. enfatizaron la hemodiálisis postoperatoria como un predictor superior de mortalidad en su modelo CatBoost.
Agasthi et al. también identificaron la duración de la estadía en el hospital como un predictor.
Los autores admitieron que su estudio tuvo varias limitaciones.
En primer lugar, el AUC acumulado calculado (AUC = 0,65) implica que los modelos de IA actuales ofrecen solo un grado limitado de aplicabilidad clínica, ya que generalmente se acepta que en estudios de valor diagnóstico, los valores de AUC superiores a 0,90 indican un rendimiento excelente, mientras que los valores de AUC inferiores a 0,80, incluso si son estadísticamente significativos, implican una utilidad clínica muy limitada.
Sea como fuere, CatBoost ha demostrado ser prometedor al lograr un AUC de 0,80, y se justifica la investigación futura para optimizar este modelo.
En segundo lugar, se observó un alto grado de heterogeneidad al agrupar el rendimiento de los modelos.
El análisis logró atribuir esta heterogeneidad al tipo de modelo y al tiempo transcurrido desde el trasplante de corazón.
Otros factores, como las características de la población y el tipo de enfermedad, también podrían haber contribuido a esta heterogeneidad, ya que algunos de los estudios utilizaron pacientes adultos y pediátricos sometidos a una variedad de procedimientos para su entrenamiento.
No se pudo realizar análisis de subgrupos por tipo de población, ya que el metaanálisis solo incluyó un estudio pediátrico.
De igual manera, el análisis de subgrupos por fuente de datos resultó inviable, ya que solo un estudio del metaanálisis no se basó en registros.
Además, la selección de características, la configuración de hiperparámetros y los métodos de preprocesamiento de datos podrían haber contribuido a la heterogeneidad, ya que se utilizó una amplia gama de métodos para construir los modelos incluidos.
Por ejemplo, en el caso de la selección de características, utilizaron características seleccionadas por profesionales médicos, mientras que utilizaron un método de selección de características de aprendizaje automático (ML).
Asimismo, los modelos podrían haber diferido considerablemente en cuanto a sus hiperparámetros, como el número de árboles en los modelos basados en árboles, el número de capas y nodos utilizados por las redes neuronales (NN) o el número de pliegues de validación cruzada.
En el caso del preprocesamiento de datos, algunos simplemente excluyeron variables con demasiados valores faltantes, mientras que otros utilizaron la imputación para estimar los valores faltantes sin excluirlos.
Lamentablemente, estos aspectos no se informaron de manera uniforme en los diferentes estudios y, en algunos casos, no se incluyeron en los informes.
Como resultado, no se pudo explorarlos en análisis de subgrupos ni metarregresiones.
Sugirieron que los estudios futuros sigan pautas como TRIPOD+AI para permitir que los próximos metaanálisis evalúen el efecto de estos aspectos de los modelos en su rendimiento.
Finalmente, la mayoría de los estudios incluidos se consideraron de baja calidad según la herramienta QUADAS-2.
Recomendaron que las investigaciones futuras se realicen de acuerdo con los informes y las listas de verificación de calidad en la literatura para garantizarla en futuros metaanálisis.
En conclusión, esta revisión sistemática y metaanálisis evaluaron los modelos de aprendizaje automático (ML) para predecir la mortalidad tras el trasplante cardíaco (TC), obteniendo un AUC agrupado de 0,73, con CatBoost obteniendo el mejor rendimiento (AUC de 0,80).
Los modelos de ML demostraron tener el potencial de superar las puntuaciones tradicionales basadas en regresión, como DRI, RSS e IMPACT, al capturar interacciones complejas y no lineales.
Sin embargo, la alta heterogeneidad y la calidad variable de los estudios limitaron la fiabilidad de los resultados agrupados.
Los principales predictores de mortalidad incluyen el diagnóstico y el estado funcional del receptor, la edad y las características del donante.
Los estudios futuros deberían centrarse en mejorar la consistencia metodológica y comparar directamente los enfoques de ML con los modelos tradicionales para optimizar la toma de decisiones clínicas en el TC.
* Mohammadi I, Farahani S, Karimi A, Jahanian S, Firouzabadi SR, Alinejadfard M, Fatemi A, Hajikarimloo B, Akhlaghpasand M. Mortality prediction of heart transplantation using machine learning models: a systematic review and meta-analysis. Front Artif Intell. 2025 Apr 4;8:1551959. doi: 10.3389/frai.2025.1551959. PMID: 40256322; PMCID: PMC12006172.