Retos Técnicos del Desarrollo de Enara MLS®

Enara MLS® es una solución de analítica avanzada que, mediante modelos expertos de Machine Learning desarrollados por Sigesa, permite a las organizaciones sanitarias analizar sus resultados con una perspectiva innovadora. Esta herramienta ayuda a evaluar si la gestión clínica se encuentra dentro de los parámetros esperados, detectar desviaciones y predecir la evolución de indicadores clave. En nuestro artículo “Transformando la Gestión Hospitalaria con Inteligencia Artificial y Machine Learning”, exploramos cómo nuestros clientes están revolucionando su operativa con Enara MLS®.

Con más de 30 años de experiencia en datos sanitarios (desde 1993) y presencia en múltiples países, en Sigesa hemos dedicado los últimos años (desde 2018) a perfeccionar modelos de Machine Learning específicos para el sector salud. Sin embargo, alcanzar la fiabilidad y precisión que exigen nuestros estándares MLS® no ha sido un proceso sencillo.

Durante el desarrollo de Enara MLS®, enfrentamos y superamos desafíos clave para garantizar modelos robustos, interpretables y adaptables a la realidad sanitaria. A continuación presentamos 6 retos que tuvimos que resolver para asegurar la fiabilidad clínica, la precisión predictiva y la implementación efectiva de nuestros modelos de inteligencia artificial en entornos sanitarios reales:

  • 1. La paradoja de la IA en hospitales reales – Cómo creamos modelos que se adaptan al día a día de los hospitales

Uno de los principales retos fue la variabilidad en los datos entre regiones y hospitales, donde la heterogeneidad en codificación, estructura y prácticas clínicas exigió la implementación de criterios de estandarización avanzados que permitieran homogenizar la información sin sacrificar su riqueza analítica. Asimismo, las diferencias entre tipologías de hospitales (en tamaño, complejidad y perfil de pacientes) requirieron la incorporación de variables contextuales y ajustes específicos para asegurar que las predicciones se adaptaran a cada contexto hospitalario.

Además, es crucial que los modelos no solo comprendan las variables del episodio clínico de forma aislada, sino que también se integren dentro de un contexto clínico más amplio, relacionándolos con variables derivadas de las cronicidades y las comorbilidades o los antecedentes médicos (reingresos pasados, estancia hospitalaria total, etc.). Mediante esta metodología hemos logrado que Enara MLS® sea válido para cualquier tipo de episodio clínico (urgencias, hospitalización, cirugía, etc.) y casuística operacional del hospital (desde pacientes agudos hasta crónicos complejos).

  • 2. Cuando los códigos clínicos hablan su propio idioma – Cómo integramos modelos que entienden jerarquías de diagnósticos y procedimientos

La información clínica más relevante de un episodio se encuentra contenida en las listas de diagnósticos y procedimientos, en España normalmente codificadas mediante el standard CIE-10-MC y CIE-10-PCS. La CIE (Clasificación Internacional de Enfermedades) incluye una enorme cantidad de códigos, cada uno con una estructura jerárquica que refleja relaciones complejas entre enfermedades y condiciones. Por ejemplo, un código como “E11” (Diabetes mellitus tipo 2) puede desglosarse en subcategorías más específicas, como por ejemplo “E11.622” (Diabetes Mellitus tipo 2 con úlcera cutánea de otras localizaciones).

La incorporación de este tipo de información en modelos de Machine Learning, enfrenta desafíos técnicos debido a su estructura jerárquica y su variabilidad. Además, es necesario que se proporcione suficiente información sobre las interrelaciones entre códigos dentro de un mismo episodio o incluso a lo largo de la historia clínica. Esta complejidad exige una representación más inteligente de la información que va más allá de simples variables numéricas o categóricas.

Por ello, en Sigesa hemos aplicado técnicas de Procesamiento de Lenguaje Natural (PLN; NLP), y en concreto el uso de representaciones eficientes como embeddings semánticos, para capturar las relaciones entre códigos para potenciar las capacidades predictivas de los modelos. Las representaciones de embeddings son especialmente potentes debido a que permiten construir vectores que capturan el contexto y el significado de cada conjunto de códigos. Además, el preprocesamiento de los datos se vuelve crucial, ya que debe incluir técnicas como la normalización de términos o la tokenización de secuencias de texto.

  • 3. Rompiendo el mito del “Big Data” – Cómo superamos la escasez de muestras en indicadores críticos

En el ámbito sanitario, para poder abarcar todas las particularidades y variabilidad de los episodios clínicos, es especialmente relevante tener que manejar grandes volúmenes de datos, que además son extensos y complejos. Esto representa un desafío crucial a la hora de aplicar técnicas de Machine Learning, ya que la reducción de la información no puede realizarse de forma aleatoria sin comprometer la representatividad y diversidad de las muestras originales.

Para abordar este reto, es fundamental emplear estrategias avanzadas que mantengan la diversidad y las proporciones de las muestras originales. Métodos como el muestreo estratificado permiten seleccionar subconjuntos de datos asegurando que todas las categorías o grupos se mantengan proporcionalmente representados. Por ejemplo, en SIGESA para la creación de modelos incorporamos en los datasets información sobre los Grupos Relacionados por el Diagnóstico (GRD), que agrupan episodios de atención hospitalaria con características y costes similares. Un muestreo adecuadamente estratificado, puede garantizar que cada GRD esté adecuadamente representado en el subconjunto de datos, preservando la distribución de casos complejos como aquellos contenidos en GRDs de enfermedades cardiovasculares u oncológicas, mientras que se “subsamplean” los más comunes y de poca complejidad como los relacionados con partos.

Estas técnicas posibilitan una reducción significativa del volumen de datos sin perder información esencial, lo que contribuye a un entrenamiento más eficiente y a la mejora tanto de la interpretabilidad como de la fiabilidad de los modelos de Machine Learning.

  • 4. El desafío de los datos invisibles – Cuando lo que no se registra distorsiona la realidad

El desbalanceo de datos es un reto significativo en conjuntos de datos donde la variable objetivo (i.e. la variable a predecir), como la presencia de una enfermedad o condición médica rara, está representada por una proporción muy baja de casos en comparación con las clases mayoritarias. Este desequilibrio puede dificultar el entrenamiento de modelos, ya que los algoritmos tienden a aprender mejor de las clases más representadas, pasando por alto o subestimando las clases menos representadas.

En el contexto sanitario, esto puede tener consecuencias negativas, como la falta de detección de enfermedades raras o condiciones críticas que afectan a una pequeña parte de la población. Un ejemplo claro se da en la predicción de mortalidad en pacientes con enfermedades poco comunes, como ciertos tipos de cáncer o trastornos genéticos raros, donde la baja frecuencia de casos dificulta la identificación de patrones de riesgo.

Para abordar este desafío, existen diversas soluciones, siendo una de las más efectivas el uso de técnicas de sobremuestreo de las clases minoritarias (como SMOTE, que genera ejemplos sintéticos). Asimismo, la aplicación de algoritmos de aprendizaje ponderado, que ajustan la relevancia de las clases en función de su frecuencia, puede mejorar la capacidad del modelo para identificar correctamente las clases minoritarias.

  • 5. La necesidad de supercomputación – Cuando las necesidades de la IA chocan con la realidad tecnológica de los centros

La capacidad de procesamiento es un reto fundamental en la aplicación de técnicas de Machine Learning. Los centros sanitarios generan cantidades masivas de datos provenientes de diversas fuentes, lo que exige infraestructuras computacionales capaces de gestionar, analizar y procesar datos de manera eficiente.

En este escenario, las unidades de procesamiento gráfico (GPU) han cobrado gran relevancia frente a las unidades de procesamiento central (CPU). Mientras que las CPU están diseñadas para tareas generales y procesamiento secuencial, las GPU destacan por su capacidad de cálculo paralelo, lo que les permite manejar grandes cantidades de datos de manera simultánea.

Mediante la optimización de una infraestructura basada en GPU, en Sigesa hemos experimentado una aceleración significativa del entrenamiento de modelos de Machine Learning, disminuyendo el tiempo requerido para obtener resultados y reduciendo el coste de entrenar y desplegar modelos de Inteligencia Artificial.

  • 6.  El Dilema de la Caja Negra – Logrando la transparencia en la comunicación de resultados

Un desafío que puede clasificarse tanto técnico como comunicativo, es la transferencia de conocimiento del ámbito técnico al usuario, lo cual implica asegurar la transparencia en los resultados obtenidos por los modelos.

Este proceso es especialmente complejo, ya que consiste en comunicar de manera efectiva tanto las fortalezas del modelo como sus debilidades, especialmente en lo que respecta a su rendimiento en situaciones específicas. La dificultad radica en explicar de manera comprensible los casos en los que el modelo puede fallar, por causas como la insuficiencia de datos en el entrenamiento o la potencial presencia de sesgos en los mismos. No obstante, la transparencia es un elemento clave, ya que contribuye a generar confianza y permite a los usuarios tomar decisiones más fundamentadas.

Para abordar este desafío, es esencial presentar de forma clara y accesible tanto los puntos fuertes como las limitaciones del modelo, detallando los factores que afectan en su desempeño. Este enfoque asegura que los usuarios puedan comprender las capacidades y los límites del sistema, facilitando su integración y uso responsable.

¿Quieres conocer más información sobre cómo funciona Enara MLS® y cuáles pueden ser los beneficios para tu organización de su implementación? Solicítanos más información aquí