OmicSpace: cuando el dato sanitario viaja sin moverse

OmicSpace
Comparte la noticia

En algún lugar del Departamento de Salud Valencia La Fe, un equipo de más de treinta personas trabaja para que los hospitales españoles puedan colaborar en investigación sin tener que enviarse mutuamente los datos de sus pacientes. El proyecto se llama OmicSpace y representa una de las apuestas más ambiciosas del sistema público de salud español por construir una infraestructura federada de datos clínicos, genómicos y de biobanco que abarque todo el territorio nacional.

Al frente de este proyecto está María Eugenia Gas López, bióloga molecular reconvertida en gestora de Plataforma de Big Data, Inteligencia Artificial, Bioestadística y Bioinformática desde el Instituto de Investigación Sanitaria La Fe de Valencia, y lo impulsa el Ministerio de Transformación Digital y Función Pública dentro de su estrategia de espacios sectoriales de datos.

La premisa es sencilla de enunciar y extraordinariamente compleja de ejecutar: permitir que un investigador en Madrid y otro en Valencia analicen conjuntos de datos compartidos sin que esos datos abandonen jamás los servidores de cada institución. «Somos capaces de tener cada uno de nosotros los datos en nuestros sistemas, mantenemos el control, y eso para instituciones públicas es muy importante, sobre todo con datos de salud», explica Gas López. «Tenemos un ecosistema que nos permite colaborar, hacer toda la innovación y la investigación traslacional que queramos, pero el dato nunca sale. Eso es un espacio de datos federado».

Las reglas del juego cambian

Hasta hace poco, la colaboración entre centros sanitarios en materia de investigación seguía el mismo patrón: una institución pedía los datos a otra, los recibía en algún formato más o menos acordado y los procesaba en sus propios sistemas.

Sin embargo, ese modelo centralizado arrastraba problemas de gobernanza, costes logísticos elevados (sobre todo cuando se trataba de archivos genómicos o de imagen médica, que pesan enormemente) y un riesgo reputacional que ninguna administración pública puede permitirse ignorar. «Si concentras muchos datos en un punto, es muy goloso para un ataque», advierte la coordinadora de OmicSpace. «Para las instituciones públicas es fundamental transmitir seguridad a las agencias financiadoras y, en nuestro caso, a los pacientes, de que sus datos están protegidos. Tú los tienes dentro de tu casa, en tus muros, con las normas que tú impones».

El modelo federado invierte todo ese proceso. Así, cada hospital o instituto de investigación conserva sus datos en sus propios servidores y lo que circula por la red es el conocimiento extraído, nunca la información bruta.

Esa arquitectura abre además la puerta a un tipo de relación con el sector privado que antes resultaba incómoda: las empresas, incluidas las startups, pueden acceder al dato para validar sus desarrollos tecnológicos, pero lo que se llevan es el resultado del análisis, no el registro clínico. «Tú puedes seguir utilizando el dato, te dejo acceder al dato, puedes validar tus desarrollos, pero aquí. Lo que sacas es el conocimiento, pero no el dato en sí», precisa Gas López. «Eso favorece el ecosistema de colaboración público-privada y también la colaboración público-público entre diferentes instituciones».

Un idioma común para datos que hablaban dialectos propios

Para que dos instituciones puedan trabajar conjuntamente sobre datos que residen en servidores distintos, esos datos tienen que estar estructurados de un modo que ambas máquinas comprendan. Durante años, cada hospital construyó sus bases de datos con criterios internos, casi como idiomas inventados que nadie más podía descifrar.

Gas López recurre a esa misma imagen para explicar el salto cualitativo que suponen los espacios de datos. «Nuestra base de datos antiguamente era como si estuviera en un idioma que solo entendemos nosotros. Ni siquiera es que la tuviera en español; era un idioma mío que no entendía absolutamente nadie», recuerda. «Ahora ya hay estándares para cada tipo de dato. Eso permite la colaboración, hace que las instituciones se puedan conectar y validar información de una manera que antes no era posible».

La estandarización se alinea con los principios FAIR (encontrabilidad, accesibilidad, interoperabilidad y reutilización) que las políticas europeas de ciencia abierta llevan años promoviendo.

Así, OmicSpace no se limita a cumplir esos principios de forma teórica: los convierte en la infraestructura misma del proyecto. Los conectores tecnológicos que enlazan los nodos se basan en el estándar Eclipse y en una herramienta denominada UTILE, que incorpora tanto la función de conexión como capacidades de entrenamiento federado de modelos, probada ya en un proyecto nacional previo.

OmicSpace : ocho nodos, siete comunidades y un horizonte europeo

OmicSpace arrancó operativamente en febrero de 2025, aunque la concesión del proyecto data de 2024. En apenas un año, la red ha crecido hasta contar con ocho nodos distribuidos en siete comunidades autónomas, con presencia confirmada en centros como el Instituto de Investigación Sanitaria La Fe (IIS La Fe), Instituto Aragonés de Ciencias de la Salud (IACS), Grupo de Medicina Xenómica, Instituto de Investigación Sanitaria del Hospital Universitario La Paz (IdiPAZ), Fundación para la Investigación Biomédica del Hospital Universitario Ramón y Cajal (FIBioHRC), Hospital del Mar Research Institute, HARMONY Alliance Fundation, Fundación Pública Andaluza Progreso y Salud, y dos adhesiones adicionales en negociación.

A esa estructura estatal se suma un nodo europeo que conecta el proyecto con el ecosistema continental de datos sanitarios.

«Cuantos más institutos de investigación y universidades podamos tener, más visibilizamos los datos y mayor es la capacidad del sistema», señala Gas López. Esa visibilización es precisamente uno de los valores menos evidentes pero más transformadores de la iniciativa. Hasta ahora, si un investigador quería trabajar con una cohorte de pacientes con una patología concreta, no tenía forma de saber qué hospitales disponían de esos registros. «Tenías que ir preguntando», resume la coordinadora. «Las instituciones públicas de investigación tenemos cohortes que hemos trabajado y depurado, pero no lo sabemos más que nosotros. Lo que se quiere justamente es visibilizar esos datasets y fomentar la colaboración».

Para adherirse a OmicSpace, una institución debe aceptar un documento de gobernanza del dato que establece las reglas de uso y garantiza que cada centro conserva la última palabra sobre el destino de su información. El proceso administrativo es deliberadamente ligero para no desincentivar la incorporación de nuevos nodos.

SAS como motor analítico

En el corazón tecnológico del nodo que coordina OmicSpace está la plataforma SAS, una herramienta que el IIS La Fe utiliza desde mucho antes de que el proyecto existiera.

«Yo me uní en 2018 y ya estaban utilizando SAS», recuerda Gas López. La elección no responde solo al prestigio de la marca ni a sus capacidades analíticas; tiene que ver con un rasgo que resulta decisivo en un entorno hospitalario: la posibilidad de trabajar tanto con código como con objetos visuales, lo que permite a perfiles clínicos sin formación en programación explotar los datos por sí mismos.

«En el hospital, la unidad de documentación clínica y admisión lleva mucho tiempo usando SAS. Son médicos que hacen sus consultas para la propia gestión del hospital y no necesitan saber programar», explica. «En el ámbito asistencial es una herramienta de mucho valor, porque los médicos tienen el conocimiento clínico, no todos van a ser capaces de programar, pero sí son capaces de explotar los datos y sacar conocimiento».

Esa doble naturaleza (código para los científicos de datos, interfaz gráfica para los clínicos) ha permitido un efecto cascada entre investigación y asistencia. Los cuadros de mando que el equipo desarrolla en el marco de proyectos de investigación acaban desplegándose en producción para uso asistencial, porque los entornos de datos son idénticos.

Un ejemplo concreto: un cuadro de mandos de cáncer de próstata, originalmente diseñado para un proyecto de investigación, funciona ya como herramienta de gestión clínica. Otros cuatro cuadros de mando construidos con SAS esperan su despliegue asistencial.

Gas López aclara que las instituciones que se adhieren a OmicSpace no están obligadas a utilizar SAS. «Cada institución puede utilizar sus propias herramientas para explotar los datos», subraya. El dimensionamiento de SAS en La Fe está pensado para su propio nodo; la coordinación del tráfico entre nodos recae en UTILE, y la capa de gobierno utiliza herramientas de IBM.

No obstante, a nivel de la Consellería de Sanidad valenciana y del conjunto de hospitales del departamento, SAS es la columna vertebral para la generación de conocimiento a partir de los datos. «A nivel de Consellería y de hospitales el uso es enorme, porque es la herramienta que tienen para sacar ese conocimiento», reconoce la coordinadora.

Un hospital en el nivel 6 de digitalización

El Departamento de Salud Valencia La Fe se sitúa en el nivel 6 de una escala de madurez digital que va del 0 al 7. El nivel máximo implica la toma de decisiones automáticas basadas en datos. Pero el sexto peldaño significa que prácticamente todos los sistemas corporativos del hospital generan vistas de datos que pueden ser consultadas y analizadas.

Ese ecosistema previo, construido durante años por el departamento de informática del hospital, es lo que ha permitido a OmicSpace trabajar con un alcance de investigación extraordinariamente amplio. «No estamos limitados a una cohorte ni a un tipo de pacientes: son todos los pacientes que ve el departamento. Todos los datos que entran están disponibles para investigar», apunta Gas López.

Ese nivel de digitalización ha facilitado también uno de los hitos más recientes del proyecto: la conexión de la información del biobanco del hospital con el ecosistema de OmicSpace. El biobanco es una colección de muestras biológicas (tejidos, biopsias, tumores) que los pacientes donan voluntariamente para investigación, con una trazabilidad completa desde la recogida hasta el procesamiento. Hasta ahora, si un investigador identificaba una cohorte de pacientes con características interesantes a través de las herramientas analíticas de SAS, no podía saber si de esos pacientes existían muestras disponibles en el biobanco. Esa información viajaba por canales separados. La integración reciente de ambos sistemas permite ahora cruzar datos clínicos, genómicos y de biobanco en un entorno anonimizado.

Genómica: el desafío del almacenamiento masivo

El volumen de los datos genómicos está tensando la infraestructura de almacenamiento de los hospitales. La Fe ha adquirido un nuevo secuenciador, un NovaSeq, destinado a investigación, y el instituto ha tenido que reequilibrar sus inversiones en servidores para absorber el peso de los archivos genómicos, que se suma al de la imagen médica.

La Consellería de Sanidad valenciana, por su parte, trabaja en tres anillos de datos (historia clínica, imagen y genómica) para lograr una interoperabilidad real entre los hospitales y los institutos de investigación de la comunidad autónoma.

En OmicSpace, la ambición es vincular toda la información que genera un análisis genómico completo (no solo las variantes ya conocidas, sino también las desconocidas) con la historia clínica de cada paciente. «Cuando te hacen un análisis genómico no solamente identifican ciertas variantes, identifican otras. La idea es linkarlo todo, porque así puedes buscar nuevos patrones», explica Gas López. «Justamente lo que quieres investigar es lo desconocido. El objetivo es lo desconocido. Enlazar todo lo que se genera en un análisis genómico con la historia clínica tiene un potencial muy grande».

Donde los datos encuentran la bancada de laboratorio

Gas López acumula más de veinte años de biología molecular a sus espaldas, especialmente en investigación básica con plantas y levaduras, de tesis doctorales y estancias posdoctorales. Su trayectoria le otorga una perspectiva inusual al frente de un proyecto de ciencia de datos: la convicción de que el análisis computacional no reemplaza la experimentación de laboratorio, sino que la orienta.

«El análisis de datos masivos te permite identificar patrones que a simple vista no verías. Pero luego siempre llega la validación, que es la parte más artesanal de la investigación», afirma. «Muchas veces la gente tiene la idea de que esto es solo cosa de frikis de los datos, y no es verdad, porque ese conocimiento luego tienes que validarlo».

Esa tensión productiva entre la escala masiva de los datos y la precisión quirúrgica del experimento de laboratorio está en el ADN intelectual de OmicSpace. Los algoritmos pueden correlacionar nuevos biomarcadores, identificar mutaciones relevantes o sugerir interacciones proteína-ligando que nadie había descrito. Pero después, alguien tiene que bajar a la bancada, construir una línea celular, diseñar un modelo experimental y verificar la hipótesis con un microscopio confocal. «Es como un hilo del ovillo», describe Gas López. «Tienes que ir estirando y haciendo los experimentos dirigidos para validar».

La biología, reconoce, es de una complejidad que desafía cualquier modelización. «Es muy complicada, hay muchas interacciones, muchas que desconocemos. Siempre tienes que simplificar y es imposible reproducirlo todo», admite. Y sin embargo, recuerda que aquello que sus profesores en la universidad llamaban «basura molecular» terminó siendo la clave de descubrimientos fundamentales años más tarde. Ese recordatorio le sirve para mantener la humildad ante lo que los datos pueden y no pueden revelar.

Un proyecto diseñado para quedarse

La financiación competitiva de OmicSpace tiene fecha de caducidad: el 30 de junio de 2026. Pero la infraestructura que se está construyendo no está concebida como un ejercicio temporal.

«Es un proyecto para quedarse, que tiene que mantenerse», afirma Gas López, quien ha transmitido al Ministerio la necesidad de contar con algún tipo de financiación continuada que permita sostener un espacio de datos que aspira a ser autosostenible sin dejar de contar con respaldo institucional.

Los hitos acumulados en apenas un año avalan la viabilidad de esa ambición. El equipo ha completado la migración de todo su entorno SAS a una infraestructura cloud con estándares de seguridad superiores a los del centro de procesamiento de datos del hospital, ha desplegado y conectado la mayoría de los nodos de la red, ha iniciado la integración del biobanco y la información genómica, y ha comenzado a producir cuadros de mando que ya se aplican en la gestión clínica cotidiana.

«Un hito muy grande ha sido subir toda nuestra información a ese entorno cloud con medidas de seguridad muy altas», destaca la coordinadora. «Toda la migración de los desarrollos que teníamos de SAS, volver a pasarlos a nuestro propio entorno, para nosotros es un hito importante».

María Eugenia Gas López confiesa que le parece “extraordinario tener la capacidad de identificar cosas nuevas que no se te habían ocurrido. Lo veo con la misma ilusión que cuando estaba en la bancada. Una de las cosas más bonitas de la investigación es que sigues aprendiendo todos los días de tu vida, da igual dónde estés».


Comparte la noticia