Dato público, dato privado: el ciclo de vida en la administración pública

CPI datos

Las administraciones públicas son uno de los organismos que más dato tienen y generan. Además, y dado que muchas veces esta información es relativa a los ciudadanos, suelen ser de especial protección

En su afán por seguir desarrollando y ofreciendo servicios de calidad e innovadores, estos organismos púbicos se enfrentan a la necesidad de hacer una buena gestión de todo el ciclo de vida de los datos: desde su generación al tratamiento, validación. Análisis, categorización y posterior utilización.

Además, y como ocurre en muchos otros campos de la tecnología, las AAPP deben tener en cuenta también que no siempre tienen todo el personal que necesitarían o que este no tiene la cualificación suficiente. La administración pública tiene unos retos propios a la hora de hacer una gestión del dato, pero, tal y como quedó demostrado en el encuentro ejecutivo que ByTIC realizó en colaboración con Cloudera y PUE; estos organismos muestran un claro interés por tener una arquitectura del dato en áreas como la securización, los asuntos regulatorios, la digitalización o las Smart Cities.

Como arrancaba Carlos Canitrot, Director de Consultoría de Adjudicaciones TIC, “las AAPP generan muchos datos y gestionarlos consiste en recopilar, mantener y utilizar datos de forma segura para proporcionar un valor añadido a la sociedad y mejorar la vista de las personas”. ¿Uno de los grandes problemas? Que los sistemas están envejecidos.

Big Data en AAPP

Lo que quedó patente desde el primer momento es que las AAPP son unas grandes generadoras de información y que, por tanto, tienen muchas necesidades en materia de Big Data.

Juan Luis Galán, Subdirector Adjunto en la Subdirección General de Tecnologías de Análisis de la Información e Investigación del Fraude Departamento de Informática Tributaria AEAT, explicaba que la AEAT genera mucho información, por lo que uno de los grandes retos es la gestión de todo este volumen de información. “Primero centralizarla, porque no hay un grupo único del gobierno de datos sino muchos departamentos”, contextualizaba, añadiendo que donde más esfuerzos se han realizado es en la seguridad porque la información es crítica. “La seguridad es crítica y está muy centralizado”, subrayaba. Cabe señalar que esta seguridad es activa (quién accede a qué dato) y pasiva (para auditorías de quién accedió y para qué). “Toda la organización es consciente de que el dato al que se accede está supervisado para controlar. Pero también tenemos un departamento de auditoria para verificar si son datos críticos y por qué motivos”.

Aunque la gestión del dato más crítica es todo aquello que tiene que ver con la seguridad, Galán también relataba que la analítica se plantea desde hace 20 años para separar los datos analíticos de los operacionales. “Son bases de datos diferentes y se van migrando datos operacionales para incorporarlos al analítico. En esta migración se genera una meta data muy importante, accesible para saber dónde está la información. Y la información está disponible para que este análisis esté disponible para estadística”, detallaba. Cabe señalar que esta migración se hace tanto con datos diarios como campaña renta o puntuales (como datos históricos de facturación de una empresa), y que la seguridad se aplica en operaciones y analítica.

“Se ha conseguido con esta separación que el dato esté disponible a usuarios de diferentes departamentos. El control es que tengas el permiso para acceder a esta información”, resumía este responsable, adelantando que una de las principales preocupaciones de su organismo tiene que ver con la trazabilidad del dato, para saber por dónde circula o a qué usos se destina.

Hablando de bases de datos, Sara Aguilar Ricart, Jefe de servicio del Boletín Oficial de la Provincia de Barcelona y otras publicaciones Oficiales en Diputación de Barcelona, detallaba que su departamento gestiona el FIDO para “acercar la información pública a la ciudadanía de una forma amigable, con todo tipo de información”. Las fuentes de información fueron cuatro boletines oficiales y con cada vez nuevas bases de datos, por lo que hay 4.700 fuentes de información sobre la que bebe este servicio, pese a lo que “está todo actualizado: desde una única ficha para facilitar toda la información (para ello “nos basamos en las etiquetas HMTML con un programa hecha a medido y en 2018 se implantó un módulo de inteligencia Artificial que da un alto grado de fiabilidad”) a cualquier trámite o gestión.

En estos 23 años de disponibilidad de FIDO se han reunido más de 23 millones de anuncios oficiales y se disponen de diversas API para la reutilización de los datos. “Somos el proveedor de los portales de transparencia, sobre todo de los municipios pequeños”, señalaba Aguilar, quien también remarcaba que la gestión del dato que realizan “permite crear nuevas soluciones para facilitar la información pública según el tipo de beneficiario, como empresas o personas”.

20 Petabyetes

Las magnitudes de la información que manejan las AAPP es creciente, como exponía Bidatzi Marín, responsable de Gobierno del Dato en el Servicio Andaluz de Salud.

“En el servicio de salud andaluz tenemos unos datos muy complejos con una variabilidad y profundidad muy amplia”, arrancaba en su exposición, añadiendo que se tienen muchos datos estructurados pero también no estructurados y que son difíciles de estructurar porque requieren de una flexibilidad amplia para configurar la información en determinados parámetros.

Marín explicaba que su organismo está inmerso desde hace dos años en la evolución del modelo analítico más orientado al Business Intelligence en el que cada proyecto requería mucho trabajo ad hoc para ingeniera de datos. “Queremos evolucionar a uno más flexible en el que no se exija tanta preparación. Es una aspiración pero es difícil eliminar esa alta carga de trabajo en limpieza y preparación de datos. Es la parte menos glamurosa pero es una parte importante en carga de trabajo y de gestión”, exponía.

Este responsable también detalla que para realizar estas tareas se apoyan en un convenio con Red.es para despliegue de analítica avanzada on premise. “Queremos ganar flexibilidad, agilidad para transformar y preparar datos y tener modelo de gobierno razonablemente centralizado”, detallaba. En estos momentos, su departamento tiene las funcionas de gobierno muy parceladas, lo que, en su opinión, añade mucha fricción y gestión adicional. Es por eso que se aspira a un modelo centralizado.

Además, el afán es gestionar la trazabilidad del dato para que los equipos de investigación «puedan trabajar directamente desde los datos sin necesidad de que salgan del sistema y con un modelo de control, securización y auditoría”. Porque, tal y como avanzaba, “hay ámbitos en las que la explosión de datos que nos viene desborda nuestros planteamientos. En un proyecto de genómica se pretenden adquirir secuenciadores avanzados, los profesionales del ramo quieren guardar los datos con máxima granularidad para exploraciones futuras sobre esos genes. Guardar datos en brutos supone generar 20 petabytes anuales de información solo en genómica”, detallaba.

Sergio Rodríguez de Guzmán, CTO de Pue, se “solidarizaba” con Bidatzi Marín asegurando que a él “también me quitaría el sueño” tener que afrontar, solo en un departamento, un incremento anual de 20 PB de información. Además, y como empresa especializada en la implantación y desarrollo de analítica y de operaciones del dato, aseguraba que “es fundamental encontrar soluciones que cumplan todos los ciclos de vida del dato” porque el “tratamiento de datos, limpieza y optimización es fundamental para la calidad de los datos”. Según sus datos, el 80% de los proyectos de tratamiento de datos se va en la preparación y estandarización.

Además, recordaba que “los datos tienen que servir para algo, extraer esa información y mejorar y ofrecer mejores servicios que sean sostenibles” por lo que, en su opinión, “tiene que haber un reto continuo sobre los datos”

Juan Carlos Sánchez, Regional Vice President, Spain & Portugal de Cloudera, señalaba en este sentido que la compañía a la que representa “somos un fabricante que ayudamos a gestionar los datos de las organizaciones” para, precisamente, ser capaces de “sacar valor para ofrecer servicios”. Algo que, en su opinión, va a ser “fundamental” en el día a día de las diferentes administraciones públicas en su gestión de los datos.

Conclusiones

Durante este encuentro se trataron algunos de los principales retos a los que se enfrentan administraciones tan diversas como las que representaban los asistentes: desde más locales a más nacionales y en ámbitos tan dispares como los impuestos, la salud o la gestión de todo tipo de tributos o ayudas.

La trazabilidad del dato y el control pleno de dónde se guardan, quién accede a qué información y con qué finalidad para saber si regreso dio dato tal y como salió o si ha sufrido algún tipo de transformación fueron algunos de los temas que se trataron.

Ya puedes descargar totalmente gratis el Nº8 de nuestra revista

Revista número 8 de ByTIC: ¿Qué aporta la tecnología 5G a la Administración Pública?

ByTIC Media