Artículo original

 

 

 


ARQUITECTURA DE REFERENCIA DE ECOSISTEMAS DE DATOS BASADA EN DATA MESH & DATA FABRIC

 

 

DATA ECOSYSTEMS REFERENCE ARCHITECTURE BASED ON DATA MESH & DATA FABRIC

 

 

 

Tatiana Delgado Fernández *             https://orcid.org/0000-0002-4323-9674

 

Universidad Tecnológica de La Habana “José Antonio Echeverría”, La Habana, Cuba

 

*Autor para dirigir correspondencia: tatiana.delgado@uic.cu

 

Clasificación JEL: O32, O33, O39

 

DOI: https://doi.org/10.5281/zenodo.7294747  

 

Recibido: 18/08/2022

Aceptado: 25/10/2022

 

 

Resumen

 

La transformación digital exige cambios acelerados y profundos para aprovechar las tecnologías y los datos en función de hacer más eficaz la toma de decisiones con agilidad y autosostenibilidad. La complejidad de los datos en la era moderna y los silos que se generan a gran escala impulsan la emergencia de nuevos modelos y arquitecturas de gestión de datos que se enfocan a las características intrínsecas de los ecosistemas digitales, caracterizados por las fuertes interrelaciones de diversos actores a lo largo de la cadena de valor, las plataformas como base para interoperar entre ellos y la coevolución de los productos de datos que emanan de fuentes cada vez más heterogéneas. Este artículo propone el diseño de una arquitectura de referencia de ecosistemas de datos basada en las arquitecturas de datos que mejor están soportando la gestión de datos en este complejo escenario: Data Mesh y Data Fabric, y con el empleo de grafos de conocimiento para la integración. Como método se emplea un análisis de la literatura más reciente sobre gestión y arquitecturas de datos para extraer los principios y componentes arquitectónicos que se emplean en el diseño de tal arquitectura de referencia. Se obtiene una representación abstracta de arquitectura de referencia de ecosistemas de datos, cuyo modelo operacional se verifica teóricamente. La misma es el punto de partida de futuras investigaciones que se encaminarán hacia su implementación en casos de uso reales y el modelado organizacional relativo a los roles de los actores que se involucran en el ecosistema reflejado en la propia arquitectura.

 

Palabras clave: arquitectura de datos, ecosistema, Data Mesh, Data Fabric, grafos de conocimientos

 

Abstract

 

Digital transformation requires rapid and profound changes to take advantage of technologies and data in order to make decision-making more effective with agility and self-sustainability. The complexity of data in the modern era and the silos that are generated at big scale drive the emergence of new data management models and architectures that focus on the intrinsic characteristics of digital ecosystems, characterized by the strong interrelationships of various actors through along the value chain, the platforms as the basis for interoperating with each other and the co-evolution of data products that emanate from increasingly heterogeneous sources. This article proposes the design of a reference architecture for data ecosystems based on the data architectures that are best supporting data management in this complex scenario: Data Mesh and Data Fabric, and with the use of knowledge graphs for the integration. As a method, an analysis of the most recent literature on data management and architectures is used to extract the principles and architectural components that are used in the design of such a reference architecture. An abstract representation of the reference architecture of data ecosystems is obtained, whose operational model is theoretically verified. It is the starting point for future research that will be directed towards its implementation in real use cases and organizational modeling related to the roles of the actors involved in the ecosystem reflected in the architecture itself.

 
Keywords: data architecture, ecosystem, Data Mesh, Data Fabric, knowledge graphs
 

Introducción

 

Los datos tienen un papel y un valor cada vez más importantes para facilitar la toma de decisiones. El volumen, la variedad, la velocidad, la veracidad, como requisito de calidad, y el valor que suponen los datos modernos suelen emplearse para definir el concepto Big data, un término que más que datos grandes o masivos, caracteriza su complejidad y el cambio paradigmático que ha venido ocurriendo en las arquitecturas que los gestionan.

 

Los llamados datos analíticos se están convirtiendo en un componente cada vez más crítico del panorama tecnológico. Son la base para visualizaciones e informes que brindan información sobre un negocio u organización. Además, se utilizan para entrenar modelos de aprendizaje automático que aumentan el negocio con inteligencia basada en datos. Es el ingrediente esencial para que las organizaciones pasen de la intuición y la toma de decisiones guiada por el instinto a la adopción de medidas basadas en observaciones, y predicciones soportadas en datos. Permite un cambio tecnológico de algoritmos basados ​​en reglas, diseñados por humanos, a modelos de aprendizaje automático.1

 

En este nuevo escenario, se hace más palpable el desafío de los "silos de datos" por la naturaleza cada vez más heterogénea de los mismos. Un silo de datos significa que los datos no son tan accesibles como deberían ser o tal vez no para los equipos que no son los que los generan. Si se requiere una gran cantidad de tiempo solo para decodificar los datos para que sean traducibles a otro equipo, es probable que haya uno o más silos de datos en la organización. Los silos de datos surgen de problemas estructurales (muchas capas de separación entre equipos), culturales (es decir, mantener los datos separados, en lugar de trabajar juntos) y tecnológicos (es probable que las aplicaciones no estén diseñadas para integrarse juntas).2

 

Para enfrentar estos desafíos, los modelos y arquitecturas que soportan la gestión de los datos están cambiando. Una de las arquitecturas más mencionadas en los círculos de avanzada en este entorno es Data Mesh o tejido de datos, considerado un enfoque sociotécnico descentralizado para compartir, acceder y administrar datos analíticos en entornos complejos y de gran escala, dentro o entre organizaciones. Se basa en cuatro principios fundamentales: propiedad del dominio, datos como producto, plataforma de autoservicio de datos y gobernanza computacional federada.1

 

Otra arquitectura emergente que está posicionándose en el escenario de gestión de datos es Data Fabric (DF) que, en general, se puede definir como un conjunto de principios de gestión de datos, prácticas rectoras, comunidades y estándares que pueden "... optimizar el acceso a los datos distribuidos de una organización y curarlos y organizarlos de manera inteligente para la entrega de autoservicio."3 Es un sistema que proporciona una arquitectura unificada para administrar y proporcionar datos. Generalmente, se realizan como sistemas distribuidos orientados a servicios donde los conjuntos de servicios proporcionan interfaces consistentes y mecanismos para acceder a datos y capacidades de almacenamiento.4

 

Considerando las diversas y múltiples interrelaciones que surgen entre los conjuntos de datos de diferentes dominios y los también diversos actores que los gestionan, frecuentemente se describen estos escenarios como ecosistemas digitales,5 dentro de los cuales, los ecosistemas de datos emergen con especial fuerza, dada la importancia crucial que alcanza la gestión integrada de datos para tomar decisiones con mayor eficacia y basada en contexto.

 

Un ecosistema de datos se puede definir como: un conjunto de redes, compuestas por actores autónomos que directa o indirectamente consumen, producen o proporcionan datos y otros recursos relacionados (por ejemplo, software, servicios e infraestructura). Cada actor desempeña uno o más roles y está conectado a otros actores a través de relaciones, de tal manera que la colaboración y competencia de los actores promueve la autorregulación del ecosistema de datos.6

 

El objetivo de este artículo es proponer una arquitectura de referencia de ecosistemas de datos, basada en la fusión de componentes de las emergentes arquitecturas Data Mesh y Data Fabric, para ofrecer un modelo abstracto del cual se puedan instanciar diferentes arquitecturas de ecosistemas de datos de distintos dominios, empresas, e incluso, para eliminar los silos de datos interinstitucionales, y alcanzar un nivel de integración de datos del gobierno a nivel central, como parte de la implementación de las políticas de transformación digital.

 

Materiales y Métodos

 

Para definir la arquitectura de referencia de ecosistemas de datos, se emplea una metodología de investigación híbrida donde se integran métodos de análisis de literatura para sustentar científicamente la propuesta, junto a otros métodos de modelado de arquitecturas de datos modernas, que den respuesta a una gestión eficaz de los datos complejos que se generan en la era de la transformación digital. La Figura 1 muestra el esquema de las fases que guiaron metodológicamente el desarrollo de la investigación.


Figura 1. Metodología para definir la arquitectura de referencia de ecosistemas de datos

Fuente: elaboración propia.

 

La primera fase corresponde con el análisis de la literatura, para lo que fue usado Google académico, debido a su versatilidad, al cubrir una amplia variedad de publicaciones, como artículos, libros, actas de congreso, tesis, y otros materiales. Se incluyen, además, algunas fuentes de la llamada literatura gris, en este caso, fuentes electrónicas provenientes de líderes globales en el tema de gestión de datos, que están marcando pautas en las arquitecturas de datos, en particular en relación con las emergentes arquitecturas Data Mesh y Data Fabric. El objetivo de aplicar este método es revelar los principios y características distintivas de estas arquitecturas que por ser tan disruptivas se encuentran pocas evidencias científicas de su implementación. Sin embargo, se identifican como tendencias en los informes de consultoras mundiales, como Gartner, y proveedores como IBM y Microsoft. Una vez que se analizan las arquitecturas, cuyos componentes serán evaluados para reutilizar en la de referencia, se pasa a establecer el marco conceptual de ecosistemas de datos, que ocupa otro cuerpo de conocimientos, aunque muy interrelacionado con el primero.

 

La segunda fase es como tal el diseño de la arquitectura de referencia de ecosistemas de datos. Con los componentes arquitectónicos de Data Mesh y Data Fabric, que resultaron del estudio de las arquitecturas seleccionadas en la primera fase, se diseña la nueva arquitectura de referencia, manteniendo especial cuidado en los principios heredados de sus antecesoras y de los propios ecosistemas de datos.

 

Resultados

 

Data mesh o tejido de datos

 

Los cuatro principios que sustenta la arquitectura lógica y el modelo operativo de un tejido de datos son: (1) propiedad de datos descentralizada orientada al dominio, (2) datos como producto, (3) plataforma de datos de autoservicio, y (4) gobierno computacional federado.1 Estos principios se describen a continuación:

 

1.      Principio de propiedad del dominio. Descentraliza la propiedad de los datos analíticos a los dominios de negocio más cercanos a los datos, ya sea la fuente de los datos o sus principales consumidores. Descompone los datos (analíticos) de forma lógica y en función del dominio de negocio que representan, y gestiona el ciclo de vida de los datos orientados al dominio de forma independiente. Alinea arquitectónica y organizativamente datos de negocio, tecnológicos y analíticos. Existen tres arquetipos de datos orientados al dominio: datos de dominio alineados con la fuente, datos de dominio agregados y datos analíticos.

2.      Principio de datos como producto. Con este principio en vigor, los datos orientados al dominio se comparten como un producto directamente con los usuarios de datos: analistas de datos, científicos de datos, etc. Cada producto de datos es autónomo y su ciclo de vida y modelo se gestionan independientemente de los demás. Los datos como producto introducen una nueva unidad de arquitectura lógica llamada quantum de datos, que controla y encapsula todos los componentes estructurales necesarios para compartir datos como un producto (datos, metadatos, código, política y declaración de dependencias de infraestructura) de forma autónoma. Obtiene un mayor valor de los datos al compartir y usar datos más allá de los límites de la organización.

3.      Principio de la plataforma de autoservicio de datos. Este principio conduce a una nueva generación de servicios de plataforma de datos de autoservicio que permiten a los equipos multifuncionales de dominios compartir datos. Los servicios de la plataforma se centran en eliminar la fricción del viaje de extremo a extremo del intercambio de datos, desde la fuente hasta el consumidor. Los servicios de la plataforma gestionan el ciclo de vida completo de los productos de datos individuales. Gestionan un tejido fiable de productos de datos interconectados. Proporcionan experiencias a nivel de tejido, como mostrar el grafo de conocimiento emergente y el linaje a través del tejido. La plataforma agiliza la experiencia de los usuarios de datos para descubrir, acceder y utilizar productos de datos. Asimismo, agiliza la experiencia de los proveedores de datos para crear, implementar y mantener productos de datos.

4.      Principio de gobernanza computacional federada.  Este principio crea un modelo operativo de gobierno de datos basado en una estructura federada de toma de decisiones y de responsabilidad, con un equipo compuesto por representantes de dominio, plataforma de datos y expertos en la materia: legal, conformidad, seguridad, etc. El modelo operativo crea un incentivo y estructura de rendición de cuentas que equilibra la autonomía y la agilidad de los dominios, con la interoperabilidad global del tejido. El modelo de ejecución de gobierno se basa en gran medida en la codificación y automatización de las políticas en un nivel detallado, para cada producto de datos, a través de los servicios de la plataforma.

 

El tejido de datos proporciona la integración flexible y resiliente de las fuentes de datos entre distintas plataformas y usuarios comerciales, para que estén disponibles desde cualquier lugar donde se necesiten e independientemente de dónde se alojen.7

 

La plataforma multiplano1 del tejido de datos permite distinguir entre diferentes clases de servicios de plataforma en función de su ámbito de operación sin imponer una estratificación estricta. Los tres planos de la plataforma incluyen:

 

-          Plano de infraestructura de datos. Servicios atómicos para aprovisionar y administrar recursos físicos como almacenamiento, orquestación de canalizaciones, cómputo, etc.

-          Plano de experiencia del producto de datos. Servicios de abstracción de nivel superior que operan directamente con un producto de datos y permiten a los productores y consumidores de productos de datos crear, acceder y proteger un producto de datos, entre otras operaciones que se ejecutan en un producto de datos.

-          Plano de experiencia del tejido. Servicios que operan en un tejido de productos de datos interconectados, como la búsqueda de productos de datos y la observación del linaje de datos entre ellos.

 

Los consumidores de la plataforma (desarrolladores de productos de datos, consumidores, propietarios, la función de gobierno, etc) pueden acceder directamente a todos estos planos.

 

La Figura 2 ofrece una vista de los tejidos de datos como una capa integrada de datos conectados.

 

Figura 2. Tejido de datos como capa integrada de datos conectados

Fuente: Gartner7

 

Este enfoque de Gartner sobre tejido de datos es más cercano al de la arquitectura Data Fabric, porque identifica de forma más consciente esta capa tecnológica integrada, que generalmente es resuelta en forma de grafos de conocimientos.

 

Data Fabric

 

Data Fabric que en español también se puede traducir como tejido de datos y para no confundir con el anterior enfoque se llamará por su término o siglas en inglés (DF), constituye una arquitectura de información y una plataforma para la gestión de datos y la integración a nivel de datos, y proporciona interfaces, API y servicios para la integración y comunicación de los sistemas involucrados. Desde una perspectiva de nivel de sistemas, DF puede verse como un sustrato de comunicación que proporciona un mecanismo unificado para el acceso y la manipulación de datos para todas las herramientas del proyecto.4. Esta arquitectura de datos es más bien un marco que permite la implementación automática e inteligente de extremo a extremo de múltiples canales de datos, así como entornos de nube.3

 

La naturaleza distribuida de las DF permite la escalabilidad, la implementación flexible y la adaptación del sistema y, a menudo, se aprovecha para, por ejemplo, facilitar la integración de sistemas a través de los límites organizacionales o combinar el uso de recursos locales y basados en la nube. Si bien se diseñaron principalmente como sustratos para la administración de datos y la comunicación de sistema a sistema, los DF también pueden exponer interfaces y herramientas a los usuarios finales para facilitar el desarrollo de mecanismos para administrar, buscar y analizar datos de manera conveniente.4

 

Dado que los datos distribuidos de una organización evolucionarán con el tiempo, tanto en contenido como en escala y formato, es importante contar con un enfoque flexible y escalable. Estos conceptos de evolución y escalabilidad son fundamentales en las arquitecturas Data Fabric.  Un modelo DF siempre debe esforzarse por cooperar con las comunidades y los grupos de trabajo debido al valor inherente de los datos y servicios conectados. Parte de esa cooperación puede resultar y resulta en estándares y enfoques publicados formalmente. También hay que considerar principios de diseño, como:

 

·         Disponibilidad de datos, referido a que los datos deben ser intuitivos.

·         Valor de los datos, es decir, tienen un valor intrínseco.

·         Datos conectados, que significa que son inherentemente más valiosos cuando están conectados.

·         Los datos deben ser FAIR, conocido por sus siglas en inglés que en español significan encontrables, accesible, interoperable y reutilizables.

·         Armonía entre datos, servicios y software. Es recomendable usar ontologías y varios otros enfoques semánticamente expresivos, tanto técnica como conceptualmente.

·         Aprender de sus datos, es decir si se capturan y conectan correctamente, puede aprender mucho sobre sus datos, lo cual proporcionarán valor a su esfuerzo y misión, en general. Se recomienda usar inteligencia artificial para tratar de aprender patrones que podrían ser útiles a un nivel más amplio, usar análisis estadísticos para determinar las formas más eficientes de resolver problemas y utilizar flujos de trabajo predictivos basados ​​en el conocimiento actual, entre otras técnicas.

 

Con el fin de aumentar la salud de los datos, Data Fabric ofrece capacidades integradas de calidad de los datos, preprocesamiento de datos y gobernanza de la información que están habilitadas por el aprendizaje automático y la automatización mejorada.8

 

DF se resume como un diseño de gestión de datos que permite la integración y el intercambio de datos entre fuentes de heterogéneas, para lograr integración flexible, reutilizable y aumentada de datos, que utilizan grafos de conocimiento, semántica y aprendizaje automático/inteligencia artificial, en metadatos activos, para respaldar un acceso y uso compartido de datos de forma más rápida y, en algunos casos, automatizado, independientemente de las opciones de implementación, casos de uso (operativos o analíticos) o enfoques arquitectónicos.7

 

La integración a nivel de datos en Data Fabric ocurre con frecuencia a través de los grafos de conocimiento (KG). Un KG es un modelo conceptual de un dominio de conocimiento, en este caso el diseño de su producto y su proceso de creación. Los expertos en dominios usan un KG de este tipo para describir y resolver problemas relacionados con el dominio, utilizando sus conceptos del mundo real, el vocabulario y las relaciones entre estos conceptos. El KG no necesariamente debe contener todos los datos disponibles en una organización o el dominio que represente. Esto sería indeseable y, por lo general, incluso poco realista. En su lugar, existen varias opciones para relacionar KG y datos y, por lo general, un KG reúne estos aspectos, equilibrando flexibilidad, costo y actuación.4 Entre estas opciones se encuentran:

 

·         Individuos directos. Un KG puede contener a todos sus individuos dentro de su infraestructura. Esta es la forma tradicional de construir un KG, que contiene todos los conceptos e individuos.

·         KG Virtual. Si bien un KG puede contener a los individuos por sus conceptos, no es necesario que los contenga físicamente en todos los casos. Un KG virtual obtiene dinámicamente algunos de sus individuos de otros tipos de almacenamiento y se los proporciona al usuario que lo solicita. Esto hace que se escalen mejor cuando aumenta el número de individuos.

·         KG de referencia. A veces no se desea almacenar individuos en el KG y simplemente acceder a ellos a través del KG. El mero tamaño de los datos relacionados puede ser prohibitivo, o un KG puede no ser adecuado para representar a esas personas. Esto es, por ejemplo, aplicable a los datos de series temporales, que son muy frecuentes en los escenarios de producción del proyecto. Sin embargo, un KG no tiene la estructura adecuada para manejar de manera eficiente cantidades masivas de mediciones basadas en el tiempo para una gran cantidad de propiedades físicas operativas. En su lugar, el KG debe manejar dichos valores como hojas en su estructura: en lugar de contener los valores como individuos y apuntar a la entrada de acceso a datos adecuada del Data Fabric.

 

Data Fabric y Data Mesh proporcionan arquitecturas para acceder a los datos a través de múltiples tecnologías y plataformas. Se diferencian en que la primera está centrada en la tecnología, mientras que el tejido de datos se enfoca más en el cambio organizacional. Se pueden mezclar para aprovechar las ventajas de ambos, porque existe una gran compatibilidad entre ellas. Data Fabric le da más sentido al cómo se integran los datos de forma armónica al proporcionar explícitamente la variante de grafos de conocimientos. Esto será particularmente aprovechado en la arquitectura de referencia que se diseña en esta investigación.

 

Ecosistemas de datos

 

La metáfora de los ecosistemas se ha utilizado para describir múltiples y variadas interrelaciones entre muchos actores e infraestructura que contribuyen a la creación de un recurso, por ejemplo, negocio, servicio o software.9 En este sentido, los ecosistemas presentados van más allá de las cadenas de valor tradicionales y la estructura industrial al tener tres características principales: red, plataforma y coevolución. La primera característica establece la existencia de una red flexible de actores, incluidos desarrolladores, proveedores, revendedores y proveedores de tecnología e infraestructura. Todos los actores están comprometidos con la producción de valor o la extracción de valor del ecosistema. La segunda característica es una “plataforma” (por ejemplo, servicios, herramientas o tecnologías) que los actores del ecosistema pueden utilizar para generar beneficios. La plataforma permite que diferentes actores contribuyan al ecosistema y da como resultado un conjunto de productos o servicios. Finalmente, el ecosistema permite que los actores y productos de datos evolucionen conjuntamente, es decir, ser parte de un ecosistema que exige colaboración y conexión entre diferentes actores en diferentes campos de especialización y conocimiento, y entre los artefactos que generan. Al mismo tiempo, ser parte del ecosistema permite a los actores tener acceso entre sí, como proveedores, innovadores o solucionadores de problemas, ya sea que trabajen de forma independiente o dentro de organizaciones de investigación, organizaciones privadas o públicas.6

 

Por lo tanto, un ecosistema de datos puede verse como otra instancia de un ecosistema digital.5 Además, un ecosistema de datos puede concebirse como parte de múltiples tipos de ecosistemas organizados en torno a empresas, recursos y productos proporcionados por diferentes actores. Los objetivos más amplios de innovación y creación de valor se traducen en términos más específicos relacionados con cada contexto de ecosistema específico. En particular, los datos se pueden utilizar para respaldar negocios, brindar innovación, promover la transparencia para los gobiernos, validar la investigación y muchos otros objetivos. Además de estar interconectados, los límites entre un ecosistema de datos y otros ecosistemas son difíciles de definir. Por ejemplo, un ecosistema de datos puede implicar ecosistemas de software sobre la red de actores involucrados en el desarrollo y suministro de software relacionado con datos.9 También en la administración pública surgen ejemplos de ecosistemas de datos para el Gobierno.10 

 

Los marcos de trabajo y las arquitecturas de los ecosistemas de datos están aún en su infancia y aunque hay algunas interesantes propuestas,11-14 queda mucho espacio para investigar en busca de un modelo de gestión optimizada de datos complejos, en ambientes distribuidos, como sistemas socio-técnicos, y de forma interoperable e integrada.

 

Los mecanismos de gestión y arquitecturas de datos son componentes taxonómicos de la transformación digital,15 que facilitan su adopción. En este artículo, se sitúa en el centro a los ecosistemas de datos para proponer una arquitectura que sea capaz de respaldar las implementaciones tecnológicas y organizacionales de este paradigma, cuya esencia misma está basada en ecosistemas digitales.

Arquitectura de ecosistemas de datos basada en Data Mesh y Data Fabric

 

Para diseñar la arquitectura de referencia de ecosistema de datos, se reutilizan los cuatro principios de Data Mesh1: propiedad del dominio, datos como producto, plataforma de autoservicio de datos y gobernanza computacional federada. La Figura 3 presenta la Arquitectura de referencia de ecosistemas de datos propuesta.

 


Figura 3. Arquitectura de referencia de ecosistemas de datos

Fuente: elaboración propia

 

Se asumen los grafos de conocimiento (KG) como el componente arquitectónico idóneo para lograr la integración entre los diferentes productos de datos que se sirven en los dominios.

 

Por lo general, las instancias de los conceptos de un grafo se consideran los "datos" del KG. Sin embargo, eso no significa que el KG deba contener todos los datos disponibles en una organización. En su lugar, existen varias opciones para relacionar KG y datos, equilibrando flexibilidad, costo y actuación.4 Entre estas opciones se encuentran:

 

·         KG materializado con individuos directos. Un KG puede contener a todos sus individuos dentro de su infraestructura. Esta es la forma tradicional de construir un KG.16-18

·         KG Virtual: Si bien un KG puede contener a los individuos por sus conceptos, no es necesario que los contenga físicamente en todos los casos. Un KG virtual obtiene dinámicamente algunos de sus individuos de otros tipos de almacenamiento y se los proporciona al usuario que lo solicita. Esto hace que se escalen mejor cuando aumenta el número de individuos.20-21

·         KG de referencia: a veces no se desea almacenar individuos en el KG y simplemente acceder a ellos a través del KG. El mero tamaño de los datos relacionados puede ser prohibitivo, o un KG puede no ser adecuado para representar a esos individuos. Esto es, por ejemplo, aplicable a los datos de series temporales, que son muy frecuentes en los escenarios de producción del proyecto. Sin embargo, un KG no tiene la estructura adecuada para manejar de manera eficiente cantidades masivas de mediciones basadas en el tiempo para una gran cantidad de propiedades físicas operativas. En su lugar, el KG debe apuntar a la entrada de acceso a datos adecuada del Data Fabric.

 

La construcción del grafo está asociada a alguna de estas variantes, pero también a la naturaleza del producto de datos de cada dominio. En la literatura hay metodologías detalladas para la construcción de grafos de conocimientos.17 Asimismo, se presentan implementaciones en dominios específicos, como, por ejemplo, un estudio llevado a cabo para el diseño de grafos en un escenario relacionado con análisis epidemiológicos de la Covid 19.16 Otros ejemplos, en el caso de grafos de conocimientos empresariales, están siendo más frecuentemente abordados en el modo directo18-19 y como KG virtuales.20-21 Sin embargo, en ninguno de estos casos se trabajan las capas de infraestructuras y de productos de datos por dominio como se muestra en la arquitectura propuesta.

 

Discusión

 

La arquitectura de referencia de ecosistemas de datos se verifica a partir de comprobar que en ella se integran las tres características básicas de los ecosistemas, descritas anteriormente: red, plataforma y coevolución, y también con el análisis de cómo refleja los componentes arquitectónicos de las arquitecturas de datos que le dan origen: Data Mesh y Data Fabric.

 

Las características presentes en un ecosistema se encuentran explícitamente concebidas, primero, en su funcionamiento como red, con el componente arquitectónico KG aportado por el modelo de arquitectura Data Fabric, que permite enlazar los datos y sus propiedades sin considerar las aplicaciones de cada dominio, sino utilizando los datos como producto; mientras que su naturaleza de plataforma se refleja en la incorporación de la capa de infraestructura, que sigue la filosofía de plataforma autoservida de Data Mesh.

 

La capa de infraestructura de datos como plataforma es la encargada de la ingesta de los datos de fuentes heterogéneas, mediante ETL-extraer, transformar y cargar (para datos transaccionales que se gestionarán en dominios de almacenes de datos), o ELT -extraer, cargar y transformar (en el caso de datos complejos a los que se aplican mecanismos de gestión basados en Big Data) o cualquier otro mecanismo alineado a las fuentes.

 

Los dominios son responsables de generar el producto de datos, como se define en la arquitectura de planos de Data Mesh.1. El plano de experiencia del tejido optimiza la experiencia de las personas que necesitan operar, gobernar y consultar el tejido como un todo. En el caso de la arquitectura de referencia de ecosistemas de datos presentada, se aprovecha la capacidad específica de los servicios de datos que ofrece cada dominio para servir a los grafos que enlazan los datos a nivel integrado, bajo la filosofía de Data Fabric. A la vez, se consideran las políticas y estándares recomendados en la capa de gobernanza computacional federada. Por ejemplo, los miembros del equipo de gobernanza y los propietarios de productos de datos, que trabajan al interior de los dominios, interactúan con los servicios en este plano para evaluar el estado actual de las políticas, monitorear el estado operativo general del tejido y buscar productos de datos existentes.1 También lo utilizan los consumidores y proveedores de productos de datos en escenarios en los que necesitan trabajar con una colección de productos de datos, como búsquedas y recuperación de datos. Para la arquitectura de referencia propuesta, la consulta a los datos integrados se realiza a través de las herramientas asociadas a grafos de conocimiento, usando SPARQL u otras aplicaciones que embeben su funcionalidad. El plano de experiencia del producto de datos está optimizado para la entrega y el consumo de productos de datos mediante API y a través de grafos de conocimiento cuando se integran varios datos de distintos dominios.

 

Implicaciones teóricas de la investigación

 

La arquitectura de ecosistema de datos, al igual que Data Mesh, exige un cambio fundamental en la forma en que se administran, usan y se consumen los datos analíticos, tal como se describe:

 

·         El modelo de propiedad de datos descentralizado empuja la propiedad y la responsabilidad de los datos a los dominios de negocio desde donde se producen o se utilizan los datos, primando un modelo federado con políticas computacionales integradas en los nodos del tejido.

·         Los datos se sirven como productos, lo cual aprovecha mejor las características intrínsecas de cada fuente de datos, mientras son servidos acorde a la forma en que mejor satisfacen la experiencia del consumidor.

·         Arquitectónicamente, se pasa de recopilar datos en almacenes y lagos monolíticos a conectar datos a través de un tejido distribuido de productos de datos a los que se accede a través de protocolos estandarizados, mientras tecnológicamente, las soluciones tratan los datos y el código que los mantiene como una unidad autónoma activa.

 

Este artículo, cuya principal contribución es el propio diseño de una arquitectura de referencia de ecosistemas de datos que se verifica respecto a los principios de aquellas arquitecturas que le dan origen, también presenta limitaciones. La más importante de ellas es que se basa en un enfoque teórico, por lo que futuras investigaciones deberán abordar métodos empíricos y basados en casos que implementen la arquitectura de referencia para ecosistemas de datos en dominios reales. Por otra parte, hay que seguir investigando en los roles de los actores que involucran un ecosistema de datos y reflejarlo en la arquitectura para que pueda ser implementada de forma gobernable.

 

Conclusiones

                                             

Los ecosistemas de datos se están ratificando como el mejor modelo de representar las múltiples interconexiones entre actores diferentes que da como resultado un conjunto de productos o servicios que se generan a partir de los datos también interconectados. Opuesto a los silos de datos, los ecosistemas de datos garantizan interoperabilidad e integración a nivel de datos. Deben ser construidos sobre arquitecturas flexibles y escalables, que faciliten la implementación automática e inteligente de extremo a extremo de múltiples canales de datos.

 

Las tendencias en torno a los marcos para construir tales arquitecturas apuntan a Data Mesh/Data Fabric. La arquitectura de referencia de ecosistemas de datos presentada a nivel abstracto en este artículo hereda los principios y características de estos marcos para contemplar un modelo de propiedad de datos descentralizado, donde los dominios de negocio se ocupan de proveer productos de datos al ecosistema, para el consumo de cualquier otro actor/dominio o para ser integrado en el tejido (grafo) desde donde se consumen contextualizados a nivel holístico.

 

Los trabajos futuros en esta dirección estarán encaminados a realizar pruebas de concepto que validen la arquitectura de referencia y a incorporar el análisis organizacional y las implicaciones prácticas de su adopción.

 

Referencias bibliográficas

 

1.        Dehghani Z. Data Mesh: Delivering Data-Driven Value at Scale (1.ed - preview version), O’Reilly Media, Inc. 2022. [Consultado 5 septiembre de 2022]. Disponible en: https://www.oreilly.com/library/view/data-mesh/9781492092384/.

2.        Fortney J, McDonnell M, Johnson D, Chalk S. Data Fabric and Data as a” First Class Citizen”; 2022. [Consultado 1 spetiembre de 2022]. Disponible en: http://dx.doi.org/10.13140/RG.2.2.14510.18240

3.        IBM, “Data fabric,” 2021. [Online]. Available: https://www.ibm.com/analytics/data-fabric

4.        Östberg PO, Vyhmeister E, Castañé GG, Meyers B, Van Noten J. Domain Models and Data Modeling as Drivers for Data Management: The ASSISTANT Data Fabric Approach. IFAC-PapersOnLine. 2022 Jan 1;55(10):19-24. [Consultado 4 septiembre de 2022]. Disponible en: https://doi.org/10.1016/j.ifacol.2022.09.362

5.        Delgado T. Una arquitectura de Ecosistemas de Datos Espaciales. XVI Convención y Feria INFORMATICA 2016: Conectando sociedades 2016; 1-6. ISBN 978-959-289-122-7.

6.        de Oliveira EF, Silveira MS. Open government data in Brazil a systematic review of its uses and issues. In Proceedings of the 19th Annual International Conference on Digital Government Research: Governance in the Data Age 2018 May 30:1-9. https://doi.org/10.1145/3209281.3209335).

7.        Gartner. Understand the role of Data Fabric. Guides for Effective Business Decision Making; 2022. [Consultado 21 agosto de 2022]. Disponible en: https://www.gartner.com/en/publications/essential-guide-to-data-fabric.

8.        Liu CM, Badigineni M, Lu SW. Adaptive Blocksize for IoT Payload Data on Fabric Blockchain. In2021 30th Wireless and Optical Communications Conference (WOCC) IEEE. 2021 Oct; 7: 92-96). [Consultado 2 agosto de 2022]. Disponible en: http://doi.org/10.1109/WOCC53213.2021.9602935.

9.        Farias VG, Santos R, Wiese I, Serebrenik A, Constantinou E. Investigating Power Relations in Open Source Software Ecosystems. InAnais Estendidos do XII Congresso Brasileiro de Software: Teoria e Prática 2021 Sep 27 (pp. 53-59). SBC. [Consultado 23 julio de 2022]. Disponible en: https://doi.org/10.5753/cbsoft_estendido.2021.17282

10.    Shah SI, Peristeras V, Magnisalis I. Government big data ecosystem: definitions, types of data, actors, and roles and the impact in public administrations. ACM Journal of Data and Information Quality. 2021 May 6;13(2):1-25. [Consultado 13 agosto de 2022]. Disponible en: https://doi.org/10.1145/3425709

11.    Hernandez-Almazan JA, Chalmeta R, Roque-Hernández RV, Machucho-Cadena R. A Framework to Build a Big Data Ecosystem Oriented to the Collaborative Networked Organization. Applied Sciences. 2022 12;12(22):11494. [Consultado 5 noviembre de 2022]. Disponible en: https://doi.org/10.3390/ app122211494.

12.    Herrera F, Sosa R, Delgado T. GeoBI and big VGI for crime analysis and report. In2015 3rd International Conference on Future Internet of Things and Cloud 2015 Aug 24 (pp. 481-488). IEEE. [Consultado 12 julio de 2022]. Disponible en: https://doi.org/10.1109/FiCloud.2015.112

13.    Orenga-Roglá S, Chalmeta R. Framework for implementing a big data ecosystem in organizations. Communications of the ACM. 2018 Dec 19;62(1):58-65. [Consultado 21 julio de 2022]. Disponible en:  https://doi.org/10.1145/3210752

14.    Singh KN, Behera RK, Mantri JK. Big data ecosystem: review on architectural evolution. Emerging Technologies in Data Mining and Information Security. 2019:335-45. [Consultado 1 agosto de 2022]. Disponible en: https://doi.org/10.1007/978-981-13-1498-8_30

15.    Fernández TD. Taxonomía de transformación digital. Revista Cubana de transformación digital. 2020;1(1):4-23. [Consultado 15 agosto de 2022]. Disponible en:  https://rctd.uic.cu/rctd/article/view/62.

16.    Delgado T, Stuart ML, Delgado M. Grafos de conocimiento para gestionar información epidemiológica sobre COVID-19. Revista Cubana de Información en Ciencias de la Salud. 2021 Dec;32(4). [Consultado 12 agosto de 2022]. Disponible en: http://rcics.sld.cu/index.php/acimed/article/view/1686.

17.    Hogan A, Blomqvist E, Cochez M, d'Amato C, de Melo G, Gutierrez C, Gayo JE, Kirrane S, Neumaier S, Polleres A, Navigli R. Knowledge graphs. arXiv preprint arXiv:2003.02320. 2020; Mar 4. [Consultado 2 agosto de 2022]. Disponible en: https://arxiv.org/abs/2003.02320.

18.    Gomez-Perez JM, Pan JZ, Vetere G, Wu H. Enterprise knowledge graph: An introduction. InExploiting linked data and knowledge graphs in large organisations 2017 (pp. 1-14). Springer, Cham. [Consultado 20 julio de 2022]. Disponible en: https:/doi.org/10.1007/978-3-319-45654-6_1.

19.    Sequeda J, Lassila O. Designing and building enterprise knowledge graphs. Synthesis Lectures on Data, Semantics, and Knowledge. 2021 Aug 3;11(1):1-65. [Consultado 3 agosto de 2022]. Disponible en: https://doi.org/10.2200/S01105ED1V01Y202105DSK020.

20.    Cárdenas ML, Fernández TD, Fernández MD, de la Iglesia Campos M. GRAFOS VIRTUALES DE CONOCIMIENTO PARA LA INTEGRACIÓN DE DATOS EMPRESARIALES EN UNA EMPRESA CUBANA. Revista Cubana de Administración Pública y Empresarial. 2022 Apr 20;6(1):e211. [Consultado 14 julio de 2022]. Disponible en:  https://doi.org/10.5281/zenodo.6472957.

21.    Xiao G, Ding L, Cogrel B, Calvanese D. Virtual knowledge graphs: An overview of systems and use cases. Data Intelligence. 2019 Jun 1;1(3):201-23. [Consultado 2 agosto de 2022]. Disponible en: https://doi.org/10.1162/dint_a_00011

 

 

Conflicto de intereses

La autora declara no presentar conflictos de intereses