Artículo original

 

 


GRAFOS VIRTUALES DE CONOCIMIENTO PARA LA INTEGRACIÓN DE DATOS EMPRESARIALES EN UNA EMPRESA CUBANA

 

 

VIRTUAL KNOWLEDGE GRAPHS FOR INTEGRATION OF BUSINESS DATA BASED IN ENTERPRISE CUBAN

 

 

 

Mavis Lis Stuart Cárdenas I *         https://orcid.org/0000-0002-0461-7118   

Tatiana Delgado Fernández I               https://orcid.org/0000-0002-4323-9674

Mercedes Delgado Fernández II          https://orcid.org/0000-0003-2556-1712

Manuel de la Iglesia Campos I              https://orcid.org/0000-0002-2866-8454

 

I Universidad Tecnológica de La Habana “José Antonio Echeverría”, La Habana, Cuba

II Escuela Superior de Cuadros del Estado y del Gobierno, La Habana, Cuba

 

*Autor para dirigir correspondencia: mavis@ind.cujae.edu.cu

 

Clasificación JEL: C02, C63, C65

 

DOI: https://doi.org/10.5281/zenodo.6472957

 

Recibido: 12/12/2021  

Aceptado: 27/03/2022

 

 

Resumen

 

La integración de datos empresariales, en entornos de alta heterogeneidad sintáctica y semántica, utilizando grafos virtuales de conocimiento y alineado a las necesidades de la organización contribuye a mejorar el desempeño de los procesos operacionales. El artículo tiene como objetivo mostrar la aplicación de los grafos virtuales de conocimientos en la Empresa de Mensajería y Cambio Internacional (EMCI) de Correos de Cuba, en particular al proceso de planificación de la extracción de la carga del aeropuerto, donde se requirió la integración de datos heterogéneos de las prealertas o información adelantada de múltiples agencias, con la incidencia en un mejor desempeño del proceso operacional de las prealertas debido a la reducción del indicador del tiempo de estancia en el aeropuerto.

 

Palabras clave: datos heterogéneos, gestión de datos, datos integrados empresariales, grafos virtuales de conocimiento, proceso operacional

Abstract

                                                                                                                                         

The integration of business data, in environments with high syntactic and semantic heterogeneity, using virtual knowledge graphs and aligned to the needs of the organization contributes to improving the performance of operational processes. The article aims to show the application of virtual graphs of knowledge in the International Exchange and Messaging Company (EMCI) of Correos de Cuba, in particular to the planning process for the extraction of cargo from the airport, where the integration of heterogeneous data from pre-alerts or advanced information from multiple agencies, with the impact on a better performance of the operational process of pre-alerts due to the reduction of the indicator of time spent at the airport.

 

Keywords: heterogeneous data, data management, business integrated data, virtual knowledge graphs, operational process

 

Introducción

 

En las empresas existe una creciente heterogeneidad de fuentes, formatos y estructuras de información,1,2 así como, de aplicaciones informáticas no integradas entre sí y grandes volúmenes de datos distribuidos en varios sistemas que complejizan el tratamiento adecuado de este importante recurso.3,4 Esto provoca inconsistencia de los datos e información poco fiable, todo lo cual repercute negativamente en el uso de los datos para la toma de decisiones, lo que ha podido ser comprobado en más de 15 empresas cubanas.5,6,7 

 

Con la creciente necesidad de integrar los múltiples tipos de datos de diversas fuentes, los sistemas de gestión de datos a menudo se enfrentan con diferentes tipos de heterogeneidad,8 como la sintáctica, la de nivel de esquemas o de estructuras y la heterogeneidad semántica.9,10 Los grafos empresariales de conocimientos constituyen un enfoque emergente para la integración de datos empresariales. Debido a su versátil capacidad de representación, los grafos pueden ser usados para integrar diferentes fuentes de datos heterogéneas, tanto dentro, como entre organizaciones.11,12 Se difunden por Google, y ya en el año 2019, su grafo de conocimientos incluía mil millones de entidades y alrededor de 70 mil millones de significados.13 Se usan en muchos sistemas de información que requieren acceso a conocimiento estructurado y pueden ser dependientes o independientes del dominio.14 Constituyen un paradigma flexible de representación del conocimiento y son considerados como un habilitador clave para varios casos de uso.15

 

También conocido como grafo de datos, un KG (por sus siglas en inglés, Knowledge Graph) está destinado a acumular y transmitir conocimiento del mundo real, donde los nodos del grafo representan entidades de interés y sus aristas representan relaciones entre estas entidades.16 Los grafos de conocimiento pueden generarse a partir de la extracción de bases de conocimiento de la Web, como el conjunto de datos DBpedia, que está publicado en el proyecto de Datos Abiertos Enlazados17; pueden ser editados por la colaboración de usuarios de la Web; o a partir de métodos de extracción de información de fuentes semi-estructuradas o no estructuradas,18 por lo que se entiende que el grafo está construido sobre otras bases de datos, que al integrarse se enriquecen e incrementan su valor.19 Los grafos de conocimiento son fácilmente integrables, lo cual está determinando su uso preferencial respecto a otros enfoques similares y contribuyen a organizar los datos al interior de la empresa.20

El artículo tiene como objetivo mostrar las dimensiones utilizadas para la integración de datos empresariales basada en grafos virtuales de conocimiento en una empresa cubana. Como resultado se aplican las dos dimensiones definidas en el proceso de planificación de la extracción de la carga del aeropuerto de la Empresa de Mensajería y Cambio Internacional (EMCI). La solución requirió la integración de datos heterogéneos de las prealertas o información adelantada de múltiples agencias, con la incidencia en un mejor desempeño del proceso operacional debido a la reducción del indicador del tiempo de estancia en el aeropuerto.

 

Materiales y métodos

 

La integración de datos empresariales utilizando grafos virtuales de conocimiento y alineado a las necesidades de la organización se lleva a cabo según las dos dimensiones mostradas en la Figura 1. Estas dimensiones se refieren a la Alineación de los Objetivos Empresariales (AOE) y el Desarrollo de la Solución de Integración (DSI).

 

 

Figura 1. Dimensiones para la integración de los datos empresariales

Fuente: elaboración propia

 

La aplicación de la integración de datos empresariales con grafos virtuales de conocimientos se desarrolla en la Empresa de Mensajería y Cambio Internacional (EMCI),21 que es una de las 20 empresas que integran la Organización Superior de Dirección Empresarial (OSDE) Correos de Cuba. La EMCI brinda servicios de importación y exportación de correspondencia y encomiendas (bultos) postales, de mensajería y paquetería expresa, aduanales y transitarlos, y que asegura el correo oficial a los organismos y organizaciones del Estado cubano, además, de la relación con los 192 países pertenecientes a la Unión Postal Universal.

 

Resultados y discusiones

 

La aplicación de las dimensiones para la integración de datos empresariales en la EMCI se presenta, con sus fases y actividades.

Dimensión Alineación a los Objetivos Empresariales (AOE) en la EMCI

 

La Dimensión Alineación a los Objetivos Empresariales garantiza la coherencia de la solución de TI para la integración con los objetivos y procesos de la EMCI, mediante la visión y desarrollo de una arquitectura mínima viable.

 

Fase AOE.01 - Visión de la arquitectura empresarial para la integración

 

Actividad AOE.01.01 Identificar problemas de desempeño en procesos operacionales

 

El análisis de la documentación de la empresa permitió constatar que, a pesar de los resultados alcanzados en el desempeño operacional de la EMCI, en el transcurso de los últimos cuatro (4) años persisten problemáticas. Algunas de ellas son: 1) períodos de sobre saturación de productos en la planta, que incluye la llegada de contenedores por encima de la capacidad que se puede procesar y 2) demoras en la extracción de los envíos del aeropuerto. Estas problemáticas ocasionan demoras excesivas para la entrega de los productos (envíos) y crean insatisfacciones en los clientes con el consecuente aumento de solicitudes de información a las dependencias correspondientes de la EMCI y la OSDE. El indicador tiempo de entrega de los pedidos con frecuencia tiene valores por encima de lo establecido en las normas de calidad.

 

Actividad AOE.01.02 Visionar la arquitectura empresarial

 

Al analizar la cadena logística de los envíos se evidencia el desarrollo de diferentes momentos: primero en el aeropuerto, segundo en la planta de procesamiento y el último en las oficinas de correo de los destinos, antes de llegar al cliente final. El tiempo asociado a cada uno de los momentos influye a favor o en detrimento de la entrega en tiempo de los envíos a los clientes. Una de las problemáticas identificadas, a partir del análisis del desempeño de la empresa, se relaciona directamente con la demora en la extracción de los envíos del aeropuerto, con una permanencia de los envíos en el aeropuerto por encima de los cinco días normados.

 

Conjuntamente con los controles aduanales para la extracción de la carga del aeropuerto se debe realizar la planificación para la extracción de dicha carga. Esa operación la realiza la Dirección de Operaciones para lo cual debe considerar los datos relacionados con el contenido de los envíos incluidos en la carga, tales como: volumen total, peso total, totales de tipo de carga, entre otros datos de operación. La obtención de estos datos es posible a partir del análisis de la información que se brinda de forma adelantada, por los operadores Courier en las Prealertas. Sin embargo, se desaprovecha el potencial de esta información para la planificación de medios y recursos que garanticen en tiempo y forma el desarrollo exitoso de las operaciones, al no disponerse de una herramienta que brinde una visión consolidada de todas las prealertas, ni se dispone de los datos globales de operación.

 

La solución de esta problemática a la que se enfrenta la Dirección General de la EMCI y la Dirección de Operaciones requiere de la integración de datos con enfoque de arquitectura empresarial. En línea con esta problemática, el objetivo de la arquitectura empresarial para la integración de datos en la EMCI es introducir una solución de integración con orientación a los procesos operacionales de la EMCI donde las insuficiencias informacionales y la alta heterogeneidad estén incidiendo negativamente en el desempeño de la empresa (alineación TI - empresa). Tal solución debe coexistir con el resto de las aplicaciones que existen en la EMCI, y consumir datos de dichas bases de datos, lo que proporciona la información integrada. Debe ser fácil y amigable, y también flexible y escalable.

 

Para definir este objetivo, el equipo de arquitectura empresarial (profesores y especialistas de la Universidad Tecnológica de La Habana) sostuvo varias entrevistas con los directivos principales de la empresa, del área de operaciones y del departamento de informática. La Tabla 1 despliega los roles en la EMCI para la Arquitectura Mínima Viable (AMV) de la solución de integración de datos.

 

Tabla 1. Roles en la EMCI de la AMV

Roles AMV

Equipo de trabajo

Arquitecto empresarial

Consultor externo (CUJAE)

 

Arquitecto de negocio       

Ingeniero ontológico

Especialista Informático (Empresa Software contratada)

 

Arquitecto de datos

Arquitecto de aplicación/ tecnología

Especialista de operaciones

Experto en procesos operacionales de la EMCI

Especialista Soporte técnico

Especialista EMCI

 

Fuente: elaboración propia

 

En esta investigación se aplica la integración de datos con grafos virtuales de conocimiento al proceso planificación de la extracción de la carga del aeropuerto que se lleva a cabo en el Servicio de Paquetería y Carga no comercial. Los diagnósticos de la gestión de la información evidenciaron, que existe un entono de alta heterogeneidad sintáctica y semántica de los datos, que requiere de una integración alineada a los objetivos empresariales.21 Se aplica el procedimiento de diagnóstico22 que detectó las insuficiencias informacionales:

 

-       No existe un proceso formal para procesar las prealertas, que brinda la información adelantada de la carga para los procesos posteriores.

-       Cada área considera la prealerta de forma independiente con el riesgo de introducir errores.

-       El contenido de la prealerta (Excel, pdf, XML según la agencia Courier) se incorpora en un sistema automatizado, pero no se procesa la información para la planificación del despacho de la carga; sólo para su uso aduanero.

-       La prealerta llega a las áreas: comercial, operaciones y la aduana y no se procesa ni se aportan datos generales sobre las mismas, que contribuyan a organizar y planificar el servicio.

-       Carencia de datos consolidados con el contenido de los envíos incluidos en la carga

 

Los objetivos y principios generales de la AMV para la solución de integración en la EMCI se muestran en la Tabla 2.

 

Tabla 2. Artefacto: principios referenciales de la AMV en la EMCI

Capa de

Principio

Negocio

La AMV se circunscribe al proceso de planificación de la extracción de la carga del aeropuerto, que incide de forma directa en el desempeño operacional identificado.

Información

Integración de datos con grafos virtuales de conocimiento de los datos de prealertas enviadas por las agencias Courier y DHL.

Aplicación

Consumo de datos provenientes de ficheros de prealertas, sin afectar los sistemas informáticos de EMCI.

Tecnología

Al ecosistema tecnológico de la EMCI se incorpora el grafo virtual de conocimiento que integra información de ficheros de prealertas.

 

Fuente: elaboración propia

Fase AOE.02 - Arquitectura empresarial de referencia para la integración de datos

 

En esta segunda fase se define la AMV de referencia para la integración de información basada en grafos de conocimientos en la EMCI.

 

Actividad AOE.02.01 – Gestionar la capa de negocio de la arquitectura empresarial

 

La carga, al llegar al aeropuerto se almacena en un depósito temporal para luego coordinar la fecha de distribución en función de las capacidades que posea el depósito de la EMCI y en función de la fecha de entrada a este depósito se coordina entonces la fecha de salida para su futuro traslado hacia el depósito de la EMCI. Desde aquí, la unidad organizativa de la Aduana General de la República otorga la fecha de salida de estos paquetes del depósito según el orden de llegada al mismo, y pasan entonces a la planta de tratamiento postal de la Oficina de Cambio Internacional (OCI).

 

La Figura 2 muestra el diagrama del nuevo servicio de integración de datos a partir de las prealertas.

 

Figura 2. Diagrama del Mapa del nuevo proceso basado en prealertas

Fuente: elaboración propia

 

La propuesta del nuevo proceso de prealertas soporta el uso del Grafo Virtual de Conocimiento que genera la solución de integración, y se incluyen nuevos procesamientos en la Dirección de Operaciones de la EMCI. Dicha propuesta dota a esta dirección de la capacidad de consultar integradamente los datos de los respectivos envíos, a partir de los datos recibidos en las prealertas, sin afectar el despliegue actual de dichos ficheros.

 

Actividad AOE.02.02 – Gestionar la capa de información de la arquitectura empresarial

 

Las prealertas constituyen las fuentes de datos sujetas a la integración para resolver la problemática de la EMCI relacionada con los tiempos de entrega del envío. Específicamente, las prealertas contienen la individualización de cada una de las Guías Courier que transporta el mensajero internacional y contiene información sobre la vía (aérea, terrestre o marítima) por la que se traslada la cantidad de bultos que contiene el envío y su peso en kilogramo, la agencia que lo envía, la línea área que lo transporta, el número de vuelo y el país origen. De cada envío en particular contiene un número identificativo, su peso individual, fecha, datos del remitente como nombre y número de identidad; descripción del contenido y datos del destinatario como nombre, carnet de identidad, dirección, provincia y municipio. Esta información se recibe y se procesa de forma separada por distintos especialistas, y según sea la agencia que envíe las prealertas, varía el formato. esta información se recibe y se procesa de forma separada por distintos especialistas, y según sea la agencia que envíe las prealertas, varía el formato. La Tabla 3 se corresponde con la identificación y caracterización de las fuentes de datos de las prealertas, para la creación de la Ontología de Integración.

 

Tabla 3. Diversidad de formatos de prealertas

Fuentes

Ubicación

Formato

Uso

Agencias COURIER

Estación de trabajo Especialista Comercial de la empresa

xls

Validación Contenido

Diseño del despacho de aeropuerto

Control de Seguridad

Agencia DHL

Sistema DHL operado en la UEB de Mensajería Express

xml

Validación Contenido

Planificación del despacho de aeropuerto

Control de Seguridad

Agencia Copa

Estación de trabajo Especialista Comercial de la paquetería Copa

pdf

Validación Contenido

Diseño del despacho de aeropuerto

Control de Seguridad

 

Fuente: elaboración propia

 

Se analizan, los esquemas de las fuentes de datos de prealertas que serán integradas y se precisan las tablas y las columnas. La Figura 3 representa el esquema de la tabla de prealerta de un Courier. Las prealertas, semánticamente, describen información sobre los envíos, destinatarios y remitente. La Tabla 4 refleja tres conceptos importantes en el dominio de aplicación.

 


Figura 3. Esquema de datos Courier

Fuente: elaboración propia

 

Tabla 4. Descripción de los conceptos representados en las fuentes de datos

Fuente

Concepto

Descripción

Tabla/Campo

Courier

Agencia

Nombre de la Agencia de envío

Agencia

DHL

Agency

Courier

País

Nombre del país del que proviene el envío

PaisOrigen

DHL

MovementOriginCountry

Courier

Peso

Peso en Kg del envío que se recibe

PesoenKg

DHL

ShipmentWeight

 

Fuente: elaboración propia

 

La Tabla 4 evidencia la heterogeneidad semántica presente en el proceso de prealertas, con varios términos que se corresponden al mismo significado o conflicto de sinónimos. Se identifican los conceptos para el tratamiento de la prealerta, referidos a: manifiesto o prealerta, Courier, paquete y personas. Se definen las propiedades: código postal, descripción, dirección, peso, nombre, apellidos, teléfono, provincia, país, número de guía y de agencia, fecha de nacimiento y de imposición. La Figura 4 muestra el modelo de dominio de la prealerta.

 

Figura 4. Modelo de dominio de la prealerta

Fuente: elaboración propia

 

Para el diseño de la ontología de integración, participó, como líder de la etapa, un especialista informático con el rol de ingeniero ontológico, subcontratado por la empresa para llevar a cabo el desarrollo del grafo virtual de conocimiento sobre Ontop. Tomando en consideración el modelo de dominio, se crea una red de ontologías, a partir de la reutilización de clases y propiedades de los vocabularios foaf y vcard y de la creación de una ontología propia para estos efectos, la ontología de integración Operaciones. Del vocabulario FOAF (https://es.wikipedia.org/wiki/FOAF), se utilizan clases y propiedades en la modelación de personas que representan a los remitentes y destinatarios. FOAF es una ontología legible para las máquinas que describe a las personas, sus actividades y sus relaciones con otras personas y objetos. Del vocabulario VCARD (https://es.wikipedia.org/wiki/VCard), se utilizan las propiedades para completar la modelación de los datos de las direcciones de remitentes y destinatarios. VCARD es un formato estándar para el intercambio de información personal. Pueden contener nombre, dirección, números telefónicos, entre otras informaciones Para el diseño de la ontología se desplegó sobre Protégé una guía para la construcción del grafo basado en Ontop en la EMCI, resultado del contrato entre la EMCI y la CUJAE. La ontología de integración Operaciones se muestra en la Figura 5.

Figura 5. Modelo ontológico de caso de integración de datos de prealertas

Fuente: elaboración propia

 

Actividad AOE.02.03 – Gestionar la capa de aplicación de la arquitectura empresarial

 

El patrón de la arquitectura de solución del modelo INTEGRAL es reutilizado en esta actividad. La vista gráfica de la arquitectura se muestra en la Figura 6.

 

Figura 6. Arquitectura de solución de las prealertas

Fuente: elaboración propia

Los componentes de la arquitectura de solución de las prealertas se describen a continuación:

-           Conjunto de datos a integrar: Este componente está en la capa física de la arquitectura y corresponde a las bases de datos de las prealertas.

Las informaciones a obtener a partir de la consulta del grafo se definen de los criterios de decisión generada con los directivos, siendo algunos:

-           Los envíos próximos a arribar según la fecha, especificando para cada envío, de qué agencia proceden, la cantidad de bultos y la cantidad específica de envíos.

-           Las provincias destinatarias de los próximos envíos, con su peso total y la cantidad de paquetes.

 

Actividad AOE.02.04 – Gestionar la capa de tecnología de la arquitectura empresarial

 

En esta capa se definen las prestaciones y características de los sistemas que permiten la materialización de las capas anteriores de la Arquitectura Empresarial (AE), según las variables que se necesitan para el grafo virtual de conocimiento (GVC). La Tabla 5 muestra estas variables.

 

Tabla 5. Artefacto: Requerimientos y tecnologías de referencia para las variables de GVC

Variable

Tecnología

Ontología

Sistema Protégé (https://protege.stanford.edu/)

Conjuntos de Datos

SQL Server

Mapeos

Lenguaje R2RML

Consultas Típicas

SPARQL

Sistema OBDA

Ontop8

 

Fuente: elaboración propia

 

OnTop, implementa Grafos Virtuales de Conocimiento y permite consultar fuentes de datos relacionales a través de una representación conceptual del dominio de interés, proporcionados por los términos de una ontología, a la cual se mapean las fuentes de datos. Las características principales de Ontop son: sólidos fundamentos teóricos, acercamiento virtual a la OBDA, que evita materializar las tripletas y se implementa a través de la técnica de reescritura de las consultas, optimizaciones extensivas, explotando todos los elementos de la arquitectura OBDA, el cumplimiento de estándares como las consultas SPARQL, los mapeos R2RML, y las ontologías OWL 2 QL y RDFS, y finalmente su soporte a los principales gestores de bases de datos relacionales.23

 

Cuando es necesario integrar varias fuentes de datos, los sistemas de respuesta a consultas de GVC a menudo se usan juntos con herramientas de federación de datos.24 Los federadores SQL proporcionan una capa relacional unificada sobre múltiples fuentes de datos y evalúan Consultas SQL sobre la capa unificada. Estos sistemas a menudo también admiten fuentes de datos no relacionales, por ejemplo, XML archivos, archivos JSON, MongoDB o API web, proporcionando una vista relacional sobre su contenido. Con la ayuda de un federador SQL, los sistemas GVC pueden acceder al contenido de múltiples fuentes de datos sin tener que realizar un posprocesamiento complejo, como unir los datos procedentes de diferentes fuentes de datos. En esta investigación se utiliza Dremio (https://www.dremio.com) como servidor de bases de datos federadas, que modifica la Arquitectura de la aplicación, incorporándole una capa de la Base de Datos virtualizada, quedando el gráfico de la arquitectura como se representa en la Figura 7.

Figura 7. Arquitectura de Tecnología de la solución

Fuente: adaptado de24

 

Dimensión Desarrollo de la Solución de Integración (DSI) para las prealertas

 

La Dimensión DSI en la EMCI se encarga de crear la solución de integración de información de prealertas basada en grafos virtuales de conocimiento para facilitar la realización de consultas a dicho grafo y proporcionar la información que se necesita.

 

Fase DSI.01 Implementación de la solución de integración

 

Actividad DSI.01.01 – Generar la Información Integrada

 

En las reglas de mapeo intervienen las bases de datos de las prealertas con las clases y propiedades de la ontología siguientes:

-           Clase Person: Person_DD, Person_DR (mapeos de destinatarios y remitentes de paquetes)

-           Clase Manifest: Manifest

-           Clase Package: Package

-           Clases geográficas: Country, Province

-           Propiedades: receivesPackage, sendsPackage

 

Las consultas fueron predefinidas en la etapa de modelación de la arquitectura, de acuerdo a los criterios de decisión aportados por los directivos del área de operaciones de la EMCI. Un ejemplo de corrida de una consulta que genera información integrada, se ilustra a través de las clases involucradas:

-           persons: para recuperar la información concerniente tanto a remitentes como a destinatarios

-           provinces: para recuperar información correspondiente a las provincias que recibirán paquetes: cantidad de paquetes y su peso total.

-           manifests: para recuperar información correspondiente a los manifiestos

 

Para facilitar el acceso a la información integrada resultante se desarrolló un sistema web visualizador de reportes: Sistema Integrado de Prealertas, que consume el grafo virtual de conocimientos y visualiza las consultas sobre el grafo en una manera   amigable y accesible para los directivos de la empresa. Las funcionalidades de una primera versión del sistema, de forma general son:

-        Envíos prealertados en un período próximo de tiempo.

-        Envíos, relacionados con las Agencias u Operadores Internacionales.

-        Para un período dado, consultas relativas a:

o  Volumen de operación Total (cantidad de bultos; cantidad de envíos; peso en kg)

o  Provincias que deben recibir envíos en el período

o  Envíos de una Provincia.

o  Volúmenes de operación previstos por Provincia.

 

El uso del sistema, incorporado en el proceso de planificación de la extracción de la carga del aeropuerto y considerando los datos de los volúmenes de las cargas permite determinar las variables relacionadas con: cantidad de medios de transporte, cantidad de recursos humanos y el tipo de los medios de transporte necesarios para la realización de dicho proceso.

 

Fase DSI.02 Gestión de la capacidad y disponibilidad de la solución de integración

 

Actividad DSI.02.01 – Gestionar la capacidad y disponibilidad de la solución de integración

 

El desempeño de la solución de integración, depende principalmente del desempeño propio del sistema Ontop. Es de destacar que el sistema Ontop, se reconoce en la literatura como el sistema GVC de código abierto, actualmente disponible, más maduro y con un desempeño muy robusto.24 La evaluación del desempeño de Ontop reflejó que en general las consultas requerían entre uno y pocos segundos para su ejecución teniendo unas pocas prealertas insertadas, y estando desplegado en un entorno de trabajo de escasos recursos de cómputo.

 

Adicionalmente, existen limitaciones de la versión actual de Ontop con el empleo de esta herramienta:

-           El reporte de errores de la versión más reciente de Ontop no es intuitivo, lo que afecta la gestión y corrección de los mapeos. Se limita a mostrar la traza de errores de Java. Por ejemplo, un error de “uso ilegal de null” en tiempo de ejecución de una consulta, sin más especificaciones, puede deberse a cualquier error leve de sintaxis, por ejemplo: al nombrar una instancia sin el ‘/’ que divide el nombre de la clase, del campo de identificador entre llaves, o al incluir un dato literal sin tipo de datos especificado, fallando el mecanismo de inferencia. También puede deberse al uso de consultas SQL algo más complejas en los mapeos, que requieran el empleo de alias, por ejemplo.

-           El lenguaje R2RML genera fallas con el uso de campos con guiones (‘-’), estos deben sustituirse por alias desde el SQL. También genera errores la inserción de valores por defecto, lo que debe hacerse en cambio desde el propio SQL.

Finamente, aunque los errores se hayan rectificado, en muchos casos sólo el reinicio de Ontop actualiza estos cambios.

Fase DSI.03 – Gestión del cambio

 

Actividad DSI.03.01 – Realizar pruebas y proponer cambios

 

Para el análisis del desempeño de la solución, se realizaron pruebas que se muestra en la Tabla 6.

 

Tabla 6. Definición del plan de pruebas

 

Objetivos

Resultados esperados

Resultados obtenidos

Grado

Alcance y escenario

Integrar ficheros de prealertas en dos formatos diferentes

Validar posible propuesta para la integración de la información de fuentes de datos heterogéneas.

Obtener la información integrada.

5 ficheros de prealertas (xls y xml) con 2403 envíos.

información integrada de prealertas verificando capacidad de integración de la solución, para fuentes de datos heterogéneas.

Satisfactorio.

Integrar ficheros de prealertas en dos formatos diferentes

Verificar el tiempo de respuesta de la solución de integración.

Obtener la respuesta en un tiempo inferior a un minuto.

5 ficheros de prealertas (xls y xml) con 2403 envíos.

Tiempo de respuesta fue de pocos segundos.

Satisfactorio.

Comprobación del sistema con datos reales

Verificar el funcionamiento estable y adecuado, de solución de integración.

Obtener respuesta y mantener el funcionamiento estable.

ficheros de prealertas recibidos en dos días de trabajo con 40 ficheros. El resultado fue la saturación del sistema.

Insatisfactorio.

 

Fuente: elaboración propia

 

El plan de acciones de los resultados insatisfactorios se refiere a los cambios que deben ejecutarse para optimizar y mejorar el rendimiento del sistema, a partir de:

-     Reducir la ambigüedad en la ontología.

-     Reducir la longitud de caracteres de la ontología y las consultas.

-     Simplificar las consultas SPARQL.

 

Actividad DSI.03.02 – Crear habilidades en la operación de la solución

 

Considerando los roles de la AMV definidos, la arquitectura de tecnología definida en la Actividad AOE.02.04 y la aplicación de una encuesta de diagnóstico de conocimientos, se definieron las necesidades de formación y el plan del curso.

 

A partir de las necesidades formativas, el sistema de conocimiento del curso se enfocó en las temáticas de ontologías, servidores de bases de datos federadas, Ontop como sistema de grafos virtuales de conocimiento, lenguaje para la especificación de las reglas de mapeo (R2RML) y el lenguaje para la especificación de las consultas (SPARQL). El curso se desarrolló durante el mes de junio de 2021, con actividades presenciales y semipresenciales. Al culminar el curso se aplicó la encuesta sobre la cual se realizó el diagnóstico inicial, cuyos resultados evidenciaron un avance significativo por la comprensión y asimilación de los contenidos. La valoración de los contenidos, se muestran en la Tabla 7.

 

Tabla 7. Valoración general del curso

Contenidos

Valor Medio

ONTOP

4.47

Dremio

4.47

SPARQL

4.00

Ontologías

3.72

R2RML

3.46

 

Fuente: elaboración propia

 

Un experimento se desarrolló para valorar la incidencia de la integración de los datos con grafos virtuales de conocimiento en la reducción del tiempo de extracción del envío del aeropuerto. Para ello se tomó una muestra de 89 guías de los meses de junio a septiembre 2021, equivalentes a 6 días de trabajo (último viernes y últimos días de agosto y septiembre). Se realizó una prueba de hipótesis de comparación de medias en relación a la variable tiempo de extracción del envío (TEA) tal como ocurrió en relación al tiempo que hubiese transcurrido si se usaran los datos integrados con las prealertas. Se obtuvo una diferencia significativa de 2,764 días como promedio con la solución integrada de las prealertas, con un Intervalo de confianza del 95 % (1,952; 3.576). La planificación de la extracción del envío con la solución integrada de las prealertas garantiza un tiempo menor de extracción del envío y un mejor desempeño del proceso operacional. De esta forma, se confirma con la aplicación práctica de los grafos virtuales de conocimiento la tendencia a su uso en función de la creación de valor derivado de un uso más efectivo e integrado de los datos de la empresa.25

 

Conclusiones

 

La aplicación de las dimensiones Alineación a los Objetivos Empresariales (AOE) y Desarrollo de la Solución de Integración (DSI) para la integración de datos empresariales basado en grafos virtuales de conocimiento en la empresa de Mensajería y Cambio Internacional de Correos de Cuba (EMCI) evidencia la viabilidad y utilidad de la propuesta.

 

La aplicación de la Dimensión Alineación a los Objetivos Empresariales (AOE) en la EMCI garantiza la alineación de la solución que se propone con la satisfacción del requerimiento del tiempo de extracción del envío del aeropuerto.

 

La aplicación de la Dimensión Desarrollo de la Solución de Integración (DSI) permite, a través de la generación de un grafo virtual de conocimiento que contiene información integrada de envíos, provincias y personas, da respuesta a los criterios de decisión de los directivos del área de operaciones.

 

La mejora en el desempeño operacional de los envíos con la integración de datos empresariales basado en grafos virtuales de conocimiento para las prealertas se evidencia con la disminución aproximada de tres días por cada envío.

 

Referencias bibliográficas

 

1.      DAMA I. The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK Guide)” (Second Edition ed.). ISBN-13: 978-1634622349; 2014.

2.      Kim Sk, Wang W. An Integrated View of Data: Application of Knowledge Modeling to Data Management, Journal of International Technology and Information Management. 2020;29(2, Article 4). [Consultado 1 julio 2021] Disponible en:  https://scholarworks.lib.csusb.edu/cgi/viewcontent.cgi?article=1448&context=jitim

3.      Akter S, Wamba SF. Big data analytics in E-commerce: a systematic review and agenda for future research, Electronic Markets. 2016;26(2):173-194. [Consultado 5 julio 2021] Disponible en:  https://ro.uow.edu.au/buspapers/886/.

4.      Mikalef P, Pappas IO, Krogstie J, Giannakos M. Big data analytics capabilities: a systematic literature review and research agenda Information Systems and e-Business Management, 2018;16:1-32. [Consultado 3 julio 2021] Disponible en:  https://ideas.repec.org/a/spr/infsem/v16y2018i3d10.1007_s10257-017-0362-y.ht

5.      Pérez SJ, Novoa B. Diagnóstico de Gestión de Información del Servicio Postal Universal de la Empresa de Mensajería y Cambio Internacional con Enfoque de Arquitectura de Información Empresarial (AIE). [Trabajo de Diploma para optar por el título de Ingeniería Industrial], Tesis tutorada por Stuart, M.L., La Habana: Facultad de Ingeniería Industrial CUJAE, 2018.

6.      Stuart ML, Menéndez DD, Martínez Y, Cordero A, Delgado T. Experiencia en el diagnóstico de la Gestión de Información con Enfoque de Arquitectura de Información Empresarial, GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología. 2017;5(1). [Consultado 13 julio 2021] Disponible en:  https://www.upo.es/revistas/index.php/gecontec/article/view/1897.

7.      Stuart ML, Delgado T, Delgado M, Prieto D.R, Quial J. Enfoque de datos empresariales enlazados aplicado en una empresa cubana. Ingeniería Industrial. 2020;41(2): 235-247. [Consultado 15 julio 2021] Disponible en:  http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1815-59362020000200007

8.      Stuart ML, Prieto DR, Delgado T, Delgado M. Enfoque de Integración Basado en Datos Enlazados Empresariales. Revista Cubana de Administración Pública y Empresarial. 2018;2(3): 268-279. [Consultado 15 julio 2021] Disponible en:  https://apye.esceg.cu/index.php/apye/article/view/56

9.      Alamir E, Urgessa T, GopiKrishna T, Ellappan V. Application of machine learning with Big data analytics in the insurance industry. IAEME Publications; 2020.

10.  Giunchiglia F, Zamboni A, Bagchi M, Bocca S. Stratified data integration. 2021 [Consultado 13 julio 2021] Disponible en: https://arxiv.org/abs/2105.09432

11.  Calvanese D, Liuzzo P, Mosca A, Remesal J, Rezk M, Rull G. Ontology-based data integration in EPNet: Production and distribution of food during the Roman Empire. Engineering Applications of Artificial Intelligence2016;(51):212-229. [Consultado 21 julio 2021] Disponible en: https://doi.org/10.1016/j.engappai.2016.01.005

12.  Heist N, Hertling S, Ringler D, Paulheim H. Knowledge Graphs on the Web – an Overview. Mar Preprint; 2020. [Consultado 1 julio 2021] Disponible en: https://doi.org/10.48550/arXiv.2003.00719

13.  Noy N, Gao Y, Jain A, Narayanan A, Patterson A, Taylor J. Industry-scale Knowledge Graphs: Lessons and Challenges. Communications of the ACM, August, 2019;62(8):36-43. [Consultado 1 julio 2021] Disponible en: https://doi.org/10.1145/3331166,.

14.  Paulheim H. Knowledge graph refinement: A survey of approaches and evaluation methods”, Semantic web, 2017;8(3):489-508. [Consultado 7 julio 2021] Disponible en: http://semantic-web-journal.net/system/files/swj1167.pdf.

15.  Dirschl C, Kent J, Schram J, Reul Q. Enabling Digital Business Transformation Through an Enterprise Knowledge Graph. In: Harth A. et al. (eds) The Semantic Web: ESWC 2020 Satellite Events. ESWC 2020. Lecture Notes in Computer Science. 2020;12124. Springer, Cham. [Consultado 7 julio 2021] Disponible en: https://doi.org/10.1007/978-3-030-62327-2_45,

16.  Hogan A, Blomqvist E., Cochez M, d'Amato C, de Melo G, Gutierrez C, Gayo JE, Kirrane S, Neumaier S, Polleres A, Navigli R. Knowledge graphs, preprint Mar 4; 2020. [Consultado 13 septiembre 2021] Disponible en: https://arxiv.org/abs/2003.02320

17.  Lehmann J, Isele R, Jakob M, Jentzsch A, Kontokostas D, Mendes PN, Hellmann S, Morsey M, Van KP, Auer S, Bizer C. DBpedia – a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web Journal. 2015;6(2):167-195. [Consultado 15 julio 2021] Disponible en: http://svn.aksw.org/papers/2013/SWJ_DBpedia/public.pdf.

18.  Kondreddi SK, Triantafillou P, Weikum G. Combining information extraction and human computing for crowdsourced knowledge acquisition. IEEE 30th International Conference on Data Engineering. Mar 31; 2014:988-999. [Consultado 1 octubre 2021] Disponible en:  https://doi.org/10.1109/ICDE.2014.6816717

19.  Saorín T. Grafos de conocimiento y bases de datos en grafo: conceptos fundamentales a partir de una "obra maestra" del Museo del Prado. Anuario Think EPI. Jan 2019;1(13). [Consultado 5 octubre 2021] Disponible en: https://doi.org/10.3145/thinkepi.2019.e13f05

20.  Delgado T, Stuart ML, Delgado M. Grafos de conocimiento para gestionar información epidemiológica de la COVID-19. Revista Cubana de Información en Ciencias de la Salud. octubre-diciembre. 2021;32(4). [Consultado 1 diciembre 2021] Disponible en: http://www.acimed.sld.cu/index.php/acimed/article/view/1686.

21.  Stuart ML, Prieto D, Quial J, Delgado T, Delgado M. Mejora a la gestión de información en el proceso de Servicio Postal Universal. Revista Cubana de Transformación Digital. abril-junio 2021;2 (2):24-40. [Consultado 1 octubre 2021] Disponible en:  https://rctd.uic.cu/rctd/article/view/118.

22.  Stuart ML, Cuyar L, Prieto DR, Delgado T. Procedimiento de Diagnóstico de Gestión de Información con Enfoque de Arquitectura de Información Empresarial Congreso Internacional de Información. INFO 2018. V Foro sobre Gestión de Información y el Conocimiento, La Habana, Cuba; 2018 http://www.congreso-info.cu/public/conferences/1/INFO2018-Foro%20FIKM_ES.pdf

23.  Calvanese D, Cogrel B, Komla-Ebri S, Kontchakov R, Lanti D, Rezk M, Rodriguez-Muro M, Xiao G. Ontop: Answering SPARQL queries over relational databases. Semantic Web J. 2017;8(3):471-87. [Consultado 12 octubre 2021] Disponible en:   https://doi.org/10.3233/SW-160217.

24.  Xiao G, Ding L, Cogrel B, Calvanese D. Virtual knowledge graphs: An overview of systems and use cases. Data Intelligence. 2019;1(3):201-223. [Consultado 12 octubre 2021] Disponible en:    https://doi.org/10.1162/dint_a_00011

25.  Stuart ML, Delgado T, Delgado M, Piedra Y. Datos empresariales enlazados: Revisión sistemática desde una perspectiva organizacional. Alcance, 2020;9(23):153-176. [Consultado 1 julio 2021] Disponible en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2411-99702020000200153.

 

 

Conflicto de intereses

Los autores declaran no tener conflicto de intereses.

 

Contribución de los autores

·         Mavis Lis Stuart Cárdenas: Conceptualización, metodología, escritura, revisión, edición, validación y visualización.

·         Tatiana Delgado Fernández: Conceptualización, metodología, escritura, revisión, edición, validación y visualización.

·         Mercedes Delgado Fernández: Conceptualización, análisis formal, escritura, revisión, edición, validación.

·         Manuel de la Iglesia Campos: Software, validación, visualización.