En más de una ocasión, las organizaciones se focalizan en la tecnología a la hora de elegir la mejor estrategia de datos y por supuesto que la tecnología es importante, si bien es mejor poner el foco en un análisis profundo de los procesos y de las personas. Conocer en profundidad el ciclo de vida de los datos dentro de la compañía es básico para poder crear sinergias y optimizar pasos de cara a hacerlos mucho más eficientes y sobre todo gobernables. En esta entrada me centraré en la importante ventaja que supone para una organización disponer de un único equipo responsable de los Datos de Referencia.
Ahora que está tan de moda el paradigma socio-técnico Data Mesh, donde prima la gestión distribuida frente a la centralizada, no subirse a esta aproximación resulta del todo complicado. Me explico, en organizaciones multinacionales, en las que existen un gran número de sistemas fuentes que hacen uso de Tablas de Referencia para caracterizar los registros y que a su vez, son «customizados» en las distintas regiones donde llevan a cabo sus actividades empresariales, requiere de un equipo especializado que vele por el mantenimiento y puesta en común de dichos datos.
Esta visión especializada cobra especial significado cuando saltamos hasta la Analítica Avanzada, pues para que todas la Unidades de Negocio distribuidas por las diferentes áreas geográficas produzcan set de datos reconocibles y homogéneos, requieren de esas «traducciones«. Es decir, los valores empleados para cada una de las opciones de un campo en los distintos sistemas fuente de los diversos países, en algún momento del ciclo de vida, deben estar agregados y disponibles para su posterior empleo en los casos de analítica. Aquí, es muy recomendable una aproximación de Lista de Referencia Multilingüe.
Para orquestar todo esto desde un punto de vista de Arquitectura de Datos, una muy buena solución, es la de disponer de aplicaciones tecnológicas que permitan la virtualización del Dato de cara a poder ser consumido por todas aquellas iniciativas de Analítica Avanzada que requiera de este tipo de Listas. De este modo, no habrá movimiento de datos y el inconveniente de la gestión de los repositorios a nivel local, desaparecerá. Lo que redunda en un claro beneficio en ahorro de costes y seguridad. Como principales partners destacar la solución de Denodo (líderes en virtualización) y por otro lado, Databricks. En el caso de Databricks, gracias a Unity Catalog, podrás hacer uso del protocolo Delta Sharing para el intercambio de información entre los distintos Catalog y sus correspondientes Workspaces. Algo que sin duda ayuda a mantener la independencia de la gestión de los Datos de Referencia y su consumo, garantizando un nivel de performance adecuado.
En cuanto a los Datos Maestros, comentar que también son fundamentales a la hora de descubrir la mejor solución para gestionar tu organización y convertirla en Data Driven. Si bien aquí, me limitaré (por ahora) a comentar que hace un tiempo participé en el diseño de una aplicación de gestión de metadatos probabilística. Esta se construyó mediante la comparación de un conjunto de clientes, donde el algoritmo medía n distancias por cada uno de los atributos comparando una tupla de valores y como ya se había realizado una labor de etiquetados previa, pudimos usar la predicción saliente, como resultado de un modelo de Machine Learning supervisado. La verdad es que fue muy interesante el desarrollo y los resultados que ofreció, muy prometedores. Sencillo caso de uso de Inteligencia Artificial para ayudar en la resolución de entidades.
CONCLUSIÓN
Seguimos avanzando en la parte de Gobierno de las soluciones de Datos, algo que no sólo pone el foco en la parte de Analítica, sino que tiene una visión 360 que cubre el conjunto completo de sistemas productores y consumidores de datos a nivel empresarial. Algo que requiere de perfiles especializados en cada uno de los capítulos de gobernanza. Estoy convencido de que se seguirá avanzando hacia sistemas de gestión de datos más eficientes y robustos, que permitan a las organizaciones poder completar el roadmap para ser Data Driven. Pero como indicaba al comienzo, esto sin ninguna duda, deberá pasar primero por las personas y los procesos, para luego hablar de tecnología.
Foto de portada gracias a Esther: https://www.pexels.com/es-es/foto/foto-de-primer-plano-del-cartel-de-equipaje-746500/