Van pasando los años y las organizaciones, al igual que nos sucede a nosotros, maduran con el tiempo. Normalmente, con la madurez adquirimos mayor de mayor autoconocimiento, autocontrol, nos volvemos algo más reflexivos. En definitiva, nos acercamos a lo que los antiguos llaman la «sabiduría». Pues algo similar les ocurre a las organizaciones. Muchas de ellas comenzaron hace mucho tiempo ya con la, tan repetida, Transformación Digital. En los comienzos, se trataba de incorporar tecnología a prácticamente cualquier procesos de negocio. Ya fuera para mejorar el trabajo diario de los empleados, de cara a hacerlos más eficientes, como para añadir nuevas capacidades que permitieran implementar innovadores casos de negocio, nunca antes empleados en la organización. De este segundo tipo, en el mundo de los datos, destaco todo lo que vino a ser la explosión del Big Data.
Big Data que, como he repetido en más de una ocasión, también ha evolucionado. No sólo desde el punto de vista técnico, donde se han ido incorporando infinidad de soluciones que permiten adoptar soluciones de datos en prácticamente cualquier organización, sino también desde el punto de vista conceptual, donde se han ido incorporando Vs a las tres originales: Velocidad, Volumen y Variedad.
Pues algo similar está ocurriendo con el data sharing. Para quien no lo sepa (o incluso no entienda inglés), data sharing viene a traducirse por compartir datos. Práctica que con la madurez de las organizaciones está tomando una relevancia cada vez mayor. Al principio, en el boom de la explosión de Big Data, se acuñó la frase «El dato es el nuevo petróleo», y como en todos los lados, estaban los que pagaban por la gasolina y los que preferían evitar pagar por desplazarse. Me explico, en esos primeros momentos, aparecieron librerías que permitían escrutar las páginas web (HTML) y extraer de un modo sencillo información de ellas. Se desarrollaron las primeras arañas. Con ellas eras capaz de controlar por ejemplo, el tratamiento de tus productos en los principales distribuidores. Algo que te permitía validar si se cumplían acuerdos del tipo: presencia del producto en el catálogo web, posicionamiento, precio de venta, cumplimiento de las fechas de oferta,… De un modo sencillo, podías conocer cómo de bien o mal trataban al portfolio de tu organización, algo que ayudaba al equipo comercial. Pero no sólo te servía para obtener información acerca de tus productos, sino también los de la competencia, con lo que el uso de arañas, era de alguna manera una posible ventaja competitiva.
Con el paso del tiempo, se fue viendo con no demasiados buenos ojos las prácticas de Web Scrapping. De hecho, creo que a día de hoy no está permitida salvo acuerdo entre las partes. Esto permitió que las APIs fueran cobrando cada vez más relevancia a la hora de acceder a datos de terceros. Terceros que podían disponibilizar los datos gratuitamente o previo pago. Esto hizo que muchas organizaciones comenzaran a valorar la opción de monetizar sus datos a través de este tipo de servicios API. Incluso hoy día, muchas administraciones públicas emplean las APIs para permitir a las empresas acceder a sus plataformas de datos abiertos. Por ejemplo, el Instituto Nacional de Estadística (INE).
Aunque con las APIs no ha sucedido lo mismo que con el Web Scrapping, en los últimos años se está hablando mucho acerca de los Marketplace de Datos. Esto no viene a ser más que un Supermercado de conjuntos de datos a disposición del consumidor, donde el consumidor puede ser interno o externo. En caso de un consumidor interno, todo se simplifica. Desde un punto de arquitectura de datos, el pertenecer a la propia organización reduce la complejidad de tareas como el acceso, la distribución, el consumo,… Mientras que cuando, por contra, se trata de un consumidor externo, la cosa se complica un poco.
Volvamos al Marketplace de Datos y pensemos cómo este concepto puede ayudarnos a mejorar nuestros productos y servicios. Imaginemos que somos una gran corporación farmacéutica que está desarrollando un nuevo medicamento frente a la enfermedad X y vamos a comenzar con los ensayos clínicos. ¿A que estaría genial dispones del perfil genético de cada uno de los pacientes?, y ¿qué pasa con su historial médico?, ¿o con los datos de su actividad diaria?. Hay infinidad de conjuntos de datos que NO son propiedad de la empresa farmacéutica que ayudarían y mucho a la hora de desarrollar nuevos medicamentos. Es por eso, que se está trabajando para poder encontrar el modo de compartir cierta información relevante entre organizaciones que permitan acelerar el progreso y con ello mejorar la vida de las personas. Por supuesto, cumpliendo con las regulaciones y normativas como GRDPR, HIPAA,… e igualmente, aplicando soluciones de seguridad que garanticen el correcto acceso a la información.
Para esta aproximación de, compartición segura de datos entre organizaciones, creo que iniciativas como el formato abierto Delta Sharing, que Databricks está apoyando y empleando para la construcción de su propio Marketplace de datos, puede ser una buena elección. Veremos en un futuro próximo como avanza esta práctica y si tecnología y legislación, encuentran la forma idónea de construir el ecosistema de data sharing. Sin duda, ¡todos saldremos ganadores!