A continuación se presenta un caso trabajado para un cliente del sector Financiero, donde se necesitó crear conocimiento de preferencias de clientes a partir de 2 fuentes de información:

  • Sistema CRM: Base de datos con información sensible de Clientes.
  • Datos de Aplicación: Información sobre el uso de una aplicación; tales como Navegación, Preferencias de Usuario, Eventos, Suscripciones, entre otros.

El objetivo era lograr conocer una nueva información de clientes a partir de un conocimiento previo para ayudar a la toma de decisiones del área de Marketing de la compañía.

La arquitectura presenta distintos componentes de Azure para el procesamiento de datos. Entre ellos tenemos:

  • Azure Data Factory: Carga de datos hacia el área Landing y orquestación de procesos.
  • Databricks: Procesamiento de datos y aplicación de reglas de negocio. Se crean Tablas Delta para facilitar el acceso a la información.
  • Azure Data Lake: Almacenamiento de datos en formato Parquet para facilitar la eficiencia de almacenamiento y optimización del procesamiento analítico.
  • Synapse Analytics: Data Warehouse de Microsoft Azure.
  • Power BI: Área de visualización de la información, muestra de indicadores para el negocio.
  • La anterior arquitectura presenta una ingesta de datos hacia las distintas etapas de carga en el Data Lake a través de la orquestación de Azure Data Factory y realizando el trabajo de computo con Databricks:
    • Se observan 3 áreas de almacenamiento:
      • Area Landing (Área de Aterrizaje): Esta es la primera etapa del Data Lake donde se reciben los datos crudos o sin procesar.
      • Trusted (Confiable): La zona Trusted es donde los datos se someten a procesos de validación, limpieza y transformación para mejorar su calidad y confiabilidad.
      • Refined (Refinado): La zona Refined es la etapa final en la que los datos han pasado por una transformación avanzada y se han preparado para su consumo por parte de los usuarios finales o aplicaciones.

La ventaja de la arquitectura es la presencia de Tablas Delta dentro de Databricks. Algunos de los beneficios clave de las tablas Delta son:

  1. Administración de versiones: Las tablas Delta mantienen un historial completo de los cambios realizados en los datos. Esto permite realizar consultas y análisis en diferentes versiones de los datos, revertir cambios o analizar tendencias históricas.
  2. Operaciones atómicas y transaccionales: Las tablas Delta ofrecen operaciones de escritura atómicas, lo que significa que los cambios se aplican completamente o no se aplican en absoluto. Esto garantiza la integridad de los datos y evita inconsistencias.
  3. Procesamiento en tiempo real: Las tablas Delta admiten operaciones de escritura y lectura concurrentes, lo que permite realizar análisis en tiempo real y actualizar los datos de manera incremental.

Por otro lado, Synapse Analytics es una plataforma de análisis y procesamiento de datos de Microsoft que combina tecnologías de almacenamiento, procesamiento y administración en una sola solución integrada. Ofrece capacidades para el almacenamiento y análisis de datos a gran escala, la ejecución de consultas SQL, el procesamiento en tiempo real y la integración con herramientas y servicios de Azure.

El beneficio de utilizar tablas Delta con Databricks y luego cargar los datos en Synapse radica en la combinación de las fortalezas de ambas plataformas:

  1. Administración avanzada de datos con Delta: Databricks proporciona una funcionalidad rica para el procesamiento y la administración de datos mediante el uso de tablas Delta. Con Delta, puedes aprovechar características como administración de versiones, transacciones, actualizaciones incrementales y operaciones de escritura/lectura concurrentes. Esto facilita la gestión de datos en un entorno escalable y permite realizar análisis en tiempo real.
  2. Potencia de procesamiento y análisis con Synapse: Synapse proporciona un entorno potente para el análisis de datos a gran escala. Ofrece capacidades de procesamiento distribuido, consultas SQL aceleradas y opciones de escalabilidad horizontal. Al cargar datos en Synapse desde Databricks, puedes aprovechar la infraestructura de procesamiento masivo de Synapse para realizar consultas analíticas complejas y ejecutar cargas de trabajo de alto rendimiento.
  3. Integración y colaboración: Tanto Databricks como Synapse se integran estrechamente con el ecosistema de servicios y herramientas de Azure. Esto facilita la colaboración entre equipos, la integración con otras soluciones de Azure y la adopción de flujos de trabajo end-to-end en el entorno de datos de la nube de Azure.

Utilizar tablas Delta con Databricks y cargar sus datos en Synapse permite aprovechar la administración avanzada de datos de Delta en Databricks y la potencia de procesamiento y análisis de datos de Synapse.

Al utilizar las áreas de Trusted y Refined en un Data Lake, procesar los datos con Databricks y cargar las tablas Delta en Azure Synapse Analytics, se está siguiendo un enfoque que se alinea con los principios de un Data Warehouse Moderno. Esto te permite aprovechar las ventajas de almacenamiento escalable, procesamiento eficiente y análisis avanzados en su compañía.