El siguiente diagrama muestra la arquitectura planteada para el desarrollo de Pipeline que incluye procesamiento de Servicios Cognitivos de Azure en Databricks, orquestado con Azure Data Factory.
El Pipeline consiste en lo siguiente:
- Dentro de los Servicios Cognitivos de Azure, se implementó un proceso Optical Character Recognition (OCR) para extraer caracteres de un formulario de un centro clínico completado a mano alzada. Dicho proceso extrajo los datos escritos con lápiz sobre el papel y los guarda en la memoria del Cluster de Databricks.
- Posteriormente, dicha información es procesada por un siguiente proceso cognitivo de Azure de Text Analytics para extraer información relevante sobre Nombre y Entidades. De esta manera se logra detectar y clasificar la información mencionada de forma automatizada, gracias a algoritmos de Text Analytics (Servicio Cognitivo de Azure).
- Luego en Data Setting los datos son Transformados a través de librería Pandas para crear información relevante y transformada para el negocio.
- Los datos anteriores son transformados a formato HL7 File (Formato internacional estándar en la industria de la Salud).
- Finalmente la información generada es almacenada en un Repositorio Clínico llamado FHIR a través del servicio Azure Health Data Services.
- La información resultante es posible consultarla de inmediato desde cualquier entidad conectada a FHIR a través de Azure Health Data Services.
Para más información sobre dichas tecnologías, por favor revise nuestro post: Azure Health Data Services: Potenciando la Gestión de Información Médica Protegida en la Nube.