Qué es Integración de Datos, ETL (IDD)
En la economía actual, las empresas que logran tener una visión unificada de su negocio y que extraen el mayor conocimiento posible de sus activos de información tienen una enorme ventaja competitiva sobre sus pares.
No es una tarea fácil: proliferan las fuentes de datos desconectadas y dispares, los formatos de datos distintos, los registros imprecisos, erróneos o desactualizados y las herramientas obsoletas.
¿Cuál es la solución? Una adecuada Integración de Datos (IDD).
Para las empresas, esto significa contar con software que combine su información de una manera que permita:
1) Obtener conocimientos que fundamenten una toma de decisiones oportuna sustentada en datos,
2) Identificar oportunidades y
3) Detectar amenazas de forma temprana.
Todo esto, basándose en una combinación de datos heterogéneos y provenientes de fuentes dispares.
¿Qué es la integración de datos o IDD?
Se trata de un conjunto de procesos técnicos y de negocios que se utilizan para agregar información de diferentes fuentes con el objetivo de convertirla en datos fiables y valiosos.
Estas soluciones ayudan a comprender, limpiar, monitorear, transformar y entregar los datos para que las empresas puedan asegurarse de que la información es confiable, es consistente y se gestiona oportunamente.
Básicamente, la IDD es una disciplina que busca obtener el máximo conocimiento posible de la información empresarial y evitar la fragmentación de la información.
¿Cómo se alcanzan los objetivos de la Integración de Datos?
La Integración de Datos generalmente se implementa en un Almacén de Datos (Data Warehouse) mediante software especializado que aloja grandes volúmenes de información proveniente de fuentes que pueden ser tanto internas y como externas a la empresa.
Por ejemplo, el conjunto completo de datos de un cliente puede incluir información combinada extraída de los sistemas de Marketing, Ventas y Operaciones de la empresa. Una buena solución de IDD, lograría:
· Obtener datos de donde se encuentran actualmente,
· Transformarlos a un formato compatible con el destino deseado y
· Ponerlos en el sistema destino.
Facilitando con ello, que la esta información pueda ser procesada y combinada en reportes o dashboards que soporten la toma de decisiones operacionales y de negocios.
Extraer, Transformar y Cargar datos (Extract, Transform, Load o ETL)
Toda Integración de Datos, independientemente de si se realiza por lotes o en tiempo real, de forma sincrónica o asincrónica, física o virtual, gira alrededor de tres funciones básicas: Extraer, Transformar y Cargar datos. Se trata del grupo de procesos centrales de la disciplina, definidos con el acrónimo ETL.
Son conceptos extremadamente simples; sin embargo, existen grandes diferencias en los diseños y tecnologías aplicables para su implementación. Proveedores de paquetes de ETL e IDD como: Oracle, IBM, Talend, Cisco, Microsoft, SAS, SAP ofrecen soluciones en una amplia gama de complejidad y precios.
La primera parte de un proceso de ETL consiste en extraer los datos de los sistemas fuente, ya sean homogéneos o heterogéneos. Una parte intrínseca de la extracción implica validar los datos recopilados para confirmar si tienen los valores correctos/esperados en un dominio dado. Si los datos no cumplen las reglas de validación, se rechazan total o parcialmente.
La segunda parte del proceso consiste en transformar los datos, etapa en la que se limpian y se convierten, asignándoles un formato/estructura de almacenamiento adecuados para su posterior consulta y análisis.
La última parte del proceso de ETL consiste en cargar de los datos en su ubicación final, que puede ser cualquier Almacén de Datos. Este proceso varía ampliamente: algunos almacenes de datos pueden sobrescribir la información existente con información acumulativa; la actualización de los datos extraídos se realiza con frecuencia de forma diaria, semanal o mensual. Otros almacenes de datos pueden añadir nuevos datos de forma histórica a intervalos regulares, por ejemplo, cada hora.
Importancia de la Integración de Datos
Un Sistema de IDD correctamente diseñado extrae datos de los sistemas de origen, hace cumplir los estándares de calidad y consistencia de datos, conforma los datos para que se puedan utilizar fuentes separadas y, finalmente, entrega los datos en un formato listo para la presentación, de modo que los desarrolladores de aplicaciones puedan crear aplicaciones y los usuarios finales puedan tomar decisiones.
La elección correcta de la herramienta de IDD puede agilizar los procesos de gestión de datos, liberar recursos de TI para centrarse en aspectos empresariales más críticos, maximizar el retorno de la inversión y ofrecer a los usuarios empresariales de primera línea más control sobre los datos. Por otro lado, una elección equivocada puede dejarle con una herramienta compleja, mayores gastos y malos resultados.
Una pieza de un rompecabezas, aunque sea un componente importante de la imagen general, tiene poca utilidad por sí sola. Debe estar correctamente conectada a otras piezas del rompecabezas para posibilitar la obtención de resultados significativos. Los datos procedentes de fuentes dispares se asemejan a piezas de un rompecabezas. Necesitan estar integrados en el formato correcto con la información correcta para que tenga sentido.
“Los datos son el nuevo petróleo” se argumenta con frecuencia en los entornos de negocios. Se trata de una declaración cuya validez cada día se hace más evidente. ¿Está su empresa preparada para explotar al máximo esta potencial fuente de ingresos?
Por Félix Bolivar – Consultor ETL, ERP, Emprendedor, Freelancer
Fuente original: https://synergixs.com/que-es-integracion-de-datos-etl/
- Qué es Integración de Datos, ETL (IDD) - 3 julio 2020