DATA WAREHOUSE


COMPARTE  DATA WAREHOUSE













Comparte www.areatecnologia.com

añadir facebook  añadir a mi twitter  añadir en mi tuenti  añadir en delicious  añadir en mi digg  añadir meneame






 Hoy en día cada vez se oye más hablar del data warehouse. Vamos hacer un recorrido por todo lo que significa e implica este término y cómo se lleva a cabo. Puede parecer muy complicado, pero vamos a tratar de explicarlo de forma sencilla para que todo el mundo lo pueda entender. Aprendérás términos como data mining, OLAP, ETL, etc.
 

 ¿Qué es un Data WareHouse?


 Viene del Inglés Data = datos y WareHouse = almacén, por eso, una data warehouse es un almacén de datos. Esta palabra se utiliza para hablar de un almacén de datos diseñado para permitir las actividades de inteligencia de un negocio. En definitiva sirve para ayudar analizar los datos recopilados por la empresa con el fin de mejorar su rendimiento.

data warehouse

 Un Data Warehouse o Almacén de Datos, es una gran base de datos, normalmente medida en gigabytes (miles de millones de caracteres) o terabytes (billones de letras), que recoge información de múltiples fuentes, y que su actividad se centra en la Toma de Decisiones, es decir, en el análisis de la información, en vez de su captura.

 Todo el mundo sabe hoy en día que la información es un potente activo del que se pueden obtener importantes beneficios y ventajas competitivas para cualquier organización. De hecho las empresas valoran los datos como un activo más de la empresa. Estos datos pueden darnos información acerca de clientes, competidores, etc. De ahí nacen las datas warehouses.

 Los datos pueden provenir de los sistemas desarrollados internamente por la empresa, de las aplicaciones compradas, o de los datos comprados a otras empresas o fuentes de datos. Estos datos ayudan a los analistas para tomar decisiones en una organización.

 Es importante que la empresa cuente con un único DataWarehouse. Así, los miembros de la organización podrán acceder a una misma fuente de información organizada según convenciones determinadas por el management.

  El término "Data WareHouse" fue acuñado por primera vez por Bill Inmon en 1990. De acuerdo con Inmon, una data warehouse es un conjunto de datos estructurados orientados por temas, integrados, variables con el tiempo, y no volátiles empleados para tomar decisiones.

 - Orientados por temas: Colección de información relacionada organizada alrededor de un tema central. Cuando se habla de datawarehouse se hace referencia a un sistema que esta organizado en base a temas o asignaturas especiales, que permite entonces que los datos y la información de mismo tipo quede siempre conectada. Ejemplos de temas pueden ser clientes, productos, campañas, etc.

 - Integrados: los datos se obtienen de fuentes diferentes, por ejemplo de los diferentes departamentos de una organización, pero se deben aplicar técnicas de integración (agrupación) de los datos. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.

 - No volátiles: quiere decir que los datos no van a cambiar con el tiempo una vez que se encuentran en el almacén. El almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información ni se modifica ni se elimina.

 - Variables con el Tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones.

que es un data warehouse


  Otras formas que podemos encontrar de llamar a las data warehouse pueden ser: dw, data wharehouse, data warhouse o simplemente almacén de datos. Data Warehousing, es el proceso que facilita la creación y explotación de un Data Warehouse.

 Además de una base de datos, en una data warehouse, se incluyen herramientas de extracción, transporte, transformación y carga de los datos (ETL), un procesamiento analítico en línea (OLAP) para analizarlos, herramientas de análisis de clientes, y otras aplicaciones que gestionan el proceso de recopilación de datos y la entrega a los usuarios como el data mining. Luego veremos algunas de estas aplicaciones.
 

 Para Qué Sirve una Data WareHouse

 - Para tener un mayor conocimiento del negocio

 - Para tomar mejores decisiones y en un tiempo menor.

 - Para mejorar y ser más efectivos.

 - Para no perder distancia con la competencia.

 - En definitiva para aumentar los ingresos.

data warehouse utilidad

 Las data warehouse son la base para los sistemas de gestión de relaciones con los clientes, ya que pueden ser utilizados para la consolidación de los datos del cliente y la identificación de áreas de satisfacción y/o frustración del cliente.

 También se utilizan para la detección de fraudes, análisis de reposicionamiento de producto, el descubrimiento de centros de beneficio y gestión de activos corporativos.

 Veamos más casos concretos con ejemplos:

 Para los minoristas, un almacén de datos o data warehouse puede ayudar a identificar las características demográficas de los clientes, identificar los patrones de compra y mejorar las respuestas de correo directo.

 Para los bancos, puede ayudar en la detección de fraude de tarjetas de crédito, ayudar a identificar a los clientes más rentables, y poner de relieve los clientes más fieles.

 Las empresas de telecomunicaciones la utilizan para predecir qué clientes tienen más probabilidades de cambiar de compañía y luego aplicarles incentivos especiales para quedarse.

 Las compañías de seguros la utilizan para el análisis de las reclamaciones para ver qué procedimientos se reivindican y para identificar patrones de los clientes de riesgo.

 Los fabricantes pueden utilizarla para comparar los costos de cada una de sus líneas de productos en los últimos años, a determinar qué factores producen incrementos y ver qué efecto tuvieron estos aumentos en los márgenes globales.

 Ahora vamos hacer un breve recorrido por esas otras herramientas que toda data warehouse debe tener. La mayoría de los data warehouse tiene la siguiente arquitectura:

data warehouse arquitectura

 Expliquemos los pasos ETL y de análisis.
 

  Data Warehouse ETL


 El proceso de extracción de datos de los sistemas de origen y ponerla en la data warehouse se denomina comúnmente ETL.

 ETL (Extract, Transform and Load) es un proceso responsable de la extracción de datos de los sistemas de origen y de colocarlo en un almacén de datos o data warehouse. ETL implica las siguientes tareas:

 Extracción de datos: Es lo primero que hace una herramienta ETL. Se trata de obtener la información de las distintas fuentes de origen, tanto internas como externas. Durante la extracción, se identifica los datos deseados y se extrae de muchas fuentes diferentes, incluyendo los sistemas de bases de datos y aplicaciones. Después de la extracción de datos, tienen que ser transportados físicamente al sistema de destino o a un sistema intermedio para su posterior procesamiento y/o transformación.

 Transformación: es el filtrado, limpieza, depuración, homogeneización y agrupación de la información. Incluye la agrupación de los datos de las diferentes fuentes.  La transformación se produce mediante el uso de reglas o tablas de consulta o mediante la combinación de los datos con otros datos.

 Carga: es el proceso de escribir los datos en la date warehouse. La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino.

data warehouse etl

 Diseñar y mantener el proceso de ETL es a menudo considerada como una de las partes más difíciles y que requieren más recursos de un proyecto de data warehouse. La mayoría de los programas de data warehouse utilizan herramientas ETL para gestionar este proceso. El software ETL extrae datos, transforma los valores de los datos inconsistentes, limpia los datos "malos", filtra los datos y carga los datos en una data warehouse de destino.

 Algunas de estas herramientas más utilizadas son:

 -Oracle Warehouse Builder
 -IBM Websphere DataStage
 - Microsoft SQL Server Integration Services (SSIS)

 Ya tenemos los datos correctamente, Ahora es el momento de analizarlos.
 

  OLAP Data Warehouse


 OLAP = On-Line Analytical Processing = Procesamiento analítico en línea. Es el método más utilizado para analizar y evaluar los datos de la data warehouse en línea. Permite a los gerentes y analistas obtener una idea de la información . Para analizar los datos se utilizan un conjunto de operaciones. Estas operaciones se realizan mucho más fácilmente con software o programas OLAP, que suelen incluir los programas data warehouse. Para los programas OLAP un tiempo de respuesta es una medida de su eficacia.

 OLAP permite al usuario extraer y ver con facilidad y de forma selectiva los datos desde diferentes puntos de vista.

 Un ejemplo, un usuario puede solicitar que se analizaron los datos para mostrar una hoja de cálculo que muestra todos los productos una pelota de playa de una empresa que se venden en Madrid en el mes de julio, comparar las cifras de ingresos con los de los mismos productos en septiembre y luego ver una comparación de otras ventas de productos en Madrid en el mismo período de tiempo.

olap data warehouse
 

  Data Mining


 Data Mining significa "minería del datos". En general, el data mining (a veces descubrimiento de conocimiento) es el proceso de analizar los datos desde diferentes perspectivas y resumirlos en información útil; información que puede ser utilizada para aumentar los ingresos, reducir los costes, o ambos. El data mining descubre patrones ocultos en los datos.

data mining

 Técnicamente, el datamining es el proceso de encontrar correlaciones entre los patrones o de los campos en grandes bases de datos como en los de una data warehouse.

 Un ejemplo, una cadena de supermercados utiliza la capacidad de extracción de datos de Oracle software para analizar los patrones de compra locales. Descubrieron que cuando los hombres compran pañales los jueves y los sábados, también tendían a comprar cerveza. Un análisis más detallado mostró que estos compradores normalmente hicieron su compra semanal los sábados. Los jueves, sin embargo, sólo han comprado algunos artículos. El minorista llegó a la conclusión de que debería comprar cerveza para tenerla disponible para el próximo fin de semana. La cadena de supermercados podría utilizar esta información recientemente descubierta de diversas maneras para aumentar los ingresos. Por ejemplo, podrían mover la estantería de la cerveza más cerca de la de los pañales y los jueves no harían ninguna oferta para pañales y cerveza.

 Diferencia entre OLAP y Data Mining

 OLAP y Data Mining se utilizan para resolver diferentes tipos de problemas analíticos.

 Con OLAP se resumen los datos y se hacen pronósticos. Por ejemplo, responde a cuestiones operativas como "¿Cuál es el promedio de ventas de automóviles, por región y por año?".

 Data Mining descubre patrones ocultos en los datos y opera a un nivel detallado en lugar de un nivel de resumen. Por ejemplo, en una industria de las telecomunicaciones, donde la pérdida de clientes es un factor clave, la minería de datos podría responder a preguntas como: "¿Quién es probable que cambie los proveedores de servicios y cuáles son las razones para que cambien?"



 Si te ha gustado haz clic en Me Gusta, Gracias:


 © Se permite la total o parcial reproducción del contenido, siempre y cuando se reconozca y se enlace a este artículo como la fuente de información utilizada.