O que é Data Warehouse - Data Mart - BI - ETL - OLAP - DATA MINING
DATAMART
Data mart (repositório de dados) é sub-conjunto de dados de um Data warehouse (armazém de dados). Geralmente são dados referentes a um assunto em especial (ex: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (ex: Vendas Anual, Vendas Mensal, Vendas 5 anos), que focalizam uma ou mais áreas específicas. Seus dados são obtidos do DW, desnormalizados e indexados para suportar intensa pesquisa. Data marts extraem e ajustam porções de DWs aos requisitos específicos de grupos/departamentos.
As questões de planejamento, projeto e implementação são as mesmas encontradas em qualquer fase da implementação de um DW, pois uma parte dos especialistas argumenta que o DW é uma evolução natural de um Data mart que começou localizado e cresceu para atender um escopo maior. Essa visão tem defesa menos técnica e mais intuitiva do que sua contra-parte: o Data mart é criado a posterior do DW, pois ele seria montado com dados extraídos do DW para atender especificamente um setor da organização..
Numa visão comparativa dos dados, onde consideramos os requisitos escopo, integração, tempo, agregação, análise e dados voláteis, percebemos que a diferença está no escopo, pois enquanto o DW é feito para atender uma empresa como um todo, o data mart é criado para atender um sub-conjunto da empresa. Repare que atender um sub-conjunto da empresa pode significar reunir dados de outros setores, já que, na prática, raramente um único setor possui ou gera toda informação que precisa. Vem dessa observação a defesa da tese de que o Data mart é construído após o DW.
Não se pode dizer que um Data warehouse é um conjunto de Data marts. Seria o mesmo que dizer que o armazém geral de um supermercado (onde todos os itens vão antes de seguir para as lojas) é o agrupamento de supermercados.
DATA WAREHOUSE
Um armazém de dados, ou ainda depósito de dados, é utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.
O data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.
A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.
Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.
Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados,o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.
Data Warehouse, pode ser definido como um Banco de Dados especializado, o qual gerencia o fluxo de informações a partir dos bancos de dados corporativos e fontes de dados externas à empresa. Ele é construído para que os dados possam ser armazenados e acessados de forma que não seja limitados por tabelas e linhas, sua função é tornar as informações acessíveis para o seu entendimento, gerenciamento e uso.
BI - BUSINESS INTELLIGENCE
BI, É um meio de traduzir dados em conhecimento. Coleta-se informações de bases operacionais, armazena-se isso de forma modelada e depois realiza-se consultas através de ferramentas para prover informações que traduzam em vantagem competitiva, onde diversas ferramentas e metodologias são empregadas.
Para mais informacoes sobre BI: https://pt.wikipedia.org/wiki/
ETL - EXTRACT TRANSFORM LOAD
ETL, do inglês Extract Transform Load (Extração Transformação Carga), são ferramentas de software cuja função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim a carga dos dados geralmente em um Data Mart e um Data Warehouse, porém nada impede que também seja para enviar os dados para um determinado sistema da organização. A extração e carga são obrigatórias para o processo, sendo a transformação/limpeza opcional, mas que são boas práticas, tendo em vista que os dados já foram encaminhados para o sistema de destino. É considerada uma das fases mais críticas do Data Warehouse e/ou Data Mart.
Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou arquivo de texto (texto plano), mas podem existir outras fontes. Um sistema ETL tem que ser capaz de se comunicar com as bases de dados e ler diversos formatos de arquivos utilizados por toda a organização. Essa pode ser uma tarefa não trivial, e muitas fontes de dados podem não ser acessadas com facilidade.
Algumas das ferramentas conhecidas de ETL são IBM InfoSphere DataStage , Informática Power Center, Business Objects Data Integrator , Data Transformation Services,
Pentaho Data Integration, Oracle Data Integrator, entre outras.
OLAP
As ferramentas OLAP (do ingles, Online Analytical Processing) são geralmente desenvolvidas para trabalhar com banco de dados normalizados[10] , embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados (informações) normalizados.
Essas ferramentas são capazes de navegar pelos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para a realização de pesquisas como para a apresentação de informações.
Nas ferramentas de navegação OLAP, é possível navegar entre diferentes níveis de granularidades (detalhamento) de um cubo de dados. Através de um processo chamado Drill o usuário pode diminuir (Drill up[11] ) ou aumentar (Drill down[12] ) o nível de detalhamento dos dados. Por exemplo, se um relatório estiver consolidado por países, fazendo um Drill down[12] , os dados passarão a ser apresentados por estados, cidades, bairros e assim sucessivamente até o maior nível de detalhamento possível. O processo contrário, o Drill up[11] , faz com que os dados sejam consolidados em níveis superiores de informação.
Outra possibilidade apresentada pela maioria das ferramentas de navegação OLAP é o recurso chamado Slice and dice. Esse recurso é usado para criar visões dos dados por meio de sua reorganização, de forma que eles possam ser examinados sob diferentes perspectivas.
O uso de recursos para manipular, formatar e apresentar os dados de modo rápido e flexível é um dos pontos fortes de um data warehouse. Essa característica faz com que a apresentação de relatórios na tela[13] seja mais comum do que imprimi-los. Além disso, o usuário[14] tem liberdade para examinar as informações que quiser de diversas maneiras e, ao final, pode imprimir e até mesmo salvar as visões mais importantes para uma futura consulta.
DATA MINING
Data mining, ou mineração de dados, é o processo de descoberta de padrões existentes em grandes massas de dados. Apesar de existirem ferramentas que ajudam na execução do processo, o data mining não tem automatização simples (muitos discutem se é sequer factível) e precisa ser conduzido por uma pessoa, preferencialmente com formação em Estatística ou áreas afins. O data mining diferentemente do OLAP, fornence informações de dados corporativos ocultos em grandes bancos de dados,podendo prever comportamentos futuros, se tornando uma importante ferramenta para tomada de decisão dos gestores. Os tipos de informações obtidos com o data mining abrangem associações, sequências, classificações, aglomerações e prognósticos.