quarta-feira, 4 de novembro de 2020

Ferramentas para construção e consultas a um DW

Etapas e componentes da implantação de um ambiente de apoio à decisão

O processo de criação de um ambiente que suporte adequadamente a tomada de decisões corporativas envolve a construção de um grande repositório de dados, o DW, que é realizado em diversas etapas e utiliza ferramentas de apoio específicas, que podem ser resumidas em:

  1. Fontes de dados: os dados podem vir de sistemas transacionais, de ERPs (sistemas integrados de gestão), de sistemas legados ou de diversas outras fontes, como bancos de dados transacionais, planilhas e arquivos-texto.
  2. ETL: os dados são extraídos das diversas fontes, transformados e carregados nos DMs e/ou no DW por meio de ferramentas especiais que realizam o processo de ETL.
  3. Ferramentas OLAP: “navegam” nos dados do DW para realizar pesquisas e apresentar as informações de forma adequada aos tomadores de decisão.
  4. Ferramentas de análise de big data e data mining: ferramentas para análise de big data e de mineração de dados procuram padrões ocultos, utilizando modelos matemáticos, nas coleções de dados de forma a transformá-los em informações úteis para se prever tendências e comportamentos futuros e se alcançar metas de negócios específicas. Dentre as ferramentas de data mining encontram-se as de text mining, que procuram padrões ocultos nos arquivos de textos puros, e as de web mining, que procuram os padrões em páginas da web.
  5. Ferramentas de monitoramento: as ferramentas de monitoramento e visualização são mais fáceis de serem implementadas quando os dados estão armazenados em um DW. As ferramentas OLAP também podem se beneficiar do DW mostrando as informações de forma tridimensional, ou na forma de cubos.

A figura ilustra estas etapas.

Nas seções seguintes, os conceitos e definições de data mart, processo de ETL, OLAP, big data, data mining, incluindo text e web mining, e ferramentas de monitoramento serão apresentados.

Extract, Transform and Load (ETL)

ETL (Extract, Transform and Load ou Extração, Transformação e Carga) é o processo de extrair os dados de uma ou várias fontes, transformá-los de alguma forma sem alterar seu conteúdo e inseri-los em outro banco de dados, que, no caso de nosso estudo, é o DW.

Os processos ETL são considerados como uma das fases mais complexas do ciclo de vida do DW, pois envolve diversas fontes de dados, transformações e critérios de qualidade que preparam os dados para o DW. Estes processos são realizados através de automatizações que podem ser programadas (scheduling) para execução diária, semanal, mensal, dentre outras possibilidades.

O ETL consiste na extração de dados dos sistemas transacionais, transformação e carga destes dados de acordo com as regras de negócio da empresa, garantindo o controle de qualidade dos dados para sua publicação e posterior uso.

(Fonte: traduzido de KIMBALL e CASERTA, 2004)

O processo de ETL para a construção de um DW pode contar ou não com uma staging area ou ODS (Operational Data Store), sendo uma decisão do projeto. De acordo com Machado (2012, p. 39), em projetos que envolvam vários tipos de bancos de dados ou diferentes plataformas nos quais as fontes de dados estejam distribuídas, a staging area torna-se muito importante para que os dados possam ser ali integrados e limpos.

A figura ilustra o processo de ETL com staging area.

Processo ETL usando staging area.

terça-feira, 3 de novembro de 2020

Arquitetura de DMs independentes

É a arquitetura normalmente sugerida pelos fornecedores de software para consulta de informações no DW, pois é isolada e agrada os usuários.

De acordo com Machado (2012, p. 51),

a arquitetura independente implica em Data Marts stand alone controlados por um grupo específico de usuários e que atende somente às suas necessidades específicas e departamentais, sem foco corporativo nenhum. Este fato faz com que não exista nenhuma conectividade desses Data Marts com outros Data Marts de outros departamentos ou áreas de negócio.

Nesta abordagem, cada departamento realiza a extração dos dados dos seus sistemas transacionais, com apoio do setor de TI. O setor de TI somente auxilia na manutenção técnica do ambiente, não sendo responsável pelo controle da implementação e do desenvolvimento do DW. Caso existam dados externos a serem utilizados, o setor de TI deve ser envolvido para orientar a adequação dos formatos de arquivos e demais aspectos técnicos.

A figura ilustra esta arquitetura.

 Arquitetura de DMs independentes.

Fonte: MACHADO, 2012, p. 52.

A arquitetura independente requer profissionais de TI especializados, mas tanto a equipe operacional quanto os recursos podem ser administrados pelo grupo responsável pelo projeto do DW ou pelo próprio departamento.

Esse tipo de arquitetura impacta pouco nos recursos de TI e geralmente sua implementação é rápida. Porém, resulta em repositórios com pouca integração corporativa, que não permite visão global da empresa.

Normalmente cada DM fica acessível apenas ao pessoal do departamento “proprietário” do DM. Machado (2012) afirma que, infelizmente, esta é uma situação muito comum no Brasil e também bastante disseminada pelo mundo, reflexo do foco de negócios de venda de produtos sugerida pelos fornecedores de software, como já dissemos.

Arquitetura de DM integrados

De acordo com Machado (2012, p. 52),

a arquitetura de Data Marts integrados é basicamente uma distribuição da implementação do DW. Apesar de os Data Marts serem implementados separadamente por grupos de trabalho ou departamentos, eles são integrados ou interconectados, fornecendo uma visão corporativa maior dos dados e informações. Neste caso, o alto nível de integração é similar ao da arquitetura global e os usuários de um departamento podem acessar e utilizar os dados de um Data Mart de outro departamento.

Essa arquitetura, comparada à arquitetura de DMs independentes, permite muitas outras funções e acesso às informações. Entretanto, a integração dos DMs aumenta muito o nível de complexidade dos requisitos do ambiente. Isso requer que o setor de TI atue de forma mais incisiva do que na arquitetura independente, ficando sob sua responsabilidade o controle e administração dos Data Marts, em um ambiente mais complexo. Em contrapartida, esta arquitetura apresenta como vantagem a ampliação da capacidade e da qualidade da visão corporativa das informações.

A figura ilustra esta arquitetura.

Arquitetura de DMs integrados.
Fonte: MACHADO, 2012, p. 53.

segunda-feira, 2 de novembro de 2020

Arquitetura de DW

A escolha da arquitetura pode não ser prioridade no começo de um projeto de DW, pois pode ser definida ou mesmo modificada após o início da implementação. Entretanto, pode-se despender um longo tempo caso seja esta a opção inicial.

A escolha da arquitetura do DW é uma decisão gerencial do projeto, normalmente baseada em fatores relativos à infraestrutura disponível, às características do negócio (porte da empresa), ao escopo desejado, à capacitação dos empregados da empresa e, principalmente, ao orçamento disponibilizado ou projetado para o investimento.

A abordagem de implementação escolhida é uma decisão que pode causar fortes impactos quanto ao sucesso de um projeto de DW. Muitas variáveis afetam a escolha da implementação e da arquitetura, entre elas o tempo para a execução do projeto, o retorno do investimento a ser realizado, a velocidade dos benefícios da utilização das informações, a satisfação do usuário executivo e os recursos necessários à implementação da arquitetura.

A seleção de uma arquitetura determinará ou será determinada pelo local onde o DW ou os DMs serão armazenados. Há diversas opções que podem ser determinantes na definição da arquitetura, por exemplo: os DMs podem residir em uma instalação central, podem ser distribuídos em instalações remotas ou locais, podem ser administrados de forma centralizada ou independente.

A seguir apresentaremos as principais arquiteturas e exporemos sua configuração básica.

3.5.1 Arquitetura global

De acordo com Machado (2012, p. 50),

a arquitetura global é a que suporta toda ou a maior parte dos requisitos ou necessidades de um Data Warehouse integrado com grande grau de acesso e utilização das informações para todos os departamentos de uma empresa. O termo global reflete o escopo de acesso e utilização das informações na empresa e significa apenas “por toda a empresa”.

Nesta abordagem, o DW é projetado e construído com base nas necessidades da empresa como um todo, como um repositório comum de dados de suporte à decisão, acessível em toda a empresa e disponível para todos da empresa.

A arquitetura global pode ser fisicamente centralizada ou fisicamente distribuída nas instalações de uma organização.

  • A centralização física é utilizada quando a organização tem sede única em um único lugar e o DW é administrado por um departamento de TI.
  • A distribuição física é utilizada quando a organização tem sede e outras filiais em diversos locais físicos e os dados estão em instalações físicas diferentes. A administração também é feita por um departamento de TI.

Dizer que um departamento de TI administra o DW não significa dizer que esse departamento realiza o controle do DW. Por exemplo, na arquitetura global fisicamente distribuída o DW pode ser controlado por um outro departamento, como o de Planejamento Estratégico, que fica responsável por decidir quais dados devem ser carregados no DW, quando deve ser realizada a carga incremental ou sua atualização e quais setores e pessoas terão direito de acesso aos dados.

O departamento de TI e seus profissionais realizam a administração e a implementação do DW, notadamente porque é o TI que administra as redes de comunicação de dados da empresa e sua infraestrutura associada.

A figura abaixo ilustra os dois caminhos de utilização de uma arquitetura global para DW. No topo da figura você pode observar que o DW está distribuído em três instalações físicas, e na parte de baixo, o DW reside em uma única instalação.

Arquitetura global centralizada e distribuída.
Fonte: MACHADO, 2012, p. 51.

Os dados são extraídos de sistemas transacionais e de fontes de dados externas por processos batch, ou seja, em lote em horários de baixa das operações. Os dados são filtrados, aqueles não necessários são excluídos e a transformação é realizada visando atender critérios de qualidade e respeitar os requisitos levantados para o projeto. Após este processo, os dados são então carregados para o DW para que os usuários finais tenham acesso a eles.

Machado (2012) afirma que a arquitetura global habilita os usuários finais a utilizar visões corporativas de dados, que normalmente são requisitos de negócio, e alerta que esse tipo de arquitetura consome muito tempo de desenvolvimento e administração, e tem a desvantagem que seu custo de implementação é muito elevado.

domingo, 1 de novembro de 2020

Etapas de implantação de um DW

 O que são metadados?

O prefixo “Meta” vem do grego e significa “além de”. Assim Metadados são informações que são acrescidas aos dados e que têm como objetivo informar-nos sobre eles para tornar mais fácil a sua organização.

Os metadados têm tradicionalmente sido vistos como separados do núcleo duro da informação, ou seja, a que está relacionada com as transações de negócio. O que não quer dizer que não sejam importantes. Definições e regras de negócio, detalhes de segurança, informação de domínios, tags XML são metadados.

A sua utilização estende-se, no entanto, a outros campos além da gestão documental. Por exemplo, a tecnologia Data Warehouse consiste em extrair e consolidar dados de múltiplas fontes em uma base de dados que possa ser consultada de várias maneiras pelos usuários com ferramentas de suporte à decisão. Os metadados são, neste contexto, um instrumento essencial para a gestão do repositório e incluem informações como lista de conteúdo, origem dos dados, transformações (como filtragens ou cálculos efetuados na transferência para a localização atual), versão, modelos de dados etc.

Os metadados podem ser estruturados ou não estruturados. Exemplo de não estruturados: o índice produzido por um sistema de indexação e pesquisa em texto integral. Estruturados são, por exemplo, um sistema de classificação de arquivo ou o dicionário de dados de um SGBD. (METADADOS, 2002)

Metadados podem ser basicamente definidos como “dados que descrevem os dados”, ou seja, são informações úteis para identificar, localizar, compreender e gerenciar os dados. Quando documentamos os metadados e os disponibilizamos, estamos enriquecendo a semântica do dado produzido, agregando seu significado real, e dando suporte à atividade de Administração de Dados executada pelo produtor desse dado. No caso do IBGE, que produz dados, os metadados são fundamentais. O Sistema de Metadados do IBGE visa facilitar o acesso do público em geral às informações produzidas pelo IBGE, descrevendo seu acervo institucional. Através desse sistema é possível verificar características e documentos relacionados aos produtos do Instituto. Navegando pelos metadados, o usuário do sistema pode localizar, interpretar e acessar os dados disponíveis nos sistemas de informação do IBGE. (IBGE, 2018)

Metadados
Fonte: seekeaw rimthong/Shutterstock.

De acordo com Macedo (2011),

a limpeza dos dados é um importante aspecto da criação de um DW eficiente. Devem ser removidos certos aspectos dos dados operacionais que podem atrasar muitas consultas. O estágio de limpeza deve ser o mais dinâmico possível para acomodar todos os tipos de consulta, mesmo aquelas que requerem informações de baixo nível. Os dados devem ser extraídos de fontes de produção em intervalos regulares de tempo e concentrados de maneira centralizada, mas é importante que o processo de limpeza remova duplicações e normatize as diferenças entre os atributos dos dados.

Oliveira e Felipe (2014) afirmam que

somente após o processo de limpeza é que os dados podem ser transferidos para o DW. O DW é tipicamente um grande repositório de dados em um sistema de alta performance, do tipo SMP- Symmetric Multi-Processing ou MPP- Massively Parallel Processing, ou seja, sistemas multiprocessados ou paralelos. Somente um sistema com alto poder de computação pode garantir a eficiência do processo de implantação de um data warehousing, dada a complexidade envolvida no processamento e consultas e dada a grande quantidade de dados que geralmente a organização deseja armazenar.

sábado, 31 de outubro de 2020

Etapas de implantação de um DW

A implementação de um projeto de DW depende de ações políticas e técnicas. No campo político, é necessário que exista o suporte da alta direção da empresa e o comprometimento dos gerentes e analistas de negócios. No campo técnico existem diferentes abordagens de implementação que devem ser analisadas para que a escolha possa ajudar que os benefícios do projeto possam ser mais rapidamente visíveis e acelerar o processo de obtenção de apoio interno.

Um DW deve estar em consonância com as necessidades de negócio da empresa. Assim, a área de negócio deve ser a patrocinadora da iniciativa. Muitos projetos iniciados pela área de sistemas ou de TI fracassaram por não terem o apoio político necessário da direção da empresa ou por não terem definido um caso de negócio concreto.

Para implantar um projeto de DW, uma das primeiras atividades é a extração dos dados, que têm origem em diversas fontes com diferentes formatos. Após a extração, os dados são transformados e carregados no DW. Este processo é denominado ETL (Extract, Transformation, Load). Os dados podem ser inseridos no DW e depois transferidos para os DMs, ou os DMs podem ser criados antes do DW, com dados específicos de cada departamento da empresa, e depois transferidos para o DW. O DW é um repositório de dados multidimensional e dá suporte às ferramentas OLAP que extraem informações dos dados, permitindo que a análise dos negócios da empresa seja realizada. Essa análise apoia os tomadores de decisão, fornecendo aos gestores respostas rápidas para as questões mais importantes para os negócios.

A figura ilustra as etapas de elaboração de um DW.

Etapas e componentes do processo de implantação de um DW.

De acordo com a UEM (2011),

A primeira fase do processo de data warehousing consiste em “isolar” a sua informação operacional atual, preservando a segurança e integridade de aplicações de OLTP críticas ao mesmo tempo em que permite o acesso à mais ampla possível base de dados. O banco de dados ou data warehouse resultante pode consumir centenas de gigabytes - ou mesmo terabytes - de espaço em disco. O que é necessário então são técnicas eficientes para armazenar e acessar grandes quantidades de informação. Além disso, grandes organizações analisaram que somente sistemas de processamento paralelo podem oferecer largura de banda suficiente para estas aplicações.

O DW reúne dados que são extraídos de diferentes bancos de dados, e estes dados são transformados e enviados para o DW de forma seletiva. Sempre que uma atualização nos dados do DW é requerida, é necessário que ocorra novamente o processo de transformação e movimentação de dados, portanto, é importante que isso seja feito de forma automatizada, controlada e bem gerenciada.

Um outro conceito importante ligado ao DW são os metadados. Os metadados se referem à informação que descreve o modelo e a definição dos elementos das fontes de dados, sendo os meios que permitem que o usuário final possa compreender o que representam os dados no DW.

sexta-feira, 30 de outubro de 2020

Pessoas envolvidas no processo de data warehousing

Por sua abrangência, o processo de data warehousing envolve desde profissionais de TI até analistas de negócios que podem ser considerados usuários do ambiente.

 Equipes.

 

Fonte: Rawpixel.com/ Shutterstock.

Esse ambiente inclui administradores do projeto, administradores de dados, projetistas de banco de dados, administradores de bancos de dados e dos sistemas operacionais, que têm uma importância muito grande no processo de integração entre os ambientes transacionais e os ambientes dimensionais. Há também os programadores e os analistas de sistemas para a extração e limpeza dos dados, além dos analistas dos aplicativos, que acessarão as informações, e os usuários finais.

De acordo com Machado (2012, p. 32), essas pessoas encontram-se agrupadas por papéis da seguinte forma:

  • Analistas responsáveis pela carga dos dados: representam os programadores que necessitam conhecer o mapeamento entre o DW e os sistemas transacionais, além de todos os requisitos necessários à filtragem e à integração dos dados.
  • Usuários finais: são os gerentes, executivos e analistas de negócio que utilizam a informação para apoio à tomada de decisão. Esses usuários apresentam uma grande familiaridade com os termos do negócio e estão sempre em busca da solução de um problema ou de novas oportunidades. Eles podem ser divididos em dois grupos: os usuários diretos e os usuários indiretos. Os usuários diretos são aqueles que acessam livremente o DW como um todo e os usuários indiretos acessam os data marts (DMs) especializados.
  • Analistas responsáveis pelo desenvolvimento e manutenção do DW e dos DMs: equivalem aos administradores de bancos de dados e administradores de dados dos SGBDs. Estabelecem o nível de preocupação com os metadados, com a arquitetura de armazenamento e com a estrutura dos dados, visando, principalmente, melhorar o desempenho das consultas. É comum o estabelecimento de equipes diferentes para os dois ambientes.
  • Administradores de dados: têm um papel de fundamental importância nesse contexto novo, pois seu papel de integrador dos ambientes transacional e dimensional é fator de garantia de qualidade e da existência íntegra do DW, por meio de metodologias de acompanhamento e administração dos metadados entre os sistemas transacionais e seu processo de manutenção de extração, transformação e carga do DW.

quinta-feira, 29 de outubro de 2020

Características de um DW

De acordo com Inmon (1997), que é considerado o criador do conceito de data warehousing, existem basicamente quatro características que descrevem um DW:

  • Orientado ao assunto: os dados são organizados de acordo com o assunto ao invés da aplicação.
  • Integrado: todos os atributos e convenções de tipos são unificados e integrados, de forma que signifiquem sempre a mesma coisa.
  • Variação em relação ao tempo: há espaço para o armazenamento de dados que têm cinco, dez ou mais anos, de forma que possam ser utilizados em comparações, tendências e previsões.
  • Não-volatilidade: os dados não são atualizados ou modificados em nenhum momento; uma vez que entram no DW, passam a ser somente acessados, nunca alterados.

Características de um Data Warehouse

 

Os dados de um DW são precisos em relação ao tempo, representam resultados operacionais realizados em um determinado momento de tempo: precisamente o momento em que foram capturados. Assim, os dados do DW são um snapshot (fotografia instantânea), um conjunto estático de registros de uma ou mais tabelas. Isso implica que não podem ser atualizados. Para ficar mais claro este conceito, imagine apenas que um dado relativo às vendas de um certo produto em um determinado mês nunca mais terá seus valores modificados.

Nos DWs, a data é um elemento essencial e um componente-chave, pois faz parte de um projeto estruturado sobre janelas do tempo. Nos DWs, os espaços de tempo são significativamente maiores do que os armazenados em um sistema transacional, situando-se entre três, cinco ou dez anos, podendo até se estenderem por maiores períodos de tempo.

Outra característica de suma importância em um DW é que todos os seus dados têm um alto nível de integração. Isso significa que um mesmo atributo não pode significar coisas diferentes em dados semelhantes. As convenções de nomes, valores de variáveis, e outros atributos físicos de dados, como tipos de dados, são formalmente unificados e integrados nessa base única. Assim, ao se referir ao sexo, por exemplo, não se podem usar valores diferentes, como “f” e “m” e “feminino” e “masculino”, ou, ainda, “0” e “1”.

Em ambientes de múltiplas plataformas, a característica de integração se torna fundamental, pois é necessária a unicidade de informações. A existência de sistemas mais antigos com padrões de codificação de dados diferentes pode levar à existência de diferentes convenções entre os sistemas operacionais. Neste caso, quando forem carregados para o DW, devem ser resolvidos pelos processos de filtragem e agregação.

No DW, os dados são organizados por assunto e contém informações importantes para o suporte à decisão. O fato de estes dados estarem organizados por assunto (como vendas, produtos, clientes etc.) permite que os usuários determinem como está o desempenho da empresa em termos de lucratividade e também permite que se determinem as razões deste desempenho.

Por exemplo, uma empresa de seguros utilizando um DW poderia organizar seus dados por consumidor, prêmio e franquia, ao invés de diferentes produtos (automóvel, vida etc.). Os dados são organizados por assunto, contendo somente as informações necessárias para o processo de suporte à decisão. (TURBAN et al., 2009)