sexta-feira, 13 de novembro de 2020

Monitoramento e visualização de dados

As ferramentas que permitem a visualização de dados podem condensar milhares de números em uma única imagem e tornar as ferramentas de suporte à decisão mais atraentes, mais fáceis de usar e, principalmente, mais compreensíveis aos usuários e tomadores de decisão.

Estas ferramentas podem incluir imagens digitais, sistemas geográficos, interfaces gráficas com o usuário, gráficos, interfaces de realidade virtual, representações multidimensionais, vídeos, animações etc.

Além disso, estas ferramentas podem ajudar no monitoramento de dados, identificando de forma mais rápida tendências em dados corporativos e de mercado, representando uma enorme vantagem competitiva para a empresa. Assim, associar ferramentas de análise de big data/data mining às ferramentas de visualização pode ser uma combinação excelente para a tomada de decisão gerencial.

As ferramentas de monitoramento e visualização são mais fáceis de serem implementadas quando os dados estão armazenados em um DW. As ferramentas OLAP também podem se beneficiar do DW mostrando as informações de forma tridimensional, ou na forma de cubos.

Dentre os recursos de visualização de dados estão os dashboards e scorecards. Embora muitas vezes sejam vistos como um único conceito, é necessário fazer a distinção entre eles: suas características são apresentadas no quadro e ilustradas na figura seguinte.

Diferenças entre dashboard e scorecard.
  Dashboard Scorecard
Foco Tático – tem foco em operações e metas de curto prazo Estratégico – tem foco em metas de longo prazo
Medidas Métrica: mostra uma fotografia do desempenho do negócio em um dado momento Métrica e KPI: mostra o progresso nas atividades do negócio ao longo do tempo
Frequência Tempo real Atualizado periodicamente
Propósito Fornecer visão geral de alto nível da performance atual Ajudar na execução da estratégia de negócios
Parece-se com Painel de carro (mostra como o carro está funcionando) GPS (ajuda a entender onde a empresa está e quando atingirá o destino)
Fonte: baseado em GARETT, 2017.

Os dashboards fornecem informações imediatas sobre o desempenho dos negócios em toda a empresa. Já os scorecards apresentam uma visão consolidada sobre os objetivos estratégicos da empresa. Privilegiam informações estratégicas que são obtidas em um dado momento para análise crítica da alta direção. Scorecardsnão apresentam dados operacionais, como quantidade de chamados por clientes, avaliação de desempenho de colaboradores, dentre outros indicadores específicos. Eles demonstram graficamente o quão próximo ou distante a empresa está dos seus objetivos estratégicos.

Scorecards x dashboards.

Os KPIs (Key Performance Indicators,ou Indicadores-Chave de Desempenho) geralmente são definidos com o objetivo de medir as etapas mais relevantes de um processo, visando acompanhar seu progresso. Usando dashboards, muitas empresas desenvolvem “cockpits” (como mostra a figura acima), por meio dos quais podem acompanhar os resultados. O Balanced Scorecard (BSC)é um dos métodos mais utilizados pelas organizações para a definição dos indicadores-chave de desempenho.

Visualização de KPIs.
Fonte: NicoElNino/ shutterstock

Os dashboards e scorecardsfornecem informações imediatas sobre o desempenho dos negócios em toda a empresa. De uma maneira geral, são criados para os gestores que precisam, em dado momento, de uma visão geral do negócio ou de uma operação específica e consideram primordial dispor de uma visualização intuitiva e oportuna dos dados estratégicos, financeiros e operacionais.

Os dashboards fornecem uma representação gráfica do desempenho dos negócios de toda a organização. Os scorecards fornecem uma representação visual dos KPIs, que são cuidadosamente selecionados para ajudar as empresas a medir e gerenciar o desempenho.

As diversas ferramentas para gerenciamento de desempenho, de uma forma geral, apresentam as seguintes características:

  • Oferecem recursos para visualização dos dados-chave do desempenho em formato gráfico;
  • Mostram os resultados de desempenho rapidamente, utilizando recursos visuais;
  • Utilizam dashboards e scorecards como para análise de primeira ordem e análise avançada;
  • Monitoram zonas vermelhas e definem níveis limiares para indicadores, de forma a disparar os alertas de entregas;
  • Ligam os KPIs individuais às metas da empresa;
  • Oferecem scorecards em cascata e dashboards de toda a organização e através da cadeia de valores;
  • Enviam dashboards e scorecards via e-mail, de forma programada ou por meio de alertas;
  • Atingem todas as pessoas – dos gerentes executivos aos novos funcionários;
  • Incorporam todos os dados empresariais, financeiros e operacionais, de todo processo de negócio em todo o mundo.

As principais empresas de soluções de CPM/BI estão melhorando suas ferramentas de visualização de dados. Em 2010, a empresa QlikTech ofereceu suas ferramentas de forma gratuita ao mercado. Atualizado para Qlik, a empresa oferece produtos como o Qlik View e Qlik Sense.

Ferramentas avançadas de visualização e descoberta de dados continuam a despertar grande interesse em função da sua facilidade de uso, de seu apelo visual e de sua capacidade de acelerar o tempo de trabalho, numa época em que ocorre uma explosão de dados.

quinta-feira, 12 de novembro de 2020

Casos de sucesso com a utilização de data mining

Estes casos foram obtidos de diversas fontes em pesquisas por sites da internet.

Logotipo do Walmart.

Ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de data mining do Walmart apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. Assim, foi identificado que homens casados, entre 25 e 30 anos, compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa. A rede americana Walmart otimizou as suas gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas. Resultado: o consumo cresceu 30%. Este se tornou um caso clássico amplamente utilizado como exemplo de sucesso do uso de data mining, passando a ser denominado “princípio de fraldas e cerveja”. A Walmart possui um dos maiores DWs do mundo.

Logotipo do Bank of America.
Fonte: <cancer.org>.

É possível detectar fraudes, cortar gastos ou aumentar a receita da empresa com a ajuda da mineração de dados. O Bank of America usou essas técnicas para selecionar, entre seus 36 milhões de clientes, aqueles com menor risco de dar calote em um empréstimo. A partir desses relatórios, enviou cartas oferecendo linhas de crédito para os correntistas cujos filhos tivessem entre 18 e 21 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o próprio carro, uma casa ou arcar com os gastos da faculdade. Resultado: em três anos, o banco lucrou US$ 30 milhões com a carteira de empréstimos.

Logotipo do Itaú.

Passou a utilizar ferramentas de data miningem seu DW para gerenciar as movimentações de três milhões de clientes. O banco costumava enviar mais de um milhão de malas diretas aos correntistas, com uma taxa resposta de 2%. Após a implementação das ferramentas conseguiu uma redução de 1/5 das despesas postais e aumentou a taxa de resposta para 30%.

Dobrou lucros usando informações de cartões de “jogadores frequentes”, identificando grupos de jogadores que gastavam pouco mas geravam muito lucro, e criou promoções diferenciadas.

Logotipo da Verizon Wireless.

Empresa americana de Telecom, conseguiu redução de churn (abandono de clientes) de 2% para menos de 1,5%: de 34,6 milhões de usuários, aproximadamente 170 mil foram retidos.

 Text mining

Text mining.
Fonte: Jirsak/ Shutterstock.

De acordo com Rouse (2017), text mining pode ajudar as organizações a extrair informações valiosas para os negócios a partir de textos contidos em documentos, e-mails e postagens em mídias sociais, como Facebook, Twitter, Linkedin etc. Trata-se de fazer a mineração e extração em dados não estruturados usando processamento de linguagem natural, aplicando-se modelos estatísticos e técnicas de aprendizagem por máquinas. Como textos escritos em linguagem natural geralmente apresentam inconsistências e ambiguidades em relação à semântica (significado) e sintaxe (forma escrita), como uso de gírias, termos não técnicos, ironias, sarcasmos etc., o text mining é um processo complexo.

Os aplicativos de análise de texto podem transferir palavras e frases de dados não estruturados para valores numéricos que podem ser ligados a dados estruturados em banco de dados. Estando em bases de dados, podem ser aplicadas técnicas de data mining.

O uso de ferramentas de text mining apoia o processo de inteligência competitiva. Enquanto o data mining obtém conhecimento com os dados de dentro da empresa, o text mining obtém conhecimento a partir de dados obtidos fora da empresa, com o objetivo de conhecer os clientes, concorrentes e clientes dos concorrentes. As fontes de dados podem ser redes sociais, jornais e revistas eletrônicas, e-mails, memorandos etc.

Usando text mining é possível, dentre outros exemplos, extrair frases de um artigo ou livro e criar um resumo de seu conteúdo, analisar currículos e obter os dados de seus sujeitos, como e-mail, telefone, endereço, habilidades profissionais etc. Em aplicações que envolvem a análise semântica (de significado), é possível analisar as palavras no texto e saber se o conteúdo expressa opinião positiva ou negativa. Uma empresa poderia utilizar este recurso para saber se as pessoas estariam emitindo opiniões favoráveis ou desfavoráveis sobre seus produtos ou serviços.

Com a crescente adesão de pessoas nas redes sociais, as empresas preocupam-se em saber a opinião dos internautas e, para isso, utilizam ferramentas de web mining, que extraem informações de páginas web.

Curiosidade     

As maiores bases de dados do mundo!

  1. World Data Centre for Climate (WDCC) operado pelo Max Planck Institute for Meteorology and German Climate Computing Centre: 6 Petabytes.
  2. The National Energy Research Scientific Computing Center (NERSC): 2.8 Petabytes
  3. AT&T: entrega serviços móveis avançados, TV de última geração, internet de alta velocidade e soluções inteligentes para pessoas e negócios; banco de dados com mais de 1,9 trilhões de colunas.
  4. Google: contabiliza e armazena cada pesquisa simples em seu banco de dados, que gira em torno de 91 milhões de pesquisas por dia; coleta informações sobre usuários e armazena-as como entradas em seu banco de dados, da ordem de 33 trilhões.
  5. Sprint: banco de dados registra mais de 365 milhões de detalhes de chamadas por dia; possui mais de 2,85 trilhões de colunas; registra cerca de 70 mil chamadas por segundo.
  6. ChoicePoint / LexisNexis: seu banco de dados contém informação de 250 milhões de pessoas dos Estados Unidos, como endereços, telefones, registros criminais, DNA: 250 terabytes
  7. Youtube: cerca de 100 milhões de vídeos são vistos, 60% de todos os vídeos são vistos online; 65 mil vídeos são postados por dia; são mais de 45 terabytes de dados.
  8. Amazon: 59 milhões de clientes ativos, uma coleção de 250 mil textos completos de livros online e mais de 42 terabytes de dados.
  9. Central Intelligence Agency (CIA): coleta informação pública e privada, e parte dela é disponível para consulta pública através do Electronic Reading Room and The World Fact Book; cerca de 100 FOIA (Freedom of Information Act items) são adicionados a cada mês, com dados estatísticos de mais de 250 países.
  10. Library of Congress: biblioteca do congresso dos Estados Unidos com 130 milhões de itens de livros e jornais novos e antigos; mais de 20 terabytes de dados.

Fonte: JOBANDWORK.ASIA (2017)

1 byte = 8 bits

1 kilobyte (KB) = 1024 bytes

1 megabyte (MB) = 1024 kilobytes

1 gigabyte (GB) = 1024 megabytes

1 terabyte (TB) = 1024 gigabytes

1 petabyte (PB) = 1024 terabytes

1 exabyte (EB) = 1024 petabytes

1 zettabyte (ZB) = 1024 exabytes

1 yottabyte (YB) = 1024 zettabytes.

quarta-feira, 11 de novembro de 2020

Big data e Data mining

Nesses grandes volumes de dados, ou seja, no big data, existem informações úteis que estão invisíveis aos tomadores de decisões. Muitas delas poderiam ser aproveitadas para prever um comportamento futuro, ou seja, poderiam ir além do armazenamento explícito de dados.

Para ajudar as organizações empresariais a descobrir informações úteis das suas bases de dados são utilizadas ferramentas de data mining. No cenário atual, extremamente rápido e competitivo, as grandes organizações precisam contar com um sistema de gestão que incorpore ferramentas de mineração de dados.

De acordo com Gassenferth et al. (2015, p. 111), data mining, ou mineração de dados,

é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.

Data mining ou mineração de dados consiste em um processo analítico projetado para explorar grandes quantidades de dados na busca de padrões consistentes e/ou de relacionamentos sistemáticos entre variáveis, transformando-os em novas informações. Os dados, armazenados em grande volume, geralmente encontram-se em bancos de dados e/ou em data warehouses.

(Fonte: LAUDON; LAUDON, 2011, p. 159)

Business intelligence.
Fonte: a-image/ Shutterstock.

Milhares de informações são processadas diariamente nas organizações, provenientes de seus diversos departamentos, incluindo dados de estoques, pedidos, compras, orçamentos, operações contábeis e financeiras, relatórios jurídicos, venda, pós-venda, relacionamento com cliente, dentre tantos outros. Este grande volume é armazenado em bancos de dados convencionais e/ou no DW.

Face a este volume de dados, ferramentas de data mining podem atuar como sistemas de gerenciamento de informação, revelando estruturas de conhecimento que conseguem guiar decisões em situações que se tem certeza limitada sobre os possíveis acontecimentos.

Data mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD – descoberta de conhecimento em bancos de dados). De acordo com Kimball e Caserta (2004), KDD consiste, fundamentalmente, nas etapas:

  1. estruturação do banco de dados ou repositório de dados;
  2. seleção, preparação e pré-processamento dos dados;
  3. transformação, adequação e redução da dimensionalidade dos dados;
  4. processo de data mining;
  5. análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, por meio do processo de data mining.

O processo de data mining utiliza técnicas estatísticas, matemáticas, de inteligência artificial e de aprendizagem automática que procuram relações de similaridade ou discordância entre dados.

Uma empresa que utiliza ferramentas de mineração de dados é capaz, dentre outras possibilidades, de:

  • criar parâmetros para entender o comportamento do consumidor;
  • identificar afinidades entre as escolhas de produtos e serviços;
  • prever hábitos de compras;
  • analisar comportamentos habituais para detectar fraudes.

Um exemplo de mineração de dados pode ser visto na figura abaixo. Pela análise dos dados, pode-se concluir que “Produtos azuis geram alto lucro” e “Estado do Arizona (AZ) produz baixo lucro”.

Exemplo de mineração de dados.
Fonte: baseado em ALBUQUERQUE, 2017.

Para termos uma ideia mais precisa da aplicabilidade da mineração de dados, podemos considerar alguns cenários, como:

  • Lanchonetes fast­food, ou franquias semelhantes, apenas com 50 itens de venda, podem gerar 500 compras/dia.
  • Lojas de departamentos ou supermercados com mais de 1.000 itens, podem gerar 500 compras/dia.
  • Lojas de departamentos ou supermercados com mais de 10 mil itens, podem gerar 2.000 compras/dia.
  • Na análise de um carrinho de compras de um supermercado, pode haver 360 mil registros/mês para listar o que foi comprado por um determinado consumidor em um determinado dia.

A mineração de dados fornece maneiras de responder perguntas do tipo:

  • Quem comprou carne importada?
  • Quem comprou carne e cervejas importados e na mesma compra?
  • Qual é o gasto médio de compras para pessoas diferentes?
  • Qual loja da cadeia vendeu mais cervejas importadas?
  • Em que mês é vendido mais cervejas importadas?
  • Quais lojas vendem mais no dia dos pais?
  • Qual item é comprado com maior frequência juntamente com carne importada?
  • Quais itens são comprados juntos com maior frequência?
  • Quais itens são comprados juntos com maior frequência e em que período do ano?

Outras perguntas possíveis sobre grandes conjuntos de dados, que podem ser respondidas pelas técnicas de mineração de dados, são:

  • Como identificar hábitos ou perfis de consumo?
  • Como prever que usuários vão mudar para outro provedor de serviços?
  • Como identificar coisas semelhantes?
  • Como identificar o que é diferente de um padrão esperado (ou não)?
  • Por que o volume de compras diminuiu?

O interesse pela mineração de dados vem aumentando, pois as empresas estão coletando e armazenando, cada vez mais, maiores quantidades de dados como consequência da queda dos preços de meios de armazenamento, do armazenamento em nuvem (cloud storage) e dos computadores, e do aumento da capacidade de todos eles. A disseminação da utilização de DWs tende a aumentar ainda mais a quantidade de informações disponíveis. As tradicionais planilhas Excel não conseguem armazenar nem permitir análises de grandes volumes de dados; o máximo que conseguem é gerar relatórios informativos sobre os dados. Já as ferramentas de data mining vão muito além, conseguindo realizar operações importantes como análise preditiva e análise futura para indicar tendências.

De acordo com Goldschmidt, Bezerra e Passos (2015, p. 16), os dois objetivos de maior destaque da mineração de dados são a predição e a descrição. Os padrões preditivos são encontrados para resolver o problema de predizer o valor futuro de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos; ou seja, a partir de um histórico de casos anteriores, prever os valores dos atributos em outras situações. Os padrões descritivos, ou informativos, têm por objetivo encontrar padrões interessantes, de forma interpretável pelo usuário, que descrevam os dados, ou seja, encontrar um modelo que descreva o conhecimento existente em um conjunto de dados.

Esses padrões e regras são utilizados para direcionar a tomada de decisões e prever as consequências das decisões. As ferramentas de data mining podem ser combinadas com planilhas e outras ferramentas similares de uso mais comum, facilitando a análise dos dados. A associação com ferramentas sofisticadas de visualização de dados pode contribuir bastante na descoberta de associações novas de dados, aumentando a competitividade da empresa.

terça-feira, 10 de novembro de 2020

Ferramentas para construção e consultas a um DW – parte II

 Big data e data mining

Big data.
Fonte: Wright Studio/ Shutterstock.

Conforme já dissemos, no mercado corporativo atual, as organizações têm se mostrado muito eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou de pesquisas do mercado, mas a maior parte delas ainda não consegue usar essa gigantesca montanha de dados para transformá-los em conhecimentos que possam ser utilizados em seus negócios de forma adequada.

Big data é um termo que se refere à enorme quantidade de dados não estruturados que é produzido no mundo. De acordo com Proffitt (2017), o Grupo Gartner informou que o mundo produz mais de 15 petabytes de dados estruturados e não estruturados por dia, incluindo filmes de vídeos, textos, áudios, imagens, informações produzidas pelas redes sociais etc. O Grupo ainda afirma que, em 2018, 50% das violações de ética nos negócios ocorre por meio do uso inadequado do big data.

A analista Cas Proffitt informa que a tendência é de “everything-as-a-service”, e as maiores empresas do mundo continuarão trabalhando com volumes crescentes de dados, como a empresa CenturyLink, que anunciou o BDaaS como opção para empresas que querem aproveitar o poder do big data, mas não possuem recursos e expertise próprios disponíveis. Ou seja, podemos continuar esperando inovações vindas de tecnologias para trabalhar com big data.

Os quatro Vs do big data.
Fonte: T. L. Furrer/ Shutterstock.

De acordo com a empresa SAS (2017), Doug Laney, um analista de dados, relacionou a definição de big data com três Vs:

  • Volume (volume): organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina.
  • Velocity (velocidade): os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteligentes estão impulsionado a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real.
  • Variety (variedade): os dados são gerados em todos os tipos de formatos, desde dados estruturados, como dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, como e-mail, vídeo, áudio, dados de cotações da bolsa e transações financeiras.

A estes três Vs foi acrescentado um quarto V: Veracity ou veracidade, conforme ilustra a figura abaixo.

Ainda de acordo com a SAS (2017), a importância do big data não está ligada à quantidade de dados que uma empresa possui, mas o que a empresa pode fazer com eles. É necessário que os dados sejam analisados de forma a encontrar respostas ou realizar atividades que levem a empresa a:

  • reduzir custos e reduzir tempo;
  • alavancar a criação de novos produtos e/ou ofertas;
  • permitir a tomada de decisão mais inteligente;
  • obter a causa raiz de falhas, problemas e defeitos em tempo quase real;
  • criar políticas de promoção de vendas com base em cupons baseados no gosto e hábitos dos clientes;
  • obter análises de riscos em tempos muito curtos;
  • detectar ações fraudulentas de forma a defender os negócios.

Aconteceu     

Uso do big data na análise 360º do mercado

“Hoje, praticamente tudo o que fazemos ou o que acontece ao nosso redor pode ser analisado por um software big data. Se você está dirigindo o seu carro e de repente uma luz no painel o alerta que o óleo do motor precisa ser trocado, ou quando você assiste a um jornal na TV e a “moça do tempo” diz que na próxima semana vai chover, pode ter certeza que essas conclusões só foram feitas graças ao cruzamento de uma porção de informações através de um software big data.

Na internet isso é diferente e tudo o que fazemos deixa um rastro digital. Práticas comuns do dia a dia, como enviar e-mails ou mensagens de texto, pesquisar ou comprar produtos e serviços pela internet, comentar ou avaliar um post de uma empresa no Facebook, são alguns dos poucos exemplos perto de uma infinidade de ações que podem gerar informações a serem analisadas por um Big Data System.

Essa gigantesca quantidade de informações é, na maioria das vezes, desorganizada e desestruturada. Com o auxílio da aplicação da matemática e dos insights obtidos é possível, por exemplo, melhorar o atendimento ao consumidor, identificar tendências de mercado, aumentar as vendas, prever problemas, mensurar riscos e diminuir gastos.

Grandes empresas como Amazon e Walmart foram pioneiras no uso de sistemas de análise de big data. Depois disso, o uso destes softwares tomaram uma proporção tão grande e variada que há quem diga que o atual presidente dos Estados Unidos, Barack Obama, se reelegeu para o seu segundo mandato devido à inteligência da análise de dados. E que esta mesma tecnologia foi uma das grandes aliadas para a seleção alemã ter vencido a copa do mundo de 2014.”

(Fonte: <visie.com.br>)

segunda-feira, 9 de novembro de 2020

Navegação Multidimensional

A análise multidimensional representa os dados como dimensões ao invés de representá-los por tabelas.

Combinando as dimensões, o usuário tem uma visão dos dados de um DW que permite a ele efetuar operações básicas, como slice and dice, que é uma forma de mudança das dimensões a serem visualizadas, drill down e roll up, que é navegação entre os níveis de detalhamento dos dados do DW. As operações OLAP podem ser utilizadas combinadas, ou seja, realizar um slice e um dice ao mesmo tempo com operações de drill down ou roll up.

Nas ferramentas de navegação OLAP é possível navegar entre diferentes granularidades (detalhamento) de um cubo de dados. O drill movimenta a visão dos dados ao longo das hierarquias de uma dimensão, permitindo ao usuário navegar entre o mais alto nível até a informação detalhada, na sua menor granularidade. Essas operações, como já dissemos, são conhecidas como drill down e roll up.

O drill down ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo o nível de granularidade.

Roll up, ao contrário do drill down, ocorre quando o usuário aumenta o nível de granularidade, diminuindo o nível de detalhe da informação.

Observe a figura.

Exemplo de drill down e roll up.
Fonte: baseado em MACHADO, 2012, p. 86-87.

Na 1ª tabela, na figura 35, temos a visualização dos valores de produção globais (independente do produto) na região Sul nos estados do Rio Grande do Sul e Santa Catarina, distribuídos por trimestre, de 2016.

Na 2ª tabela temos os mesmos dados, mas somente do 1º trimestre.

A operação de sair da 2ª tabela para a 1ª é uma roll up: estamos saindo de um nível mais baixo de detalhe (um trimestre específico de um ano) para um nível mais alto (todos os trimestres de um ano). Esse roll up está sendo realizado sobre a dimensão tempo.

Da 2ª para a 3ª tabela, no exemplo da figura 35, temos uma operação de drill down que acontece sobre a dimensão localização geográfica. A 2ª tabela apresenta a produção por região geográfica (Sul) e pelos estados dessa região (RS e SC). Ao realizar um drill down, estamos abrindo o nível de detalhe da dimensão localização geográfica, visualizando somente um estado (RS) da região (Sul), e abrindo os valores para as cidades desse estado (Canoas e Porto Alegre).

Slice and dice, resumidamente, significa a redução do escopo das informações analisadas, permitindo ao usuário explorar os mesmos dados com uma visão ou dimensão diferente.

Essa característica das ferramentas OLAP é de grande importância, pois com ela podemos analisar as informações de diferentes prismas limitados somente pela nossa imaginação. Slice and dice é o mesmo que filtrar. Utilizando essas operações, conseguimos ver a informação sobre ângulos que inexistiam, sem a implementação de um DW e a utilização de uma ferramenta OLAP.

Slice é a operação que corta o cubo, mas mantém a mesma perspectiva de visualização dos dados.

Dice é a mudança de perspectiva da visão. É a extração de um “subcubo” ou a interseção de vários slices. É como se girássemos o cubo em nossas mãos.

Observe a figura, que mostra uma tabela que apresenta as vendas de celulares e tablets e o cubo sendo “fatiado”.

Exemplo de slice and dice
Fonte: baseado em MACHADO 2012, p. 89-90.

Neste exemplo da figura, o cubo foi fatiado, ou um slice realizado, representado pela operação de visualizarmos somente um tipo de produto, no caso, os celulares.

De acordo com a Microsoft (2015), existe uma variedade de ferramentas com diferentes abordagens para OLAP. Algumas delas podem ser:

  • ROLAP (OLAP relacional): ferramentas OLAP que acessam bancos de dados relacionais;
  • MOLAP (OLAP multidimensional): ferramentas OLAP que acessam bancos de dados multidimensionais;
  • HOLAP (OLAP híbrida): ferramentas OLAP que permitem acesso tanto aos bancos de dados relacionais como aos multidimensionais;
  • DOLAP (OLAP desktop): ferramentas OLAP voltadas para computadores pessoais, acessando bancos de dados individuais.

As ferramentas OLAP permitem a exploração de dados do DW e são utilizadas quando se deseja investigar os dados, de forma interativa, para realização de análises. Permitem o cruzamento de informações e emitem relatórios detalhados e resumidos, de maneira rápida. Como os dados consultados já estão no DW, dispensam consultas aos bancos de dados relacionais.

domingo, 8 de novembro de 2020

OLAP - On Line Analytical Processing

O DW, por si só, não fornece as informações que os níveis gerenciais necessitam. As ferramentas OLAP (On Line Analytical Processing ou processamento analítico online) têm como função “navegar” nos dados do DW para realizar pesquisas e apresentar as informações de forma adequada. Assim, OLAP reúne ferramentas que permitem a exploração e análise dos dadosno DW.

OLAP
Fonte: one photo/ Shutterstock.

OLAP é o conjunto de ferramentas que possibilita efetuar a exploração dos dados de um DW através da análise multidimensional, em que os dados são representados como dimensões ao invés de tabelas. Os resultados deste tipo de análise, por meio do comportamento de determinadas variáveis ao longo do tempo, é permitir a descoberta de tendências e cenários, e com isso transformar os dados de um DW em informação estratégica.

(Fonte: MACHADO, 2012, p. 85)

Algumas ferramentas permitem criar modelos de consultas (views ou visões) usando uma interface amigável, possibilitando a análise em diversos níveis de agregação. Essa análise multidimensional implica na utilização de operações como comparação de valores entre períodos, percentual de variação, médias, somas ou valores cumulativos, além de funções estatísticas e financeiras.

As ferramentas que manipulam dados por meio de interfaces amigáveis e de forma ágil facilitam o uso do DW. Desta forma, os relatórios são mais utilizados em tela, não precisando ser impressos. Por meio destas interfaces, o usuário consegue navegar nas informações de diferentes maneiras e, ao final da consulta, pode imprimir os dados de seu interesse ou salvar aquela visão para continuar a consulta futuramente.

As ferramentas OLAP geralmente apresentam as características:

  • Permitem uma visão multidimensional dos dados;
  • Realizam cálculos complexos;
  • Criam agregações e consolidações;
  • Fazem previsões e análises de tendência;
  • Constroem cenários a partir de suposições;
  • Fazem cálculos e manipulam dados através de diferentes dimensões.

Modelagem e visão multidimensional dos dados

Kimball e Caserta (2004) definem modelagem multidimensional como uma técnica de concepção e visualização de um modelo de dados com o objetivo de reestruturar os dados e possibilitar que sejam apresentados em visões que permitam a análise dos valores a eles associados. Um modelo multidimensional é formado por três elementos básicos: fatos, dimensões e medidas. As dimensões e fatos são representados em tabelas e pode haver diversas dimensões e diferentes tabelas de fatos. Estes elementos são explicados a seguir.

Fatos

Machado (2012, p. 79) define fato como

uma coleção de itens de dados, composta de dados de medidas e de contexto. Cada fato representa um item, uma transação ou um evento de negócio. É utilizado para analisar o processo de negócio de uma empresa e tudo aquilo que reflete a evolução dos negócios do dia-a-dia de uma organização. A característica básica de um fato é que ele é representado por valores numéricos e implementado em tabelas denominadas tabelas fato (fact tables).

Dimensões

Para Machado (2012, p. 80) dimensões são

os elementos que participam de um fato (assunto de negócios). São as possíveis formas de visualizar os dados, como: “por mês”, “por país”, “por produto”, “por região” etc. As dimensões determinam o contexto de um assunto de negócios, por exemplo, as vendas de produtos. As dimensões que participam desse fato vendas de produtos comumente são tempo, localização, clientes, vendedores, cenários (realizados, projetados). Dimensões normalmente não possuem atributos numéricos, pois são somente descritivas e classificatórias dos elementos que participam de um fato.

Medidas

De acordo com Machado (2012, p. 81) medidas são

os atributos numéricos que representam um fato; medem a performance de um objetivo de negócio representado por um indicador relativo às dimensões que participam desse fato. Os números atuais são denominados de variáveis. Medidas podem ser, por exemplo, o valor em reais das vendas, o número de unidades de produtos vendidas, a quantidade em estoque, o custo de venda, entre outras. Uma medida é determinada pela combinação das dimensões que participam de um fato, e estão localizadas como atributos de um fato.

Visão multidimensional do fato “vendas”.
Fonte: baseado em MACHADO, 2012, p. 82.

O caminho mais utilizado para visualizar um modelo dimensional é o desenho de um cubo. Entretanto, usualmente um modelo dimensional consiste em mais de três dimensões, o que é definido como um hipercubo. Visualizar graficamente um hipercubo é muito difícil; desta forma, utiliza-se a referência a um cubo para qualquer modelo multidimensional. A figura abaixo traz a representação de um fato “vendas” por meio de um cubo.

No exemplo da figura acima, Machado (2012, p. 82) define: medida é o volume de vendas, que é determinado pela combinação de três dimensões: localização, produto e tempo. As dimensões localização e produto possuem dois níveis de hierarquia. Por exemplo, a dimensão localização tem o nível estado e o nível cidade, na qual temos os membros SP e Rio. A dimensão temponesta figura poderia representar os anos de venda, tais como 2016, 2017 e 2018. Cada subcubo possui o valor da medida de quantidadedevenda. Por exemplo, em um período específico de tempo (não expresso na figura), na cidade de Campinas, SP, foram vendidos 110 mil tablets do modelo 20A1.

sábado, 7 de novembro de 2020

Custos de implantação de DMs e DW

Por serem menores, os DMs possuem uma implantação mais rápida do que o DW, porém utilizam a mesma abordagem. De acordo com Sowek (2009):

o maior atrativo para implementar um Data Mart é seu custo e prazo. Segundo estimativas, enquanto um DM custa em torno de R$ 100 mil a R$1 milhão e leva cerca de 120 dias para estar pronto, um DW integral começa em torno dos R$ 2 milhões e leva cerca de um ano para estar consolidado.

Mas não existe um projeto padrão que possa ser implementado em todas as empresas. Assim, estes valores citados por Sowek e mostrados na quadro, são apenas estimativas, pois o investimento para o projeto do DW depende de cada caso.

Comparação entre implantação de DM e de DW.
  Data mart Data warehouse
Tamanho De 50 GB a 250 GB Vários terabytes ou mais
Propósito Área ou assunto específico
Visão departamental
Repositório da organização
Visão corporativa
Como iniciar Bottom-up Top-down
Controle Departamental Sistema de Informação
Tempo Implementação 3 a 6 meses 1 até 2 anos
Custo Implementação De R$ 100.000 a R$ 1.000.000 Milhões de reais
Fonte: SOWEK, 2009.
 
TCO – Total Cost of Ownership.
Fonte: Biz Idea Production/Shutterstock.

De acordo com Bedi (2015), a melhor forma de analisar dados vindos de múltiplas fontes é usando um DW. Mas, independentemente do uso de data warehousing, a tecnologia tem um custo alto (TCO – Total Cost of Ownership), incluindo custos diretos e indiretos, como software, hardware, recursos humanos etc. Todos estes custos devem ser considerados antes que uma empresa inicie a implantação do DW e/ou DMs.

Ainda de acordo com o autor, os custos são assim definidos:

  • Software: O software necessário para executar um DW não vem com o hardware, por isso licenças têm que ser adquiridas para atender a demanda da empresa. Mesmo começando em poucos milhares de dólares, esse custo pode subir muito. O pleno funcionamento do DW inicia-se depois da carga de terabytes de dados e o volume de dados tende a crescer. Os custos também crescem a partir do aumento do número de usuários, aquisição de mais licenças e mais servidores etc.
  • Hardware: A aquisição de hardware poderoso o suficiente para suportar e executar consultas complexas resulta em altos custos. Um DW necessita de servidores para executar software especializado, espaço em data center para os servidores, hardware para armazenamento de big data, rede de computadores de alta velocidade para acesso aos dados do DW, hardware para a redundância de dados etc. Estes custos tendem a aumentar na medida em que o volume de dados e de consultas aumenta, refletindo no aumento de todos os componentes de hardware que suportam o DW.
  • Pessoas: Mesmo que haja software e hardware adequados, esforços humanos são essenciais para gerir e manter o ambiente de DW. Além disso, o pessoal do departamento de TI e usuários regulares têm que ser capacitados e treinados para usar efetivamente todo o aparato. Isso implica igualmente em custos crescentes.

Em função do exposto, o TCO resultante da soma dos cursos de software, hardware e pessoas para construção de um DW pode ser muito grande. Bedi (2015), entretanto, pondera que algumas tecnologias podem contribuir para a redução de custos, como o uso de Data Warehouse as a Service (DWaaS).

DWaaS pode significar a utilização de software sob medida, pagando-se pelo uso de licenças, no modelo pay-as-you-go. Em relação ao hardware, o mesmo pode ser contratado sob demanda, de forma que passe do modelo de capital expenditure (capex) para o modelo operational expenditure (opex) baseado em taxas de uso por hora ou por mês. Desta forma, o hardware pode ser aumentado de forma elástica, sob demanda. Negócios baseados em DWaaS especializados em DW podem reduzir os custos de US$ 20 mil a US$ 40 mil dólares por terabyte para US$ 1.000 a US$ 5.000 dólares por terabyte. Com a contratação de software e hardware, os custos com pessoal também são reduzidos.

Saiba mais     

Data warehouse ou Data mart?

Ralph Kimball é um defensor da teoria de que o DW deve ser dividido para depois ser conquistado, ou seja, que o mais viável para as empresas é desenvolver vários Data Marts para posteriormente integrá-los e, assim, chegar-se ao DW. Na sua avaliação, as empresas devem construir Data Marts orientados por assuntos. Ao final, teriam uma série de pontos de conexão entre eles, que seriam as tabelas Fato e Dimensão em conformidade. Dessa forma, informações entre os diferentes Data Marts poderiam ser geradas de maneira íntegra e segura. Kimball batizou esse conceito de Data Warehouse Bus Architeture.

Bill Inmon rebate essa teoria e propõe justamente o contrário. Na sua avaliação deve-se construir primeiro um Data Warehouse, modelando-se toda a empresa para se chegar a um único modelo corporativo, partindo-se posteriormente para os Data Marts construídos por assuntos ou departamentais. Inmon defende a ideia de que o ponto de partida seriam os CIF – Corporate Information Factory – uma infraestrutura ideal para ambientar os dados da empresa. O CIF seria alimentado pelos sistemas transacionais. A construção de um ODS- Operational Data Store seria facultativa, mas essa iniciativa ajudaria a reduzir a complexidade da construção de um DW, uma vez que todo o esforço de integração entre os sistemas transacionais da empresa seria depositado nele.”

(Fonte: <social.technet.microsoft.com>)