quarta-feira, 11 de novembro de 2020

Big data e Data mining

Nesses grandes volumes de dados, ou seja, no big data, existem informações úteis que estão invisíveis aos tomadores de decisões. Muitas delas poderiam ser aproveitadas para prever um comportamento futuro, ou seja, poderiam ir além do armazenamento explícito de dados.

Para ajudar as organizações empresariais a descobrir informações úteis das suas bases de dados são utilizadas ferramentas de data mining. No cenário atual, extremamente rápido e competitivo, as grandes organizações precisam contar com um sistema de gestão que incorpore ferramentas de mineração de dados.

De acordo com Gassenferth et al. (2015, p. 111), data mining, ou mineração de dados,

é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados.

Data mining ou mineração de dados consiste em um processo analítico projetado para explorar grandes quantidades de dados na busca de padrões consistentes e/ou de relacionamentos sistemáticos entre variáveis, transformando-os em novas informações. Os dados, armazenados em grande volume, geralmente encontram-se em bancos de dados e/ou em data warehouses.

(Fonte: LAUDON; LAUDON, 2011, p. 159)

Business intelligence.
Fonte: a-image/ Shutterstock.

Milhares de informações são processadas diariamente nas organizações, provenientes de seus diversos departamentos, incluindo dados de estoques, pedidos, compras, orçamentos, operações contábeis e financeiras, relatórios jurídicos, venda, pós-venda, relacionamento com cliente, dentre tantos outros. Este grande volume é armazenado em bancos de dados convencionais e/ou no DW.

Face a este volume de dados, ferramentas de data mining podem atuar como sistemas de gerenciamento de informação, revelando estruturas de conhecimento que conseguem guiar decisões em situações que se tem certeza limitada sobre os possíveis acontecimentos.

Data mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD – descoberta de conhecimento em bancos de dados). De acordo com Kimball e Caserta (2004), KDD consiste, fundamentalmente, nas etapas:

  1. estruturação do banco de dados ou repositório de dados;
  2. seleção, preparação e pré-processamento dos dados;
  3. transformação, adequação e redução da dimensionalidade dos dados;
  4. processo de data mining;
  5. análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, por meio do processo de data mining.

O processo de data mining utiliza técnicas estatísticas, matemáticas, de inteligência artificial e de aprendizagem automática que procuram relações de similaridade ou discordância entre dados.

Uma empresa que utiliza ferramentas de mineração de dados é capaz, dentre outras possibilidades, de:

  • criar parâmetros para entender o comportamento do consumidor;
  • identificar afinidades entre as escolhas de produtos e serviços;
  • prever hábitos de compras;
  • analisar comportamentos habituais para detectar fraudes.

Um exemplo de mineração de dados pode ser visto na figura abaixo. Pela análise dos dados, pode-se concluir que “Produtos azuis geram alto lucro” e “Estado do Arizona (AZ) produz baixo lucro”.

Exemplo de mineração de dados.
Fonte: baseado em ALBUQUERQUE, 2017.

Para termos uma ideia mais precisa da aplicabilidade da mineração de dados, podemos considerar alguns cenários, como:

  • Lanchonetes fast­food, ou franquias semelhantes, apenas com 50 itens de venda, podem gerar 500 compras/dia.
  • Lojas de departamentos ou supermercados com mais de 1.000 itens, podem gerar 500 compras/dia.
  • Lojas de departamentos ou supermercados com mais de 10 mil itens, podem gerar 2.000 compras/dia.
  • Na análise de um carrinho de compras de um supermercado, pode haver 360 mil registros/mês para listar o que foi comprado por um determinado consumidor em um determinado dia.

A mineração de dados fornece maneiras de responder perguntas do tipo:

  • Quem comprou carne importada?
  • Quem comprou carne e cervejas importados e na mesma compra?
  • Qual é o gasto médio de compras para pessoas diferentes?
  • Qual loja da cadeia vendeu mais cervejas importadas?
  • Em que mês é vendido mais cervejas importadas?
  • Quais lojas vendem mais no dia dos pais?
  • Qual item é comprado com maior frequência juntamente com carne importada?
  • Quais itens são comprados juntos com maior frequência?
  • Quais itens são comprados juntos com maior frequência e em que período do ano?

Outras perguntas possíveis sobre grandes conjuntos de dados, que podem ser respondidas pelas técnicas de mineração de dados, são:

  • Como identificar hábitos ou perfis de consumo?
  • Como prever que usuários vão mudar para outro provedor de serviços?
  • Como identificar coisas semelhantes?
  • Como identificar o que é diferente de um padrão esperado (ou não)?
  • Por que o volume de compras diminuiu?

O interesse pela mineração de dados vem aumentando, pois as empresas estão coletando e armazenando, cada vez mais, maiores quantidades de dados como consequência da queda dos preços de meios de armazenamento, do armazenamento em nuvem (cloud storage) e dos computadores, e do aumento da capacidade de todos eles. A disseminação da utilização de DWs tende a aumentar ainda mais a quantidade de informações disponíveis. As tradicionais planilhas Excel não conseguem armazenar nem permitir análises de grandes volumes de dados; o máximo que conseguem é gerar relatórios informativos sobre os dados. Já as ferramentas de data mining vão muito além, conseguindo realizar operações importantes como análise preditiva e análise futura para indicar tendências.

De acordo com Goldschmidt, Bezerra e Passos (2015, p. 16), os dois objetivos de maior destaque da mineração de dados são a predição e a descrição. Os padrões preditivos são encontrados para resolver o problema de predizer o valor futuro de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos; ou seja, a partir de um histórico de casos anteriores, prever os valores dos atributos em outras situações. Os padrões descritivos, ou informativos, têm por objetivo encontrar padrões interessantes, de forma interpretável pelo usuário, que descrevam os dados, ou seja, encontrar um modelo que descreva o conhecimento existente em um conjunto de dados.

Esses padrões e regras são utilizados para direcionar a tomada de decisões e prever as consequências das decisões. As ferramentas de data mining podem ser combinadas com planilhas e outras ferramentas similares de uso mais comum, facilitando a análise dos dados. A associação com ferramentas sofisticadas de visualização de dados pode contribuir bastante na descoberta de associações novas de dados, aumentando a competitividade da empresa.

Nenhum comentário:

Postar um comentário