Nesses grandes volumes de dados, ou seja, no big data, existem
informações úteis que estão invisíveis aos tomadores de decisões. Muitas
delas poderiam ser aproveitadas para prever um comportamento futuro, ou
seja, poderiam ir além do armazenamento explícito de dados.
Para ajudar as organizações empresariais a descobrir informações
úteis das suas bases de dados são utilizadas ferramentas de data mining.
No cenário atual, extremamente rápido e competitivo, as grandes
organizações precisam contar com um sistema de gestão que incorpore
ferramentas de mineração de dados.
De acordo com Gassenferth et al. (2015, p. 111), data mining, ou mineração de dados,
é o processo de extração de conhecimento de grandes bases
de dados, convencionais ou não. Seu objetivo é encontrar,
automaticamente, padrões, anomalias e regras com o propósito de
transformar dados, aparentemente ocultos, em informações úteis para a
tomada de decisão e/ou avaliação de resultados.
Data mining ou mineração de dados
consiste em um processo analítico projetado para explorar grandes
quantidades de dados na busca de padrões consistentes e/ou de
relacionamentos sistemáticos entre variáveis, transformando-os em novas
informações. Os dados, armazenados em grande volume, geralmente
encontram-se em bancos de dados e/ou em data warehouses.
(Fonte: LAUDON; LAUDON, 2011, p. 159)
Business intelligence.
Fonte: a-image/ Shutterstock.
Milhares de informações são processadas diariamente nas organizações,
provenientes de seus diversos departamentos, incluindo dados de
estoques, pedidos, compras, orçamentos, operações contábeis e
financeiras, relatórios jurídicos, venda, pós-venda, relacionamento com cliente, dentre tantos outros. Este grande volume é armazenado em bancos de dados convencionais e/ou no DW.
Face a este volume de dados, ferramentas de data mining podem atuar
como sistemas de gerenciamento de informação, revelando estruturas de
conhecimento que conseguem guiar decisões em situações que se tem
certeza limitada sobre os possíveis acontecimentos.
Data mining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database
(KDD – descoberta de conhecimento em bancos de dados). De acordo com
Kimball e Caserta (2004), KDD consiste, fundamentalmente, nas etapas:
- estruturação do banco de dados ou repositório de dados;
- seleção, preparação e pré-processamento dos dados;
- transformação, adequação e redução da dimensionalidade dos dados;
- processo de data mining;
- análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, por meio do processo de data mining.
O processo de data mining utiliza técnicas estatísticas, matemáticas,
de inteligência artificial e de aprendizagem automática que procuram
relações de similaridade ou discordância entre dados.
Uma empresa que utiliza ferramentas de mineração de dados é capaz, dentre outras possibilidades, de:
- criar parâmetros para entender o comportamento do consumidor;
- identificar afinidades entre as escolhas de produtos e serviços;
- prever hábitos de compras;
- analisar comportamentos habituais para detectar fraudes.
Um exemplo de mineração de dados pode ser visto na figura abaixo.
Pela análise dos dados, pode-se concluir que “Produtos azuis geram alto
lucro” e “Estado do Arizona (AZ) produz baixo lucro”.
Exemplo de mineração de dados.
Fonte: baseado em ALBUQUERQUE, 2017.
Para termos uma ideia mais precisa da aplicabilidade da mineração de dados, podemos considerar alguns cenários, como:
- Lanchonetes fastfood, ou franquias semelhantes, apenas com 50 itens de venda, podem gerar 500 compras/dia.
- Lojas de departamentos ou supermercados com mais de 1.000 itens, podem gerar 500 compras/dia.
- Lojas de departamentos ou supermercados com mais de 10 mil itens, podem gerar 2.000 compras/dia.
- Na análise de um carrinho de compras de um supermercado, pode
haver 360 mil registros/mês para listar o que foi comprado por um
determinado consumidor em um determinado dia.
A mineração de dados fornece maneiras de responder perguntas do tipo:
- Quem comprou carne importada?
- Quem comprou carne e cervejas importados e na mesma compra?
- Qual é o gasto médio de compras para pessoas diferentes?
- Qual loja da cadeia vendeu mais cervejas importadas?
- Em que mês é vendido mais cervejas importadas?
- Quais lojas vendem mais no dia dos pais?
- Qual item é comprado com maior frequência juntamente com carne importada?
- Quais itens são comprados juntos com maior frequência?
- Quais itens são comprados juntos com maior frequência e em que período do ano?
Outras perguntas possíveis sobre grandes conjuntos de dados, que
podem ser respondidas pelas técnicas de mineração de dados, são:
- Como identificar hábitos ou perfis de consumo?
- Como prever que usuários vão mudar para outro provedor de serviços?
- Como identificar coisas semelhantes?
- Como identificar o que é diferente de um padrão esperado (ou não)?
- Por que o volume de compras diminuiu?
O interesse pela mineração de dados vem aumentando, pois as empresas
estão coletando e armazenando, cada vez mais, maiores quantidades de
dados como consequência da queda dos preços de meios de armazenamento,
do armazenamento em nuvem (cloud storage) e dos computadores, e
do aumento da capacidade de todos eles. A disseminação da utilização de
DWs tende a aumentar ainda mais a quantidade de informações
disponíveis. As tradicionais planilhas Excel não conseguem armazenar nem
permitir análises de grandes volumes de dados; o máximo que conseguem é
gerar relatórios informativos sobre os dados. Já as ferramentas de data
mining vão muito além, conseguindo realizar operações importantes como
análise preditiva e análise futura para indicar tendências.
De acordo com Goldschmidt, Bezerra e Passos (2015, p. 16), os dois objetivos de maior destaque da mineração de dados são a predição e a descrição.
Os padrões preditivos são encontrados para resolver o problema de
predizer o valor futuro de um ou mais atributos do banco de dados a
partir do valor conhecido dos demais atributos; ou seja, a partir de um
histórico de casos anteriores, prever os valores dos atributos em outras
situações. Os padrões descritivos, ou informativos, têm por objetivo
encontrar padrões interessantes, de forma interpretável pelo usuário,
que descrevam os dados, ou seja, encontrar um modelo que descreva o
conhecimento existente em um conjunto de dados.
Esses padrões e regras são utilizados para direcionar a tomada de
decisões e prever as consequências das decisões. As ferramentas de data
mining podem ser combinadas com planilhas e outras ferramentas similares
de uso mais comum, facilitando a análise dos dados. A associação com
ferramentas sofisticadas de visualização de dados pode contribuir
bastante na descoberta de associações novas de dados, aumentando a
competitividade da empresa.