KDD e Data Mining: mais do que apenas conceitos

A mineração de dados é um processo de negócios para explorar grandes quantidades de dados com foco no reconhecimento de regras e padrões

Author Photo
5:00 pm - 02 de abril de 2019

Em meu último artigo, foram conceituadas e discutidas as cinco dimensões que definem o Big Data: volume, velocidade, variedade, variabilidade e complexidade.

Os satélites de observação da NASA geram cerca de um terabyte de dados por dia, o projeto Genoma armazena milhares de bytes para cada uma das bilhões de bases genéticas existentes, instituições financeiras mantêm repositórios com milhões de transações diárias de seus clientes e varejistas controlam o fluxo de milhares de SKU´s instantaneamente. Em 2021, estima-se que o mundo tenha cerca de 40 zettabytes de dados armazenados, ou seja, 40 trilhões de gigabytes.

Entretanto, o armazenamento exacerbado faz com que os players atuantes nas mais diversas áreas se questionem sobre como tratar e analisar o elevado volume e a alta variedade de dados complexos gerados com extrema velocidade e variabilidade e, neste cenário, a Mineração de Dados, ou Data Mining, apresenta fundamental importância e tem por intuito propor tecnologias e tratamentos em situações em que as técnicas tradicionais de exploração e análise de dados não são suficientes ou adequadas.

Seja em marketing, finanças, saúde, logística e distribuição, ou em qualquer outro campo do conhecimento, a abordagem clássica da análise de dados depende fundamentalmente de um ou mais analistas se familiarizarem intimamente com os dados e servirem como uma interface entre os dados e os usuários. Essa forma de sondagem manual de um conjunto de dados é lenta, cara e pode ser altamente subjetiva e, conforme os volumes de dados crescem drasticamente, esse tipo de análise de dados manual está se tornando completamente impraticável em muitos domínios.

Estamos testemunhando o surgimento de uma nova geração de teorias e ferramentas computacionais para ajudar os seres humanos a extrair informações úteis e conhecimento dos volumes cada vez maiores de dados digitais. Essas teorias e ferramentas são o tema do campo de descoberta de conhecimento em bancos de dados (Knowledge Discovery in Databases – KDD). Em um nível abstrato, o campo KDD se preocupa com o desenvolvimento de métodos e técnicas para dar sentido aos dados.

Embora KDD e Data Mining sejam frequentemente entendidos como sinônimos, é importante frisar que, enquanto o KDD compreende todas as etapas para a descoberta do conhecimento a partir da existência de dados, a Mineração de Dados é apenas e tão somente uma das etapas do processo, conforme mostra a figura a seguir:

 

Figura KDD e Data Mining

Figura KDD e Data Mining

Estágios do Processo KDD e Data Mining.

FONTE: Fayyad, Piatetsky-Shapiro e Smyth. From data mining to knowledge discovery in databases.

 

O estágio de mineração de dados do KDD depende muito de técnicas de machine learning, reconhecimento de padrões, otimização, simulação, estatística e análise multivariada para encontrar padrões a partir dos dados. A mineração de dados, portanto, é uma etapa do processo do KDD que consiste na aplicação de algoritmos de análise e descoberta de dados que, sob limitações aceitáveis ​​de eficiência computacional, produzem uma enumeração particular de padrões (ou modelos) sobre os dados.

A mineração de dados pode ser estruturada em seis fases, ou etapas, que compõem o chamado CRISP-DM (Cross-Industry Standard Process of Data Mining) (Larose e Larose, Discovering Knowledge in Data: An Introduction to Data Mining):

1 – Compreensão dos Negócios: o conhecimento sobre o negócio e sobre os inerentes processos mercadológicos é de fundamental importância para que se definam os objetivos da mineração de dados.

2 – Entendimento dos Dados: deve-se descrever os dados de maneira clara e objetiva, sempre explicitando as diversas fontes de obtenção e eventuais comportamentos de interdependência entre variáveis.

3 – Preparação dos Dados: análises preliminares dos dados, com eventuais tratamentos sobre outliers ou missing values, podem ser de grande utilidade para que os métodos de data mining sejam aplicados corretamente. O próprio agrupamento de variáveis ou a categorização por meio de determinado critério pode tornar uma técnica mais adequada do que outra, respeitando os objetivos da análise.

4 – Modelagem: diversas técnicas podem ser aplicadas, como a elaboração de técnicas exploratórias, a estimação de modelos confirmatórios ou a implementação de algoritmos, sempre com base nos objetivos propostos.

5 – Análise dos Resultados: nesta etapa, é de fundamental importância que participem tanto conhecedores do negócio quanto estatísticos e especialistas nos dados, a fim de que sejam elaboradas avaliações sobre os achados na etapa anterior, a partir da análise de testes e validações. Unicórnios são sempre muito bem-vindos!

6 – Divulgação dos Resultados: após a modelagem e a análise dos outputs, é necessário que todos os envolvidos tomem ciência dos resultados encontrados, a fim de que seja possível a implantação de procedimentos de gestão.

 

Embora algumas técnicas de mineração de dados sejam bastante novas, a mineração de dados em si não é uma nova tecnologia, no sentido de que as pessoas analisam dados em computadores desde que os primeiros computadores foram inventados. E séculos antes disso sem os computadores. A mineração de dados tem assumido muitos nomes, como descoberta de conhecimento, inteligência de negócios, modelagem e análise preditiva. Mas o mais importante é que suas principais tarefas estejam relacionadas a:

  • Descrição (ex.: Estatística);
  • Exploração e Visualização de Dados (ex.: Online Analytical Processing – OLAP, Construção de Mapas);
  • Classificação e Predição (ex.: Generalized Linear Models – GLM, Artificial Neural Networks – ANN);
  • Clustering (ex.: Hierarchical Clustering, K-Means Clustering, Self-Organizing Maps – SOM, Árvores de Decisão);
  • Regras de Associação (ex.: Principal Component Analysis – PCA, Análise de Correspondência, Multidimensional Scaling – MDS);
  • Otimização e Simulação (ex.: Programação Linear, Inteira e em Redes, Simulação de Monte Carlo).

 

Muitas são as ferramentas e softwares desenvolvidos para facilitar a implementação de Data Mining por profissionais das mais diversas áreas. Entre os quais, merecem destaque o Python, Stata, IBM SPSS Modeler, RStudio, SAS Enterprise Miner, Pimiento, WEKA, KNIME, Dundas BI, Qlik Sense, Birst, DOMO, Orange, Microsoft SharePoint, Oracle Data Mining (ODM), Sisense, Salesforce Analytics Cloud, RapidMiner, LingPipe, IBM Cognos e IBM DB2 Intelligent Miner.

Em um mundo em que CEO´s de empresas, como a japonesa Rakuten, passam a desejar que todos seus funcionários possuam capacidade de programação computacional, ferramentas de Data Mining são indispensáveis e vieram para ficar. O prazer de se envolver com o tema é inestimável e profundamente recompensador!

 

“A política serve a um momento no presente, mas uma equação é eterna.”

Albert Einstein

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.