O que é mineração de dados? Encontrar padrões e tendências nos dados

Mineração de dados é o processo de peneirar grandes volumes de dados em busca de correlações, padrões e tendências

Author Photo
11:17 am - 04 de outubro de 2021

A mineração de dados, às vezes usada como sinônimo de “knowledge discovery”, equivalente à “descoberta de conhecimento”, é o processo de peneirar grandes volumes de dados em busca de correlações, padrões e tendências. É um subconjunto da ciência de dados que usa técnicas estatísticas e matemáticas junto com machine learning e sistemas de banco de dados.

O Grupo de Interesse Especial em Knowledge Discovery and Data Mining (SIGKDD) da Association for Computing Machinery (ACM), organização global para pesquisadores e profissionais dedicados aos estudos relativos à mineração de dados, o define como a ciência de extrair conhecimento útil de enormes repositórios de dados digitais criados por tecnologias de computação.

A ideia de extrair padrões de dados não é nova, mas o conceito moderno de mineração de dados começou a tomar forma nas décadas de 1980 e 1990 com o uso de gerenciamento de banco de dados e técnicas de machine learning para aumentar os processos manuais.

Mineração de dados vs. data analytics

Os termos data analytics e mineração de dados costumam ser confundidos, mas o data analytics pode ser entendido como um subconjunto da mineração de dados.

A mineração de dados se concentra em limpar dados brutos, encontrar padrões, criar modelos e, em seguida, testar esses modelos, de acordo com o fornecedor de analytics Tableau. O data analytics, por outro lado, é a parte da mineração de dados focada em extrair insights dos dados. Seu objetivo é aplicar análises estatísticas e tecnologias de dados para encontrar tendências e resolver problemas.

O valor comercial da mineração de dados

A mineração de dados é usada em empresas em uma ampla gama de setores para filtrar seus dados para entender as tendências e tomar melhores decisões de negócios. As empresas de mídia e telecomunicações exploram os dados de seus clientes para entender melhor o comportamento do cliente. As seguradoras usam mineração de dados para precificar seus produtos de forma mais eficaz e para criar novos produtos. Os educadores agora estão usando dados de mineração para descobrir padrões no desempenho dos alunos e identificar áreas problemáticas nas quais eles possam precisar de atenção especial. Os varejistas estão usando a mineração de dados para entender melhor seus clientes e criar campanhas altamente direcionadas.

Técnicas de mineração de dados

A mineração de dados usa uma variedade de ferramentas e técnicas. De acordo com a Talend, empresa especialista em integração e integridade de dados, as funções mais comumente usadas incluem:

  • Limpeza e preparação de dados. Antes que os dados possam ser analisados ​​e processados, você precisa identificar e remover erros e também identificar dados ausentes.
  • A mineração de dados, frequentemente, aproveita a IA para tarefas associadas ao planejamento, aprendizado, raciocínio e solução de problemas.
  • Aprendizagem de regras de associação. Também conhecida como análise de cesta de compras, essas ferramentas são usadas para pesquisar relacionamentos entre variáveis ​​em um conjunto de dados. Um varejista pode usá-los para determinar quais produtos são normalmente comprados juntos.
  • O clustering é usado para particionar um conjunto de dados em subclasses significativas para compreender a estrutura dos dados.
  • Data analytics é o processo de extrair insights dos dados.
  • Um data warehouse é uma coleção de dados de negócios. É a base da maior parte da mineração de dados.
  • O machine learning ajuda a automatizar o processo de localização de padrões em seus dados.
  • Essa técnica é usada com um determinado conjunto de dados para prever valores como vendas, temperaturas ou preços de ações.

Processo de mineração de dados

O Cross Industry Standard Process for Data Mining (CRISP-DM) é um modelo de processo de seis etapas publicado em 1999 para padronizar os processos de mineração de dados em todas as indústrias. As seis fases do CRISP-DM são: entendimento de negócios, entendimento de dados, preparação de dados, modelagem, avaliação e implantação.

Compreensão de negócios

Esta fase é sobre a compreensão dos objetivos, requisitos e escopo do projeto. Ela consiste em quatro tarefas: determinar os objetivos do negócio, entendendo o que as partes interessadas do negócio desejam realizar; avaliar a situação para determinar a disponibilidade de recursos, requisitos do projeto, riscos e contingências; determinar como é o sucesso de uma perspectiva técnica; e definir planos detalhados para cada ferramenta de projeto junto com a seleção de tecnologias e ferramentas.

Compreensão de dados

A próxima fase envolve identificar, coletar e analisar os conjuntos de dados necessários para cumprir as metas do projeto. Também inclui quatro tarefas: coletar dados iniciais, descrever os dados, explorar os dados e verificar a qualidade dos dados.

Preparação de dados

Muitas vezes, essa é a maior parte de qualquer projeto e consiste em cinco tarefas: selecionar os conjuntos de dados e documentar o motivo da inclusão/exclusão, limpar os dados, construir dados derivando novos atributos dos dados existentes, integrar dados de várias fontes e formatar os dados.

Modelagem

Construir modelos a partir de dados tem quatro tarefas: selecionar técnicas de modelagem, gerar designs de teste, construir modelos e avaliar modelos.

Avaliação

Embora a fase de modelagem inclua a avaliação técnica do modelo, esta fase trata de determinar qual modelo atende melhor às necessidades de negócios. Envolve três tarefas: avaliar os resultados, revisar o processo e determinar as próximas etapas.

Desdobramento, desenvolvimento

A fase final é sobre como colocar o modelo para funcionar. Inclui quatro tarefas: desenvolver e documentar um plano para implantar o modelo, desenvolver um plano de monitoramento e manutenção, produzir um relatório final e revisar o projeto.

ASUM-DM

Em 2015, a IBM publicou uma extensão do CRISP-DM chamada Analytics Solutions Unified Method for Data Mining (ASUM-DM). Ela usa o CRISP-DM como linha de base, mas constrói a fase de implantação para incluir colaboração, controle de versão, segurança e conformidade.

Trabalhos de mineração de dados

A mineração de dados é mais frequentemente conduzida por cientistas ou analistas de dados. Aqui estão alguns dos cargos mais populares relacionados à mineração de dados, de acordo com dados do PayScale: Analista de inteligência de negócios; Arquiteto de inteligência de negócios; Desenvolvedor de inteligência de negócios; Analista de dados; Engenheiro de dados; Cientista de dados; Analista de dados sênior; Estatístico.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.