O que é mineração de dados? Encontrar padrões e tendências nos dados
Mineração de dados é o processo de peneirar grandes volumes de dados em busca de correlações, padrões e tendências
A mineração de dados, às vezes usada como sinônimo de “knowledge discovery”, equivalente à “descoberta de conhecimento”, é o processo de peneirar grandes volumes de dados em busca de correlações, padrões e tendências. É um subconjunto da ciência de dados que usa técnicas estatísticas e matemáticas junto com machine learning e sistemas de banco de dados.
O Grupo de Interesse Especial em Knowledge Discovery and Data Mining (SIGKDD) da Association for Computing Machinery (ACM), organização global para pesquisadores e profissionais dedicados aos estudos relativos à mineração de dados, o define como a ciência de extrair conhecimento útil de enormes repositórios de dados digitais criados por tecnologias de computação.
A ideia de extrair padrões de dados não é nova, mas o conceito moderno de mineração de dados começou a tomar forma nas décadas de 1980 e 1990 com o uso de gerenciamento de banco de dados e técnicas de machine learning para aumentar os processos manuais.
Mineração de dados vs. data analytics
Os termos data analytics e mineração de dados costumam ser confundidos, mas o data analytics pode ser entendido como um subconjunto da mineração de dados.
A mineração de dados se concentra em limpar dados brutos, encontrar padrões, criar modelos e, em seguida, testar esses modelos, de acordo com o fornecedor de analytics Tableau. O data analytics, por outro lado, é a parte da mineração de dados focada em extrair insights dos dados. Seu objetivo é aplicar análises estatísticas e tecnologias de dados para encontrar tendências e resolver problemas.
O valor comercial da mineração de dados
A mineração de dados é usada em empresas em uma ampla gama de setores para filtrar seus dados para entender as tendências e tomar melhores decisões de negócios. As empresas de mídia e telecomunicações exploram os dados de seus clientes para entender melhor o comportamento do cliente. As seguradoras usam mineração de dados para precificar seus produtos de forma mais eficaz e para criar novos produtos. Os educadores agora estão usando dados de mineração para descobrir padrões no desempenho dos alunos e identificar áreas problemáticas nas quais eles possam precisar de atenção especial. Os varejistas estão usando a mineração de dados para entender melhor seus clientes e criar campanhas altamente direcionadas.
Técnicas de mineração de dados
A mineração de dados usa uma variedade de ferramentas e técnicas. De acordo com a Talend, empresa especialista em integração e integridade de dados, as funções mais comumente usadas incluem:
- Limpeza e preparação de dados. Antes que os dados possam ser analisados e processados, você precisa identificar e remover erros e também identificar dados ausentes.
- A mineração de dados, frequentemente, aproveita a IA para tarefas associadas ao planejamento, aprendizado, raciocínio e solução de problemas.
- Aprendizagem de regras de associação. Também conhecida como análise de cesta de compras, essas ferramentas são usadas para pesquisar relacionamentos entre variáveis em um conjunto de dados. Um varejista pode usá-los para determinar quais produtos são normalmente comprados juntos.
- O clustering é usado para particionar um conjunto de dados em subclasses significativas para compreender a estrutura dos dados.
- Data analytics é o processo de extrair insights dos dados.
- Um data warehouse é uma coleção de dados de negócios. É a base da maior parte da mineração de dados.
- O machine learning ajuda a automatizar o processo de localização de padrões em seus dados.
- Essa técnica é usada com um determinado conjunto de dados para prever valores como vendas, temperaturas ou preços de ações.
Processo de mineração de dados
O Cross Industry Standard Process for Data Mining (CRISP-DM) é um modelo de processo de seis etapas publicado em 1999 para padronizar os processos de mineração de dados em todas as indústrias. As seis fases do CRISP-DM são: entendimento de negócios, entendimento de dados, preparação de dados, modelagem, avaliação e implantação.
Compreensão de negócios
Esta fase é sobre a compreensão dos objetivos, requisitos e escopo do projeto. Ela consiste em quatro tarefas: determinar os objetivos do negócio, entendendo o que as partes interessadas do negócio desejam realizar; avaliar a situação para determinar a disponibilidade de recursos, requisitos do projeto, riscos e contingências; determinar como é o sucesso de uma perspectiva técnica; e definir planos detalhados para cada ferramenta de projeto junto com a seleção de tecnologias e ferramentas.
Compreensão de dados
A próxima fase envolve identificar, coletar e analisar os conjuntos de dados necessários para cumprir as metas do projeto. Também inclui quatro tarefas: coletar dados iniciais, descrever os dados, explorar os dados e verificar a qualidade dos dados.
Preparação de dados
Muitas vezes, essa é a maior parte de qualquer projeto e consiste em cinco tarefas: selecionar os conjuntos de dados e documentar o motivo da inclusão/exclusão, limpar os dados, construir dados derivando novos atributos dos dados existentes, integrar dados de várias fontes e formatar os dados.
Modelagem
Construir modelos a partir de dados tem quatro tarefas: selecionar técnicas de modelagem, gerar designs de teste, construir modelos e avaliar modelos.
Avaliação
Embora a fase de modelagem inclua a avaliação técnica do modelo, esta fase trata de determinar qual modelo atende melhor às necessidades de negócios. Envolve três tarefas: avaliar os resultados, revisar o processo e determinar as próximas etapas.
Desdobramento, desenvolvimento
A fase final é sobre como colocar o modelo para funcionar. Inclui quatro tarefas: desenvolver e documentar um plano para implantar o modelo, desenvolver um plano de monitoramento e manutenção, produzir um relatório final e revisar o projeto.
ASUM-DM
Em 2015, a IBM publicou uma extensão do CRISP-DM chamada Analytics Solutions Unified Method for Data Mining (ASUM-DM). Ela usa o CRISP-DM como linha de base, mas constrói a fase de implantação para incluir colaboração, controle de versão, segurança e conformidade.
Trabalhos de mineração de dados
A mineração de dados é mais frequentemente conduzida por cientistas ou analistas de dados. Aqui estão alguns dos cargos mais populares relacionados à mineração de dados, de acordo com dados do PayScale: Analista de inteligência de negócios; Arquiteto de inteligência de negócios; Desenvolvedor de inteligência de negócios; Analista de dados; Engenheiro de dados; Cientista de dados; Analista de dados sênior; Estatístico.