5 erros comuns sobre o uso de machine learning

Author Photo
1:02 pm - 10 de março de 2017

Técnicas de machine learning nunca foram tão acessíveis e utilizadas quanto atualmente. Suas aplicações vão desde varejistas para recomendação de produtos a provedores de e-mail para filtrar spam e rede sociais pra reconhecimento facial e análise de sentimentos.

O fato é que essas técnicas ajudam a superar diversos desafios e capacidades que humanos não conseguiriam realizar. No entanto, machine learning não é uma solução mágica. A afirmação é da Easy Solutions, empresa especializada no combate a fraudes.

Javier Vargas, gerente de pesquisas da companhia, destaca que toda essa propaganda tem gerado grandes expectativas sobre a performance dessas ferramentas, geralmente seguidas de enormes decepções entre os consumidores que se sentem enganados. “Isso ocorre porque existem muitos mal-entendidos com relação ao uso de machine learning como instrumento de segurança cibernética”.

Para evitar problemas, a companhia listou os cinco equívocos mais comuns que devem ser esclarecidos antes da adoção de machine learning. Confira:

1. Machine learning não é capaz de criar conhecimento, apenas de extrair conhecimento
Ferramentas de machine learning somente podem alcançar seu verdadeiro potencial – e superar as abordagens tradicionais – se forem alimentadas com um volume suficiente de dados de qualidade. É crucial desenvolver dados de maneira consciente na organização como um todo e nas áreas especificamente envolvidas na detecção e mitigação de incidentes.

2. Trata-se de uma tecnologia adicional
Enquanto os marqueteiros acreditam que machine learning supera a performance de todos os sistemas existentes, é importante ter cautela para gerar expectativas realistas. As técnicas de machine learning devem ser incorporadas a uma estratégia de proteção robusta e multicamada. Elas têm maiores chances de detectar os ataques que conseguem driblar defesas preventivas estáticas, sendo também um bom complemento para empresas com sistemas estáticos que foram finamente ajustados ao longo de anos de expertise.

3. Análises de desempenho produzidas por cientistas de dados tendem a ser complexas, e é importante entendê-las
Termos como taxa de falso-positivos, taxa de verdadeiro-positivos, precisão e F-Score são muito importantes no ajuste do modelo às necessidades específicas da instituição. Duas das principais fontes de decepção no uso de machine learning são, justamente, as taxas de falso-positivos e de alertas. É frustrante implementar um algoritmo cujas referências indicam um excelente desempenho e descobrir que ele está exaurindo a capacidade operacional.

4. Bons modelos de machine learning são avaliados pelo seu desempenho
Isso significa que a performance é avaliada executando o algoritmo várias vezes com um conjunto de big data que seja uma boa representação do problema real. As organizações devem ser coerentes com as suas necessidades operacionais. Deve-se fazer o mapeamento considerando as proporções da operação, ou seja, se o algoritmo for alimentado com 1 milhão de eventos por dia, cerca de 20.000 dos alertas diários podem ser falso-positivos.

5. Os resultados de machine learning nem sempre são fáceis de explicar
O setor de segurança cibernética está acostumado com regras, listas negras, fingerprints e indicadores de comprometimento. Explicar porque um determinado alerta foi ativado é simples e natural. Modelos de machine learning identificam padrões em grandes conjuntos de dados, extrapolam respostas e fazem previsões com base em composições não triviais.

Tudo isso torna muito difícil entender seu funcionamento interno. Muitos esforços foram investidos para descobrir maneiras de explicar os resultados dos modelos de machine learning, mas esses sistemas avançados somente oferecem estimativas em termos de explicações interpretáveis, que não podem ser seguidas ao pé da letra.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.