6 fatores que podem levar a falhas do Machine Learning

Detectar erros de aprendizado de máquina, e lidar com eles, ajudará a ter mais sucesso com a tecnologia e atender às expectativas da empresa

Author Photo
9:57 am - 16 de outubro de 2018

O processo de aprendizagem, em geral, passa muitas vezes por cometer erros e tomar os caminhos errados para, em seguida, descobrir como evitar essas armadilhas no futuro. Com o Machine Learning não é diferente.

É preciso ter cuidado, à medida que você implementa Machine Learning em sua empresa: o marketing dos fornecedores até pode sugerir que o aprendizado é muito bom e muito rápido. Mas essa é uma expectativa irrealista. A verdade é que certamente haverá erros no processo de aprendizado de máquina. E esses erros podem ficar codificados nos processos de negócios, por algum tempo. Se breve ou longo, depende… É possívelque esses erros aconteçam em escala e fora do controle imediato da Ti.

Detectar erros de aprendizado de máquina e lidar com eles com presteza, ajudará os usuários a terem mais sucesso com a tecnologia e suas expectativas atendidas.

“A ansiedade sem a devida diligência pode levar a problemas capazes de tornar os benefícios do Machine Learning quase inúteis”, afirma Ray Johnson, cientista chefe de dados da SPR Consulting.

A seguir listamos alguns fatores que podem aumentar e prolongar os erros cometidos pelas ferramentas de Machine Learning enquanto estão aprendendo – são lições ruins que talvez nunca sejam reconhecidas e corrigidas se sua equipe não estiver atenta.

1 – Falta de compreensão comercial do problema
Alguns profissionais de dados que usam modelos de Machine Learning realmente não entendem o problema de negócios que o Machine Learning está tentando resolver, e isso pode introduzir erros no processo.

Quando sua equipe está usando uma ferramenta de aprendizado de máquina, Akshay Tandon, vice-presidente e chefe de estratégia e análise com o site de serviços financeiros LendingTree, incentiva seu pessoal a começar com uma declaração de hipóteses. A declaração deve perguntar qual é o problema a ser resolvido e quais modelos serão construídos para resolver esse problema.

Do lado da estatística, as ferramentas de Machine Learning disponíveis hoje são extremamente poderosas, diz Tandon. Acontece que, se não forem usadas com cuidado, essas ferramentas podem levar a decisões ruins. Se as equipes de análise de dados não forem cuidadosas, elas podem acabar com modelos que não se ajustam aos dados específicos usados pela equipe no processo de treinamento. E tudo pode dar errado muito rapidamente, diz ele.

Além disso, muitos usuários de negócios não entendem que um modelo, a partir do momento em que é colocado em produção, tem uma certa degradação de qualidade, diz Tandon. Deve-se levar em conta que, assim como com um carro ou qualquer outra máquina, os usuários precisam monitorá-lo constantemente e estar atento ao modo como ele está afetando as decisões.

2 – Baixa qualidade dos dados
Se a qualidade dos dados não for suficiente, o aprendizado de máquina sofrerá. A má qualidade dos dados é uma das maiores preocupações dos gerentes de dados e pode colocar em risco os esforços de análise de Big Data, apesar das melhores intenções dos cientistas de dados e outros profissionais que trabalham com informações. Certamente, pode tirar os modelos de Machine Learning dos trilhos.

As organizações frequentemente superestimam a resiliência dos algoritmos de aprendizado de máquina e subestimam os efeitos de dados ruins. A má qualidade dos dados produz resultados ruins e leva a organização a tomar decisões de negócios mal informadas, diz Johnson. Os resultados dessas decisões prejudicarão o desempenho dos negócios e dificultarão que iniciativas futuras obtenham apoio.

Você pode detectar uma qualidade de dados insatisfatória a partir de resultados orientados por Machine Learning que simplesmente não parecem fazer sentido, com base na experiência passada e atual.

Uma abordagem proativa para lidar com o problema é a análise exploratória de dados (EDA), diz Johnson. O EDA pode identificar problemas básicos de qualidade de dados, como outliers, valores ausentes e valores de domínio inconsistentes. Você também pode usar técnicas como amostragem estatística para determinar se há instâncias suficientes de pontos de dados para refletir adequadamente a distribuição da população e para definir regras e políticas relacionadas à remediação de qualidade de dados.

3 – Aplicação inadequada da tecenologia
“O problema mais comum que ainda vemos nas empresas é o desejo de usar [aprendizado de máquina] apenas por estar em voga”, diz Sally Epstein, engenheira especialista em Machine Learning da consultoria Cambridge Consultants. A tecnologia não se aplica a tudo. É preciso definir quando usar a ferramenta para ter sucesso, diz ela. Abordagens tradicionais de engenharia podem fornecer uma solução mais rápida, por um custo consideravelmente menor e resultados melhores.

Usar o Machine Learning quando ele pode não ser a melhor opção para resolver um problema e não entender completamente o caso de uso pode resultar na solução do problema errado, diz Johnson.

Além disso, abordar o problema de forma inadequada levará a oportunidades perdidas, com as organizações lutando para adaptar seu caso de uso a um modelo ruim.

Para evitar o uso inadequado do Machine Learning, considere o resultado comercial desejado, a complexidade do problema, o volume de dados e o número de atributos. Problemas relativamente simples, como classificaçãoagrupamento e regras de associação usando pequenas quantidades de dados com alguns atributos podem ser abordados visualmente ou por meio de análise estatística, diz Johnson. Nesses casos, a implantação do Machine Learning pode consumir mais tempo e recursos do que o necessário.

Quando o volume de dados se torna difícil, o Machine Learning pode ser mais apropriado. Mas não é incomum passar por um exercício de aprendizado de máquina e depois descobrir que o resultado do negócio não foi claramente definido.

4 – Modelos tendenciosos
Usar um conjunto de dados de baixa qualidade pode levar a conclusões enganosas. Não só pode introduzir imprecisões e dados perdidos, mas também introduzir vieses. As pessoas são certamente capazes de influenciar, por isso é lógico que os modelos criados ou inspirados por pessoas. também possam reproduzir preconceitos.

Cada algoritmo de Machine Learning tem sensibilidades diferentes para classes ou distribuições desequilibradas, diz Epstein. Se esses tratamentos não forem abordados, você pode acabar com, por exemplo, ferramentas de reconhecimento facial que têm dependências na cor da pele ou produzir modelos com viés de gênero, diz Epstein. Na verdade, isso já aconteceu com vários serviços comerciais.

A precisão de uma conclusão – seja de um algoritmo ou de uma pessoa – depende da amplitude e da qualidade das informações que estão sendo processadas. Os riscos financeiros, legais e de reputação do viés algorítmico que organizações e indivíduos enfrentam são um exemplo do motivo pelo qual qualquer empresa que use Machine Learning deveria tornar a ética um imperativo organizacional, afirma Vic Katyal, diretor da área de serviços de análise consultiva da consultoria Deloitte.

Sinais de viés algorítmico foram bem documentados na esfera pública em áreas como pontuação de crédito, currículos de educação, contratação e sentenças criminais, diz Katyal. Dados mal coletados, com curadoria ou aplicados sem muito critério podem introduzir distorções mesmo nas aplicações de Machine Learning mais bem projetadas e bem planejadas.

Os sistemas de aprendizado de máquina inerentemente ameaçados ameaçam prejudicar segmentos de clientes ou partes interessadas da sociedade e podem criar ou perpetuar resultados injustos, diz ele.

A empresa de consultoria McKinsey observa em um relatório de 2017 que o viés algorítmico é um dos maiores riscos do Machine Learning, porque compromete seu objetivo real. É um defeito muitas vezes esquecido que pode provocar erros caros, diz a empresa, e, se não for verificado, pode levar projetos e organizações a direções totalmente equivocadas.

Esforços efetivos para confrontar o problema desde o início vão render muito bem, diz McKinsey, permitindo que o verdadeiro potencial do Machine Learning seja obtido com maior eficiência.

5 – Recursos insuficientes
Ao lançar uma iniciativa de Machine Learning, as organizações podem facilmente subestimar os recursos de que precisam para pessoal e infraestrutura. Podem haver requisitos substanciais de infraestrutura, especialmente nos casos de processamento de imagem, vídeo e áudio.

Sem o poder de processamento exigido, o desenvolvimento de soluções baseadas em Machine Learning em tempo hábil pode ser difícil, se não impossível, diz Johnson.

Há também a questão da implantação e consumo. De que adianta desenvolver uma solução de Machine Learning se a infraestrutura de pré-requisito não estiver implementada para permitir sua implantação e o consumo de resultados pelos usuários?

A implantação de uma infraestrutura escalável para suportar o Machine Learning pode ser cara e difícil de manter. No entanto, existem vários serviços em nuvem que fornecem plataformas escaláveis ​​de Machine Learning que podem ser aprovisionadas sob demanda. A abordagem em nuvem permite a experimentação do Machine Learning em escala sem os grilhões da aquisição, configuração e implantação de hardware físico, diz Johnsons.

Algumas organizações querem ter sua infraestrutura em casa. Se for esse o caso, os serviços em nuvem podem servir como um ponto de partida e experiência educacional, para que essas organizações entendam o que é necessário, do ponto de vista da infraestrutura, antes de fazer esse grande investimento.

Do ponto de vista pessoal, a falta de mal de obra qualificada, como cientistas de dados e engenheiros de Machine Learning, pode inviabilizar o desenvolvimento e a implantação da tecnologia. É essencial ter recursos que entendam os conceitos de aprendizado de máquina, sua aplicação e interpretação para determinar se os resultados de negócios específicos estão sendo alcançados.

Pessoas capacitadas podem ajudar a identificar problemas de qualidade de dados, garantir o uso e a implantação apropriados de ferramentas de aprendizado de máquina e ajudar a estabelecer práticas recomendadas e políticas de governança.

machinelearning

6 – Mau planejamento e falta de governança
Os esforços de Machine Learning podem começar com entusiasmo, mas depois perdem força e acabam paralisados. Este é um sinal de mau planejamento e falta de governança.

Os esforços de Machine Learning continuariam ad infinitum se diretrizes e limites apropriados não fossem colocados em prática, potencialmente resultando em enormes gastos de recursos sem obter nenhum benefício, diz Johnson.

As organizações precisam ter em mente que o aprendizado de máquina é um processo interativo, e modificações nos modelos podem acontecer ao longo do tempo para suportar requisitos em constante mudança. Como resultado, as pessoas que trabalham com Machine Learning podem desenvolver uma falta de interesse em concluir o esforço, o que pode levar a resultados ruins. Os patrocinadores do projeto podem avançar para outros empreendimentos, e o esforço de aprendizado de máquina acabar parando.

Os esforços de Machine Learning precisam ser monitorados regularmente para manter as coisas funcionando, diz Johnson. Se o progresso começar a desacelerar, talvez seja hora de fazer uma pausa e reexaminar o esforço.

Newsletter de tecnologia para você

Os melhores conteúdos do IT Forum na sua caixa de entrada.