Ferramenta da AWS ajuda em aprendizado de máquina
Probabilidades podem diminuir eficiência de inteligência artificial
A Amazon Web Services (AWS) anunciou na última semana o Amazon SageMaker Ground Truth, que ajuda as empresas a criar conjuntos de dados de treinamento para aprendizado de máquina. Esse é um novo serviço para quem tem acesso a muitos dados que não foram anotados de forma consistente. No passado, a pessoa teria de rotular um corpus massivo de imagens ou molduras dentro do vídeo para treinar um modelo de visão computacional. Mas a plataforma usa aprendizado de máquina, além de humanos, para rotular automaticamente um conjunto de dados de treinamento.
Segundo Brandon Purcell, analista da Forrester, esse é um exemplo de um tema emergente no ano passado – aprendizado de máquina para aprendizado de máquina. Catálogos de dados de aprendizado de máquina (MLDCs), correspondência probabilística ou fuzzy, anotação de dados de treinamento automatizada e criação de dados sintéticos usam aprendizado de máquina para produzir ou preparar dados para subsequente aprendizado de máquina, resolvendo problemas com escassez ou dispersão de dados. Porém, o aprendizado de máquina por si só depende do raciocínio indutivo e, portanto, é baseado em probabilidade.
“Na realidade, ele poderá funcionar assim: um profissional de saúde gostaria de usar a visão computacional para diagnosticar uma doença rara. Por causa de dados esparsos, um anotador automatizado é usado para criar mais dados de treinamento (mais imagens rotuladas). O desenvolvedor define um limite de propensão de 90%, significando que apenas registros com uma probabilidade de 90% de serem classificados com precisão serão usados como dados de treinamento”, explicou.
Uma vez que o modelo é treinado e implantado, ele está sendo usado em pacientes cujos dados estão vinculados a vários bancos de dados usando a correspondência difusa em campos de dados de texto. Entidades de conjuntos de dados diferentes com 90% de chance de serem iguais são correspondidas. Finalmente, o modelo sinaliza imagens com 90% ou mais de probabilidade de descrever a doença para o diagnóstico.
O problema é que, tradicionalmente, os cientistas de dados e especialistas em aprendizado de máquina se concentram apenas nessa pontuação de propensão final como uma representação da exatidão geral da previsão. Isso funcionou bem em um mundo onde a preparação de dados que levou ao treinamento foi dedutiva e determinista.
Mas ao introduzir probabilidades em cima de probabilidades, essa pontuação de propensão final não é mais precisa. No caso acima, há um argumento a ser feito de que a probabilidade de um diagnóstico preciso diminui de 90% para 73% (90% x 90% x 90%) – o que não é o ideal em uma situação de vida ou morte.
Conforme a ênfase na necessidade de explicabilidade na AI aumenta, é necessário que haja uma nova estrutura de governança analítica que incorpore todas as probabilidades no processo de aprendizado de máquina – da criação de dados à preparação de dados e treinamento à inferência. Sem isso, pontuações de propensão erroneamente infladas irão diagnosticar pacientes, maltratar clientes e enganar empresas e governos enquanto tomam decisões críticas.