O que são dados sintéticos? Dados gerados para ajudar sua estratégia de IA
Dados gerados artificialmente podem ser usados no lugar de dados históricos reais para treinar modelos de IA
Dados sintéticos são informações geradas artificialmente que podem ser usadas no lugar de dados históricos reais para treinar modelos de IA quando os conjuntos de dados reais carecem de qualidade, volume ou variedade. Os dados sintéticos também podem ser uma ferramenta vital para os esforços de IA corporativa quando os dados disponíveis não atendem às necessidades dos negócios ou podem criar problemas de privacidade se usados para treinar modelos de machine learning, software de teste ou semelhantes.
De acordo com Svetlana Sicular, Analista do Gartner, até 2024, 60% dos dados utilizados para o desenvolvimento de soluções de IA e analytics serão gerados sinteticamente, contra 1% em 2021.
Casos de uso de dados sintéticos
Os dados artificiais têm muitos usos em estratégias de IA corporativa. Como um substituto para dados reais, os dados sintéticos podem ser úteis nos seguintes cenários:
Para modelos de treinamento quando faltam dados do mundo real: Os sistemas de IA e ML requerem grandes quantidades de dados. Para alguns casos de uso, simplesmente não há dados suficientes disponíveis, seja porque o caso de uso acontece com muita frequência, ou o caso de uso é novo e ainda não há muitos dados históricos disponíveis. Os dados sintéticos também podem reduzir os custos quando coletar ou comprar dados do mundo real é proibitivamente caro.
Para preencher lacunas nos dados de treinamento: Alguns conjuntos de dados não refletem totalmente os casos de uso de uma empresa. Por exemplo, um sistema treinado para reconhecer números de telefone pode não ter números internacionais suficientes para trabalhar.
Outro problema comum é equilibrar um conjunto de dados. Por exemplo, um conjunto de dados históricos pode ser composto por 99% de transações não fraudulentas e menos de 1% fraudulentas, diz John Blankenbaker, principal cientista de dados da SSA & Co., uma empresa global de consultoria de gestão. “Muitos modelos decidirão que a política mais bem sucedida será rotular cada transação como não fraudulenta.”
Os dados sintéticos podem ajudar a equilibrar o conjunto de dados, mas tem que ser feito com muito cuidado. “Só será útil se o processo de síntese capturar o que quer que seja sobre uma transação que indique fraude”, diz Blankenbaker. “O que é improvável de ser óbvio, porque então usaríamos isso como nosso detector de fraudes.”
Casos de uso de “cauda longa”: À medida que a IA se torna onipresente nas organizações, as empresas estão ficando sem casos de uso em que os dados de treinamento necessários são abundantes e facilmente disponíveis. Depois que esses projetos mostrarem sucesso, os líderes de negócios desejarão as mesmas abordagens usadas para seus próprios casos de uso.
Para acelerar o desenvolvimento de modelos: A coleta de dados de treinamento no mundo real pode exigir tempo, pois as informações são coletadas, rotuladas, processadas e passam por conformidade e outras verificações. Isso pode retardar o desenvolvimento de novos modelos de IA. Com dados sintéticos, os modelos podem ser treinados e calibrados antes que os dados do mundo real se tornem disponíveis.
Para simular o futuro: Quando as modas mudam, os dados históricos podem se tornar obsoletos da noite para o dia. Por exemplo, quando as pessoas mudaram de fones de ouvido com fio para sem fio, todos os dados históricos do cliente perderam seu valor preditivo. Os mecanismos de recomendação que dependem de dados antigos de treinamento ainda podem estar recomendando opções com fio. Substituir ou aumentar os dados históricos por dados sintéticos que explicam a mudança de moda pode ajudar a manter os mecanismos de recomendação relevantes.
Para simular futuros alternativos: Se uma mudança está chegando, e não está claro para qual direção os clientes irão, os dados simulados podem ajudar as empresas a executar simulações de cenário e estar preparadas para qualquer opção.
Para simular eventos de “cisne negro”: Certas situações surgem muito raramente e podem não estar presentes em dados históricos – mas se elas teriam um impacto dramático em uma organização se acontecessem, então, é necessário estar preparado. O uso de dados sintéticos para simular essas situações pode ajudar uma empresa a modelar essas respostas.
Para simular o metaverso: O metaverso — simulações virtuais em 3D de ambientes de jogos, mídias sociais e de negócios — exigirá uma enorme quantidade de conteúdo. Salas, prédios, paisagens e assim por diante precisarão ser criados, e contratar artistas 3D para criar todo esse conteúdo do zero será proibitivamente caro. Dados sintéticos podem preencher algumas das lacunas para criar configurações e objetos realistas e apropriados para ambientes virtuais, eventos e interações.
Para gerar imagens de marketing: Os anunciantes já estão criando imagens sintéticas para mostrar seus produtos. Por exemplo, uma fotografia de uma modelo vestindo um suéter de uma cor pode ser transformada em fotos realistas do mesmo modelo usando todas as diferentes versões do mesmo suéter. Também estão disponíveis ferramentas de geração de imagens que podem até gerar rostos realistas e únicos ou exibir móveis em diferentes arranjos.
Para testes de software: Usar dados reais para testar novos softwares pode criar problemas de privacidade e segurança. Dados sintéticos parecem dados reais, mas não permitem que o software seja testado em toda a gama de casos de uso sem colocar dados reais em risco. “Se quisermos ver como nossa infraestrutura lida com um grande número de contas de usuários, é fácil escrever um programa que se conecte ao nosso site e cadastre usuários sintéticos”, diz Blankenbaker da SSA.
Para criar gêmeos digitais: Em casos judiciais, os advogados às vezes criam um júri paralelo para testar os argumentos. As organizações podem fazer algo semelhante usando dados sintéticos. Por exemplo, em 2019, a Administração do Trabalho e Bem-Estar da Noruega criou uma versão sintética de toda a sua população. Os dados são regenerados diariamente, diz Sicular, do Gartner, e são usados por várias organizações externas.
No lugar de dados médicos e financeiros: Usar dados reais de clientes ou pacientes para treinar modelos de IA, executar simulações ou encontrar tratamentos ou correlações úteis pode ser muito arriscado do ponto de vista da conformidade. Mesmo dados apagados ou anônimos muitas vezes podem ser submetidos a engenharia reversa para recuperar os dados originais, diz Andy Thurai, Vice-Presidente e Analista Principal da Constellation Research. Os dados sintéticos não podem ser anônimos, mas ainda podem ser usados para encontrar informações valiosas.
Para vendas e marketing: Quando uma equipe de vendas chama um cliente para demonstrar um produto ou serviço que ingere dados, pode ser útil usar amostras que sejam o mais próximo possível do caso de uso do cliente. Usar dados de outro cliente seria uma violação de privacidade. Dados sintéticos podem permitir que a equipe de vendas coloque o produto em prática em um caso de uso semelhante ao do cliente, sem divulgar informações confidenciais.
“Uma startup que está tentando construir um aplicativo de saúde pode construir toda a sua estrutura usando dados sintéticos de PHI [informações de saúde protegidas] para criar uma estrutura de ponta a ponta para demonstração em potencial para clientes, em vez de ter que se perguntar e esperar para fazer as conexões certas para usar os dados PHI reais”, diz Priya Iragavarapu, Vice-Presidente do Centro de Excelência de Dados da AArete, uma consultoria de gestão global.
Para testar sistemas de IA quanto ao viés: Quando os sistemas de IA discriminam com base em raça, religião ou outras considerações ilegais, isso pode criar uma responsabilidade de conformidade ou um desastre de relações públicas – ou ambos. Com sistemas de IA de “caixa preta” e novas tecnologias de IA, como redes neurais, pode ser difícil descobrir por que uma IA faz a recomendação. Testar os sistemas de IA contra conjuntos de dados sintéticos projetados para imitar a demografia do mundo real pode ajudar a descobrir esses vieses ocultos.
Geração de dados sintéticos
Às vezes, gerar dados sintéticos pode ser muito simples. Uma lista de nomes, por exemplo, pode ser gerada combinando um primeiro nome escolhido aleatoriamente de uma lista de nomes e um sobrenome de uma lista de sobrenomes. Os códigos postais podem ser escolhidos aleatoriamente a partir de uma lista de códigos postais. Isso pode ser suficiente para algumas aplicações. Para outros propósitos, no entanto, a lista pode precisar ser balanceada para que, digamos, os dados sintéticos de gastos sejam correlacionados aos padrões usuais de gastos nesses CEPs.
A maioria dos conjuntos de dados ainda são produzidos manualmente com SQL para extração e anonimização de dados e são então limpos usando linguagens programáticas padrão, diz Steven Karan, Vice-Presidente e Chefe de Insights e Dados da Capgemini Canadá.
“Uma solução comercial pronta para uso ainda não chegou ao mercado”, diz ele. “Embora haja um pequeno punhado de startups que fornecem soluções de dados sintéticos, nenhuma delas atingiu qualquer nível de adoção crítica”.
Em vez disso, a maioria dos cientistas de dados aproveita pacotes pré-criados para gerar conjuntos de dados sintéticos, diz ele.
Gerar conjuntos de dados sintéticos que sejam estatisticamente significativos e reflitam dados reais de maneira relevante para os casos de uso pode ser um desafio. Mais recentemente, algoritmos de IA e machine learning foram usados para criar dados sintéticos mais úteis e representativos. Por exemplo, os cientistas de dados começaram a usar redes adversariais generativas (GANs), diz Iragavarapu, da AArete.
“É um tipo de trabalho neural que deu um grande salto ao tornar a geração de dados sintéticos uma realidade”, diz ele.
A maneira como um GAN funciona é que um sistema gera dados – digamos, uma imagem de um gato – e um segundo sistema tenta adivinhar se a imagem é real ou falsa. Ao colocar os dois sistemas em uma corrida um contra o outro, as imagens geradas rapidamente se tornam indistinguíveis da realidade.
Ferramentas de dados sintéticos
Atualmente, várias ferramentas estão disponíveis para organizações interessadas em gerar seus próprios dados sintéticos, a maioria dos quais é de código aberto. A seguir estão algumas das ferramentas mais populares para criar dados sintéticos:
GPT-J: Alternativa de código aberto para a ferramenta de geração de texto GPT-3 da OpenAI;
Synthea: ferramenta de código aberto popular na área médica;
scikit-learn: Usado para gerar conjuntos de dados sintéticos para uso em regressão, agrupamento e classificação com o objetivo de produzir conjuntos de dados que possam permitir previsões, de acordo com Karan, da Capgemini;
symPy: Usado por cientistas de dados que precisam de conjuntos de dados sintéticos mais personalizados para necessidades mais específicas, pois permite a criação e o desenvolvimento de expressões simbólicas personalizadas;
pydbgen: Usado para gerar conjuntos de dados comuns, como números de telefone ou endereços de e-mail;
synthpop: Um pacote R usado para gerar dados demográficos sintéticos;
faker: Um pacote Python que pode gerar dados sintéticos, como nomes, endereços, e-mails, números de seguro social e outros dados;
SDV: Uma ferramenta Python para gerar tabelas, bancos de dados relacionais e modelos de séries temporais.
Práticas recomendadas de dados sintéticos
As empresas que estão começando a experimentar dados sintéticos devem começar com exemplos bem estruturados, sugere Sicular, do Gartner. Esses casos de uso podem ser os mais fáceis de implantar e oferecer o maior valor inicial. Por exemplo, um banco de dados de nomes e números de Previdência Social pode ser facilmente substituído por um equivalente sintético que ofereça benefícios comerciais sem criar responsabilidades de conformidade.
Thurai, da Constellation, não recomenda o uso de dados sintéticos para criação e teste de modelos. “Isso levará a falsos positivos”, diz ele. “E não economize e use todos os dados sintéticos. Você precisará de uma boa quantidade de dados do mundo real para misturar também”.
Outro erro seria usar dados sintéticos para descobrir se as coisas estão causalmente relacionadas, diz Iragavarapu, da AArete, ou gerar outliers sintéticos, a menos que haja uma lógica específica pela qual eles são gerados.
“E devemos sempre citar explicitamente onde usamos dados sintéticos versus dados reais para permanecermos transparentes para nossos clientes”, acrescenta.
Empresas de dados sintéticos
Várias empresas estão intervindo para criar dados sintéticos para uso em seus modelos, incluindo o seguinte:
BiText
Datagen
Diveplane
Gretel
Hazy
AI
Mostly AI
OpenAI
Synthesized
Tonic
Ydata