Notícias

Google desenvolve IA capaz de transformar texto em mensagens de áudio

Funcionários da Deepmind, empresa comprada pela Alphabet/Google com foco em desenvolvimento de inteligência artificial, divulgou uma pesquisa (em inglês) em que anuncia a criação de uma IA capaz de transformar mensagens de texto em arquivos de áudio. O estudo, realizado em parceria com a Imperial College London, explica em detalhes a criação do sistema capaz de fazer esse processo. 

Como nome inglês GAN-TTS, a sigla significa rede adversária geradora (GAN) de texto para mensagem (TTS). Apesar dos nomes complicados, a atuação delas é mais fácil de compreender:  uma GAN nada mais é do que duas inteligências artificiais que “competem” entre si na absorção de aprendizado de uma base de dados, sendo capazes de gerar resultados mais próximos de trabalhos feitos por humanos.  

 

Oi, eu sou uma GAN

As GANs são muito utilizadas em trabalhos visuais: existe até um site chamado “Essa pessoa não existe”, no qual essa tecnologia “monta” o rosto de um ser humano utilizando uma base de dados disponível. Aplicada no conceito de texto para voz (TTS), uma GAN seria capaz de, após análise de dados, converter frases em áudio. Porém, diferente do campo de imagem, quase não existem pesquisas que aplicam esse sistema para utilizando escrita. 

Por isso que a pesquisa da Google se destaca: além de ter desenvolvido um sistema com foco em criar áudio com base em texto, o paper lançado pelos pesquisadores afirma que a criação consegue essa conversão com alto grau de naturalidade e (mais importante) que o processo é facilmente replicado, o que significa que pode a IA pode ser treinada em diferentes máquinas, aumentando o tempo de aperfeiçoamento e também permitindo que ela seja utilizada em outras tarefas 

Para desenvolver a GAN-TTS, os pesquisadores utilizaram uma amostragem composta por 567 dados fonéticos, de duração e de tom codificados. Após a primeira rodada de arquivos produzidos, cerca de 1 mil sentenças foram avaliadas por humanos, que avaliavam condições como clareza e naturlidade do audio.  Após outros testes, o melhor modelo testado (que passou por cerca de 1 milhão de testes), apresenta um alto grau de “convencimento”. 

 

* Com informações do Venture Beat

Recent Posts

Novos executivos da semana: Dahua, Rimini Street, Arcserve e mais

O IT Forum traz, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e…

1 dia ago

Sustentabilidade x IA: emissões da Microsoft sobem 30%

A Microsoft está enfrentando críticas após um relatório revelar um aumento alarmante em suas emissões…

1 dia ago

Centroflora integra e monitora ambientes industriais e automatiza manutenções

O Grupo Centroflora é um fabricante de extratos botânicos, óleos essenciais e ativos isolados para…

1 dia ago

8 oportunidades de vagas e cursos em TI

Toda semana, o IT Forum reúne as oportunidades mais promissoras para quem está buscando expandir…

2 dias ago

Fraudes: 58% das empresas dizem estar mais preocupadas no último ano

Um estudo divulgado na segunda-feira (13) pela Serasa Experian mostra que a preocupação com fraudes…

2 dias ago

82% dos ataques via USB podem interromper operações industriais

A Honeywell divulgou essa semana a sexta edição de seu Relatório de Ameaças USB de…

2 dias ago