Notícias

Google desenvolve IA capaz de transformar texto em mensagens de áudio

Funcionários da Deepmind, empresa comprada pela Alphabet/Google com foco em desenvolvimento de inteligência artificial, divulgou uma pesquisa (em inglês) em que anuncia a criação de uma IA capaz de transformar mensagens de texto em arquivos de áudio. O estudo, realizado em parceria com a Imperial College London, explica em detalhes a criação do sistema capaz de fazer esse processo. 

Como nome inglês GAN-TTS, a sigla significa rede adversária geradora (GAN) de texto para mensagem (TTS). Apesar dos nomes complicados, a atuação delas é mais fácil de compreender:  uma GAN nada mais é do que duas inteligências artificiais que “competem” entre si na absorção de aprendizado de uma base de dados, sendo capazes de gerar resultados mais próximos de trabalhos feitos por humanos.  

 

Oi, eu sou uma GAN

As GANs são muito utilizadas em trabalhos visuais: existe até um site chamado “Essa pessoa não existe”, no qual essa tecnologia “monta” o rosto de um ser humano utilizando uma base de dados disponível. Aplicada no conceito de texto para voz (TTS), uma GAN seria capaz de, após análise de dados, converter frases em áudio. Porém, diferente do campo de imagem, quase não existem pesquisas que aplicam esse sistema para utilizando escrita. 

Por isso que a pesquisa da Google se destaca: além de ter desenvolvido um sistema com foco em criar áudio com base em texto, o paper lançado pelos pesquisadores afirma que a criação consegue essa conversão com alto grau de naturalidade e (mais importante) que o processo é facilmente replicado, o que significa que pode a IA pode ser treinada em diferentes máquinas, aumentando o tempo de aperfeiçoamento e também permitindo que ela seja utilizada em outras tarefas 

Para desenvolver a GAN-TTS, os pesquisadores utilizaram uma amostragem composta por 567 dados fonéticos, de duração e de tom codificados. Após a primeira rodada de arquivos produzidos, cerca de 1 mil sentenças foram avaliadas por humanos, que avaliavam condições como clareza e naturlidade do audio.  Após outros testes, o melhor modelo testado (que passou por cerca de 1 milhão de testes), apresenta um alto grau de “convencimento”. 

 

* Com informações do Venture Beat

Recent Posts

SpaceX, Anthropic e OpenAI enfrentam riscos em possíveis IPOs

SpaceX, Anthropic e OpenAI estão no radar de Wall Street para possíveis aberturas de capital…

15 horas ago

Sistemas legados: como tomar decisões para garantir resiliência em setores críticos

por Eduardo Honorato Falar sobre infraestruturas críticas na Era Digital tem sua própria complexidade dentro…

19 horas ago

Sem equipes preparadas, IA não entrega transformação

A adoção de inteligência artificial (IA) nas empresas não depende apenas da disponibilidade de ferramentas.…

21 horas ago

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

2 dias ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

2 dias ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

2 dias ago