Notícias

Google Cloud anuncia disponibilidade geral do Text-to-Speech

O Google Cloud anunciou recentemente a disponibilidade geral da ferramenta de conversão de texto para voz Text-to-Speech, que foi disponibilizada ao público inicialmente há alguns meses.

Entre outras coisas, a solução ganhou 17 novas vozes, incluindo português, inglês (EUA) e espanhol, que permitem a criação de aplicativos em idiomas variados, como anunciado no evento Cloud Next’ 18, em julho.

No total, a API agora oferece 56 vozes em 14 idiomas e variantes, sendo 30 delas padrão e 26 delas WaveNet (produto da DeepMind), capazes de imitar vozes humanas e sons naturais, o que permite uma melhor experiência aos usuários.

Audio Profiles

O Google Cloud também revelou que o recurso Audio Profiles agora também está disponível. Com a novidade, o usuário pode otimizar a reprodução dos áudios Text-to-Speech nos diferentes tipos de equipamentos, como fones de ouvido, alto-falantes e linhas telefônicas.

“Por exemplo, se o áudio que o seu aplicativo produz é ouvido principalmente em fones de ouvido, você pode criar uma voz sintética a partir da API Cloud Text-to-Speech que seja otimizada especificamente para fones de ouvido”, explica o Google em um post no seu blog sobre as novidades.

Novas funções do Speech-to-Text

Além disso, o Google também anunciou novas atualizações beta para o serviço que transforma voz em texto Speech-to-Text, incluindo reconhecimento multicanal, diarização de alto-falante e detecção automática de idiomas, todas anunciadas durante o Google Cloud Next’ 18.

Entre outras coisas, essas funções possibilitam a transcrição de vários canais de áudio com identificação de vozes, de modo a registrar quais palavras foram ditas por quem.

E nos casos em que as amostras de áudio que não são separadas em canais, como em uma palestra, por exemplo, o Google disponibiliza a chamada diarização. Para usá-la, basta inserir o número de pessoas falantes como parâmetro à API e, por meio de aprendizagem de máquina (Machine Learning), a ferramenta elabora uma categoria de cada palavra com um número e, na transcrição, consegue identificar o falante de maneira assertiva.

Recent Posts

Unico processa Serasa Experian por suposto uso indevido de tecnologia de biometria facial

A Unico, empresa brasileira especializada em identidade digital e biometria facial, ingressou com ações nas…

9 horas ago

Salesforce leva Agentforce à Copa do Mundo de 2026

A Salesforce anunciou parceria com a FIFA como apoiadora oficial da Copa do Mundo de…

10 horas ago

Neil Redding abre IT Forum Praia do Forte 2026 com debate sobre liderança na era da IA

Neil Redding será o palestrante de abertura do IT Forum Praia do Forte 2026. Com…

11 horas ago

47% das empresas brasileiras devem adiar migração para a nuvem nos próximos três anos

Apesar da consolidação da computação em nuvem como um dos pilares da transformação digital, uma…

11 horas ago

Deepfakes, IA e software open source lideram lista de ameaças críticas para empresas, diz Gartner

As equipes de segurança cibernética enfrentarão um cenário cada vez mais complexo nos próximos anos,…

13 horas ago

Apenas um em cada três americanos aprova a construção de data centers

Apenas uma em cada três pessoas dos Estados Unidos aprova o ritmo acelerado de construção…

14 horas ago