Notícias

Como funciona a Camila, IA humanizada da AWS que converte texto em voz

Aplicação alia Inteligência Artificial e Machine Learning para garantir maior fluência no texto e melhorar a experiência do usuário

A Amazon Web Services (AWS) anuncia o lançamento da Camila, a primeira voz neural brasileira do Amazon Polly, serviço de conversão de texto em voz que utiliza tecnologia Neural Text to Speech (NTTS), baseada em Inteligência Artificial e Machine Learning. Com o NTTS, a ferramenta apresenta uma voz humanizada, com capacidade de identificar pontuações e oferecer maior fluência aos textos.

Segundo o IBGE, há no Brasil mais de 6,5 milhões de pessoas com deficiência visual, sendo 582 mil cegas e 6 milhões com baixa visão. Além disso, segundo dados do mesmo instituto, cerca de 11,3 milhões de brasileiros são analfabetos.

A legislação brasileira prevê, na Lei n° 13.146, de 6 de julho de 2015, a obrigatoriedade das empresas brasileiras, ou com operações no país, assim como de organizações governamentais, garantir o acesso à informação em seus sites. O modo que as instituições encontraram para garantir esse direito constitucional foi a implantação de conversores de texto em áudio. Porém, de modo geral, essas aplicações possuem um tom de voz robótico por não reconhecer pontuações, dificultando a imersão na mensagem e, consequentemente, seu entendimento.

Além de melhorar a experiência de pessoas que dependem de conversão de texto em voz, o Amazon Polly também está disponível em inglês e espanhol e, em conjunto com outros serviços da AWS, como o Amazon Translate, permite disponibilizar conteúdo online em texto e voz em outros idiomas com apenas um clique.

Como funciona a tecnologia:

Soluções como Text to Speech (TTS – texto para voz, em português) são possíveis graças às tecnologias de Machine Learning (Aprendizado de Máquinas) e Inteligência Artificial. O TTS funciona assim:

1. A inteligência artificial faz a leitura de um texto, sintetizando seu conteúdo e separando sílabas;
2. Depois que são separadas, as sílabas são relacionadas com seus fonemas pela Inteligência Artificial (IA);
3. A IA conecta as partes sintetizadas do texto, para que as frases sejam construídas de forma sonora.

Mesmo sendo avançada, o TTS ainda tem dificuldades para identificar pontuações e variações de tom de voz, o que resulta em um som mais artificial. Isso acontece porque há intervalos entre cada fonema.

Em busca de maior naturalidade e uma experiência melhor para os usuários, a AWS desenvolveu o Neural Text to Speech (NTTS), presente agora no Amazon Polly, permitindo vozes naturais e humanizadas. Esse é o caso da Camila, voz que segue o processo do TTS, mas traz uma camada extra de inteligência artificial. Essa etapa extra de AI reduz os intervalos entre os fonemas e auxilia na identificação de pontuação e timbre do som, criando uma experiência de áudio com mais fluidez e naturalidade.

O Amazon Polly com NTTS está disponível em diversos idiomas, com destaque para Português (Camila), Espanhol (Lupe) e Inglês com duas vozes (Joanna e Matthew). A tecnologia permite que um mesmo conteúdo possa ser lido por NTTS em mais de uma língua.

Existem diversas empresas especializadas em aplicar esta tecnologia, como é o caso da Audima, uma startup brasileira focada em inclusão digital para pessoas com limitações visuais e de leitura.

Com clientes como o Arquivo Nacional do Ministério da Justiça, o Instituto Ronald McDonald e o Portal Minha Vida, os serviços da startup permitem incluir uma ferramenta em sites que transmite em som os conteúdos escritos. Usuários com deficiência visual ainda podem controlar essa funcionalidade com comandos pré-definidos no teclado, para iniciar ou pausar o áudio.

Recent Posts

Cohesity obtém patente para aplicar IA diretamente em dados de backup corporativos

A Cohesity anunciou a concessão da Patente Nº 12.619.501 pelo Escritório de Patentes e Marcas…

13 horas ago

Para Diogo Cortiz, maior desafio da IA é a falta de capacidade crítica para questionar suas respostas

Diogo Cortiz, professor da PUC-SP e doutor em Tecnologias da Inteligência e Design Digital, tem…

15 horas ago

Agentes de IA vão dar “superpoderes” a profissionais de TI, diz DJ Sampath, da Cisco

DJ Sampath chegou aos Estados Unidos há 30 anos com oito dólares no bolso e…

16 horas ago

Chatbots de bancos e fintechs não entendem as emoções dos clientes, aponta estudo

A evolução da inteligência artificial nos serviços financeiros ainda esbarra em desafios relacionados à experiência…

16 horas ago

Motorola Solutions compra D-Fend por US$ 1,5 bilhão

A Motorola Solutions anunciou a assinatura de um acordo definitivo para adquirir a D-Fend Solutions,…

16 horas ago

Meta amplia controle para adolescentes

Nesta terça-feira (2), a Meta anunciou a expansão global de configurações de conteúdo para contas…

20 horas ago