Notícias

Como funciona a Camila, IA humanizada da AWS que converte texto em voz

Aplicação alia Inteligência Artificial e Machine Learning para garantir maior fluência no texto e melhorar a experiência do usuário

A Amazon Web Services (AWS) anuncia o lançamento da Camila, a primeira voz neural brasileira do Amazon Polly, serviço de conversão de texto em voz que utiliza tecnologia Neural Text to Speech (NTTS), baseada em Inteligência Artificial e Machine Learning. Com o NTTS, a ferramenta apresenta uma voz humanizada, com capacidade de identificar pontuações e oferecer maior fluência aos textos.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Segundo o IBGE, há no Brasil mais de 6,5 milhões de pessoas com deficiência visual, sendo 582 mil cegas e 6 milhões com baixa visão. Além disso, segundo dados do mesmo instituto, cerca de 11,3 milhões de brasileiros são analfabetos.

A legislação brasileira prevê, na Lei n° 13.146, de 6 de julho de 2015, a obrigatoriedade das empresas brasileiras, ou com operações no país, assim como de organizações governamentais, garantir o acesso à informação em seus sites. O modo que as instituições encontraram para garantir esse direito constitucional foi a implantação de conversores de texto em áudio. Porém, de modo geral, essas aplicações possuem um tom de voz robótico por não reconhecer pontuações, dificultando a imersão na mensagem e, consequentemente, seu entendimento.

Além de melhorar a experiência de pessoas que dependem de conversão de texto em voz, o Amazon Polly também está disponível em inglês e espanhol e, em conjunto com outros serviços da AWS, como o Amazon Translate, permite disponibilizar conteúdo online em texto e voz em outros idiomas com apenas um clique.

Como funciona a tecnologia:

Soluções como Text to Speech (TTS – texto para voz, em português) são possíveis graças às tecnologias de Machine Learning (Aprendizado de Máquinas) e Inteligência Artificial. O TTS funciona assim:

1. A inteligência artificial faz a leitura de um texto, sintetizando seu conteúdo e separando sílabas;
2. Depois que são separadas, as sílabas são relacionadas com seus fonemas pela Inteligência Artificial (IA);
3. A IA conecta as partes sintetizadas do texto, para que as frases sejam construídas de forma sonora.

Mesmo sendo avançada, o TTS ainda tem dificuldades para identificar pontuações e variações de tom de voz, o que resulta em um som mais artificial. Isso acontece porque há intervalos entre cada fonema.

Em busca de maior naturalidade e uma experiência melhor para os usuários, a AWS desenvolveu o Neural Text to Speech (NTTS), presente agora no Amazon Polly, permitindo vozes naturais e humanizadas. Esse é o caso da Camila, voz que segue o processo do TTS, mas traz uma camada extra de inteligência artificial. Essa etapa extra de AI reduz os intervalos entre os fonemas e auxilia na identificação de pontuação e timbre do som, criando uma experiência de áudio com mais fluidez e naturalidade.

O Amazon Polly com NTTS está disponível em diversos idiomas, com destaque para Português (Camila), Espanhol (Lupe) e Inglês com duas vozes (Joanna e Matthew). A tecnologia permite que um mesmo conteúdo possa ser lido por NTTS em mais de uma língua.

Existem diversas empresas especializadas em aplicar esta tecnologia, como é o caso da Audima, uma startup brasileira focada em inclusão digital para pessoas com limitações visuais e de leitura.

Com clientes como o Arquivo Nacional do Ministério da Justiça, o Instituto Ronald McDonald e o Portal Minha Vida, os serviços da startup permitem incluir uma ferramenta em sites que transmite em som os conteúdos escritos. Usuários com deficiência visual ainda podem controlar essa funcionalidade com comandos pré-definidos no teclado, para iniciar ou pausar o áudio.

Next Você está preparado para ser um profissional ágil? »

Previous « Os 6 crimes cibernéticos mais comuns na Black Friday

Published by

Redação

7 anos ago

O paradoxo da abundância: por que a “crise de inteligência de 2028” subestima o fator humano

Por Leonardo Tristão Recentemente, passou a circular nos altos escalões corporativos um relatório provocativo intitulado "The 2028 Global…

11 minutos ago

Notícias

Empresas não sabem como comprar IA, e esse é o maior obstáculo da adoção, diz executivo da HPE

A maioria das empresas que hoje investe em inteligência artificial não sabe exatamente quem deve…

16 horas ago

Notícias

Datamint capta R$ 25 milhões em rodada seed liderada pela Headline

A Datamint, startup brasileira de inteligência artificial (IA) voltada à gestão de ativos em operações…

16 horas ago

Notícias

Consumidores ainda resistem a delegar pagamentos a agentes de IA, indica Forrester

Os consumidores ainda não estão preparados para permitir que agentes de inteligência artificial (IA) realizem…

17 horas ago

Notícias

Anthropic alerta governo Trump sobre riscos cibernéticos expostos por modelos avançados de IA

A Anthropic intensificou seus alertas ao governo dos Estados Unidos sobre os riscos cibernéticos associados…

18 horas ago

Notícias

HPE une rede e segurança e mira fim da gestão fragmentada

Por anos, equipes de TI operaram segurança e rede como disciplinas separadas, com ferramentas distintas,…