Geral Archives - Volyo Audiobooks https://volyoaudiobooks.com/category/geral/ Serviços e plataforma que transforma textos em áudios naturais com IA, promovendo acessibilidade, inclusão e inovação para empresas e editoras. Fri, 28 Mar 2025 11:39:58 +0000 pt-BR hourly 1 https://wordpress.org/?v=6.7.2 https://i0.wp.com/volyoaudiobooks.com/wp-content/uploads/2025/01/volyo-logomarca-07.png?fit=32%2C29&ssl=1 Geral Archives - Volyo Audiobooks https://volyoaudiobooks.com/category/geral/ 32 32 240359308 A revolução do aprendizado em áudio: por que sua empresa deveria apostar nisso https://volyoaudiobooks.com/a-revolucao-do-aprendizado-em-audio-por-que-sua-empresa-deveria-apostar-nisso/?utm_source=rss&utm_medium=rss&utm_campaign=a-revolucao-do-aprendizado-em-audio-por-que-sua-empresa-deveria-apostar-nisso https://volyoaudiobooks.com/a-revolucao-do-aprendizado-em-audio-por-que-sua-empresa-deveria-apostar-nisso/#respond Fri, 28 Mar 2025 11:37:52 +0000 https://volyoaudiobooks.com/?p=262 Nos últimos anos, podcasts, audiobooks e trilhas de aprendizagem em áudio deixaram de ser apenas entretenimento para se tornarem ferramentas estratégicas de ensino e desenvolvimento profissional. E a tendência só cresce. Durante a pandemia, 57% dos brasileiros começaram a ouvir podcasts (Pesquisa Globo/Ibope, 2021). E o mais interessante: o áudio vem ganhando espaço em escolas, […]

The post A revolução do aprendizado em áudio: por que sua empresa deveria apostar nisso appeared first on Volyo Audiobooks.

]]>

Nos últimos anos, podcasts, audiobooks e trilhas de aprendizagem em áudio deixaram de ser apenas entretenimento para se tornarem ferramentas estratégicas de ensino e desenvolvimento profissional. E a tendência só cresce.

Durante a pandemia, 57% dos brasileiros começaram a ouvir podcasts (Pesquisa Globo/Ibope, 2021). E o mais interessante: o áudio vem ganhando espaço em escolas, universidades e principalmente nos programas de T&D das empresas.

Mas o que faz o conteúdo em áudio ser tão eficaz?

Engajamento real: por que o áudio conecta mais?

O formato em áudio tem uma característica poderosa: engaja sem exigir atenção exclusiva. Alunos e colaboradores podem ouvir enquanto se deslocam, fazem tarefas domésticas ou estão no trânsito.

Estudos mostram que:

  • 65% dos alunos manifestaram interesse em aprender com podcasts (Ferreira & Silveira, 2021).
  • O áudio torna o aprendizado mais leve e humano, já que ouvir alguém explicando um tema costuma ser percebido como mais próximo e fácil de entender do que ler um texto extenso ou assistir a uma videoaula cansativa.

No ambiente corporativo, isso se traduz em colaboradores mais engajados, que consomem o conteúdo com mais frequência e no tempo que funciona para eles.

Democratização do acesso: aprender em qualquer lugar

O áudio também quebra barreiras geográficas e temporais.

  • Pode ser consumido em qualquer lugar, a qualquer hora.
  • Exige menos infraestrutura (não precisa de tela nem alta velocidade de internet).
  • Permite acesso a públicos com deficiência visual ou com dificuldade de leitura.

Ou seja, democratiza a aprendizagem, tornando o conhecimento mais acessível – algo especialmente importante em um país como o Brasil, com tanta diversidade de contextos e realidades.

Retenção e aprendizado efetivo

Engajamento é só o começo. O áudio também tem um impacto direto na retenção de conteúdo.

  • Ouvintes podem revisar o conteúdo quantas vezes quiserem.
  • A entonação, ritmo e emoção da voz ajudam a compreensão e memorização.
  • Em estudos com alunos do Ensino Médio, o uso de podcasts resultou em melhora no desempenho escolar (Viana et al., 2024).

No mundo corporativo, isso significa aplicação mais rápida e eficaz do conhecimento aprendido, seja em soft skills, compliance ou treinamentos técnicos.

Conclusão: a voz que ensina

O conteúdo em áudio está transformando a forma como aprendemos, treinamos e nos desenvolvemos. É acessível, engajador e eficaz. E o melhor: se adapta à vida real das pessoas.

Empresas e instituições que souberem usar esse recurso com estratégia vão capacitar mais, incluir mais e inspirar mais.

Referências:

  • Pesquisa Globo/Ibope (2021)
  • Ferreira & Silveira (2021). Uso de podcasts como recurso didático no ensino superior
  • Viana et al. (2024). Podcast como ferramenta no ensino médio
  • EBAC Online (2022). Conteúdo em áudio: muito além do podcast
  • isEazy (2024). Como o podcast está transformando o treinamento corporativo

Conheça o Studio Volyo Audiobooks

A forma mais fácil e acessível para criar audiolivros profissionais com o uso de IA.

The post A revolução do aprendizado em áudio: por que sua empresa deveria apostar nisso appeared first on Volyo Audiobooks.

]]>
https://volyoaudiobooks.com/a-revolucao-do-aprendizado-em-audio-por-que-sua-empresa-deveria-apostar-nisso/feed/ 0 262
Como adaptar notas de rodapé em audiolivros acadêmicos sem perder informação https://volyoaudiobooks.com/como-adaptar-notas-de-rodape-em-audiolivros-academicos-sem-perder-informacao/?utm_source=rss&utm_medium=rss&utm_campaign=como-adaptar-notas-de-rodape-em-audiolivros-academicos-sem-perder-informacao Sun, 02 Mar 2025 14:00:58 +0000 https://volyoaudiobooks.com/?p=219 A revolução do áudio está transformando a forma como consumimos conhecimento. Se antes os livros acadêmicos eram acessíveis apenas por meio da leitura tradicional, hoje plataformas como a Volyo Audiobooks possibilitam a conversão de textos científicos e acadêmicos para formatos de áudio acessíveis e de baixo custo. Isso amplia a difusão do conhecimento e torna […]

The post Como adaptar notas de rodapé em audiolivros acadêmicos sem perder informação appeared first on Volyo Audiobooks.

]]>

A revolução do áudio está transformando a forma como consumimos conhecimento. Se antes os livros acadêmicos eram acessíveis apenas por meio da leitura tradicional, hoje plataformas como a Volyo Audiobooks possibilitam a conversão de textos científicos e acadêmicos para formatos de áudio acessíveis e de baixo custo. Isso amplia a difusão do conhecimento e torna a pesquisa mais acessível. Mas um desafio surge: o que fazer com as notas de rodapé?

Em livros acadêmicos, as notas de rodapé desempenham um papel essencial. Elas esclarecem conceitos, aprofundam discussões e fornecem referências fundamentais. Mas, em um audiolivro, onde não há “rodapé”, simplesmente removê-las pode comprometer o entendimento e a credibilidade do texto. Então, como adaptar essas notas para o formato de áudio sem prejudicar a experiência do ouvinte?

Neste artigo, exploramos os desafios da adaptação de notas de rodapé para audiolivros acadêmicos e apresentamos estratégias práticas para manter a clareza e a integridade do conteúdo.


O problema: perder as notas significa perder informação?

A resposta curta: depende do tipo de nota.

Notas que apenas citam referências bibliográficas podem ser omitidas no áudio sem comprometer o entendimento do texto. No entanto, notas que contêm explicações, exemplos ou informações adicionais podem ser essenciais para o público acadêmico. Estudos indicam que, quando essas notas são removidas sem adaptação, há perda de contexto e até de significado na argumentação.

Por exemplo, o audiolivro de Infinite Jest (A Piada Infinita) do autor David Foster Wallace, foi lançado inicialmente sem suas famosas “endnotes” (notas de rodapé extensas), mas a falta dessas notas impactou tanto o entendimento da obra que uma versão separada com as notas narradas teve que ser lançada. Isso evidencia como a exclusão de notas pode alterar a percepção do conteúdo.


Estratégias para adaptar notas de rodapé em audiolivros

1. Incorporar as notas no próprio texto

Uma abordagem eficaz é reformular as informações essenciais das notas e incluí-las de forma natural no corpo do texto. Isso pode ser feito de maneira fluida, sem interromper a narrativa, usando expressões como:

➡ “Ou seja, …”

➡ “Em outras palavras, …”

➡ “Como explica tal autor, …”

Essa estratégia funciona bem para notas explicativas e evita interrupções bruscas na narração.

2. Sinalizar as notas no áudio

Quando uma nota precisa ser mantida integralmente, ela pode ser lida separadamente, com uma introdução clara, como:

📌 “Nota do autor: …”

📌 “Curiosidade: …”

📌 “Informação complementar: …”

Algumas produções utilizam efeitos sonoros sutis ou mudanças de entonação para diferenciar as notas do texto principal.

3. Agrupar as notas no final de cada capítulo

Outra alternativa é reunir todas as notas em uma seção específica ao final de cada capítulo. Assim, o ouvinte pode escolher ouvir todas as notas seguidas, sem interromper a fluidez da narrativa principal.

4. Fornecer um material complementar em PDF

Muitos audiolivros acadêmicos optam por disponibilizar um arquivo em PDF com todas as referências bibliográficas e notas adicionais. Essa solução permite que o ouvinte tenha acesso às informações completas sem comprometer a experiência de escuta.


O futuro da produção acadêmica em áudio

A adaptação de textos acadêmicos para audiolivros é um avanço significativo para a democratização do conhecimento. A possibilidade de consumir conteúdos complexos em formato de áudio facilita a aprendizagem para um público mais amplo, incluindo pesquisadores, estudantes e até profissionais que desejam se atualizar enquanto realizam outras atividades.

O Studio Volyo Audiobooks oferece uma solução inovadora para transformar textos acadêmicos em áudio de forma acessível e eficiente. Com tecnologia de ponta, é possível criar audiolivros que preservam toda a riqueza do conteúdo original, garantindo que mesmo as notas de rodapé sejam adaptadas sem perda de informação.

Quer transformar seu livro ou artigo acadêmico em um audiolivro de qualidade? Experimente o Studio Volyo Audiobooks e leve sua pesquisa para um novo patamar!


Gostou deste artigo? Compartilhe com colegas e pesquisadores que possam se interessar por essa inovação na disseminação do conhecimento!

The post Como adaptar notas de rodapé em audiolivros acadêmicos sem perder informação appeared first on Volyo Audiobooks.

]]>
219
Audiobooks narrados por IA, uma boa opção para a acessibilidade https://volyoaudiobooks.com/audiobooks-narrados-por-ia-uma-boa-opcao-para-a-acessibilidade/?utm_source=rss&utm_medium=rss&utm_campaign=audiobooks-narrados-por-ia-uma-boa-opcao-para-a-acessibilidade Fri, 14 Feb 2025 21:35:00 +0000 https://volyoaudiobooks.com/?p=131 No mundo em rápida evolução da tecnologia, os audiolivros emergem como uma ponte entre a literatura tradicional e a era digital. Eles representam uma forma de engajar os leitores em um novo nível, proporcionando uma experiência auditiva enriquecedora. A inteligência artificial (IA), por sua vez, é a força motriz por trás de muitas inovações tecnológicas […]

The post Audiobooks narrados por IA, uma boa opção para a acessibilidade appeared first on Volyo Audiobooks.

]]>

No mundo em rápida evolução da tecnologia, os audiolivros emergem como uma ponte entre a literatura tradicional e a era digital. Eles representam uma forma de engajar os leitores em um novo nível, proporcionando uma experiência auditiva enriquecedora. A inteligência artificial (IA), por sua vez, é a força motriz por trás de muitas inovações tecnológicas contemporâneas, incluindo a síntese de voz que possibilita audiolivros autonarrados por IA.

A acessibilidade na leitura é uma questão crucial que ressoa profundamente com editoras e autores que trabalham com editais de governo. A falta de acessibilidade pode barrar muitos indivíduos de explorar o mundo do conhecimento e da imaginação encapsulado nos livros. Neste cenário, os audiolivros narrados por IA emergem como uma solução inovadora, proporcionando uma plataforma inclusiva para todos, independentemente de suas habilidades físicas ou barreiras linguísticas.

Benefícios dos Audiolivros com IA para Acessibilidade

  • Diversidade de Vozes: A IA permite uma ampla gama de vozes que podem ser personalizadas para se adequar ao texto e ao público-alvo. Podem possuir uma variedade de tons, sotaques e estilos, oferecendo uma experiência auditiva rica e diversificada.
  • Benefícios para Pessoas com Deficiências de Fala ou Barreiras de Idioma: Audiolivros narrados por IA podem ser uma bênção para indivíduos com deficiências de visão ou barreiras de idioma, permitindo-lhes acessar conteúdo literário em uma forma que é mais acessível e compreensível.
  • Expansão da Disponibilidade de Audiolivros: Com a IA, a produção de audiolivros torna-se mais eficiente e menos demorada, expandindo assim a disponibilidade de audiolivros. Isso é especialmente benéfico para editoras que trabalham com ditais de governo, que podem agora oferecer uma gama mais ampla de materiais em formato auditivo.
  • Economia e Eficiência: Os audiolivros criados com IA são uma opção mais econômica em comparação com a contratação de narradores humanos. A produção automatizada permite uma criação de audiolivros mais rápida e com custos significativamente reduzidos, uma vantagem considerável, especialmente em projetos governamentais onde a eficiência de custos é imperativa.

Iniciativas de Empresas como a Volyo Audiobooks

A Volyo Audiobooks é uma empresa que se destaca pela sua iniciativa em converter textos escritos em audiolivros através de modelos de síntese de voz de IA. A eficiência e precisão de suas conversões fazem dela uma escolha ideal para editoras que buscam expandir sua oferta de audiolivros.

Vocês podem ouvir aqui neste aplicativo algumas amostras das vozes usadas pela Volyo: https://audioteca.volyo.com.br/

Aplicativo de amostras das vozes usadas pela Volyo Audiobooks

Conclusão

Os audiolivros narrados por IA têm um potencial imenso em tornar a leitura mais acessível. Para editoras e autores que trabalham com ditais de governo, esta inovação não apenas alinha-se com os objetivos de acessibilidade, mas também oferece uma maneira eficaz e econômica de expandir o alcance de seus trabalhos. A Volyo Audiobooks emerge como um parceiro confiável nesta jornada, proporcionando a tecnologia necessária para transformar textos escritos em experiências auditivas enriquecedoras. Encorajamos você a entrar em contato e explorar as possibilidades que os audiolivros narrados por IA podem oferecer.

The post Audiobooks narrados por IA, uma boa opção para a acessibilidade appeared first on Volyo Audiobooks.

]]>
131
Audiolivros narrados por IA: novas oportunidades https://volyoaudiobooks.com/audiolivros-narrados-por-ia-novas-oportunidades/?utm_source=rss&utm_medium=rss&utm_campaign=audiolivros-narrados-por-ia-novas-oportunidades Fri, 14 Feb 2025 21:31:49 +0000 https://volyoaudiobooks.com/?p=127 Tem uma frase do Murilo Gun (@murilogun) que gosto muito e que soa mais ou menos assim: “A criatividade é a capacidade de usar a imaginação para resolver problemas. A inovação é a criatividade emitindo nota fiscal…” Dentro desta frase está a essência da empresa Volyo Audiobooks , fundada ano passado por mim e minha […]

The post Audiolivros narrados por IA: novas oportunidades appeared first on Volyo Audiobooks.

]]>

Tem uma frase do Murilo Gun (@murilogun) que gosto muito e que soa mais ou menos assim: “A criatividade é a capacidade de usar a imaginação para resolver problemas. A inovação é a criatividade emitindo nota fiscal…

Dentro desta frase está a essência da empresa Volyo Audiobooks , fundada ano passado por mim e minha esposa Juliana Mourinho Tavares.: levar INOVAÇÃO e o conhecimento para todas as pessoas que o desejam, com soluções práticas e de qualidade na área do audiobook autonarrado.

A narração é boa?

Muitos editores possuem um receio quanto aos audiolivros que usam vozes sintéticas. E eu entendo bem isso! Também concordo que a narração é muitas vezes mecânica e pouco fluida.

Mas este tipo de tecnologia que faz uso do sistema de TTS (text-to-speech) pode ser realmente de grande ajuda porque ela oferece a oportunidade para pequenos e médios editores de entrar no mercado de audiolivros, mercado, que nos últimos anos vem crescendo cada vez mais. Além disso é uma tecnologia que pode ser perfeita para livros de não-ficção ou para aqueles livros de fundo de catálogo mas que possuem ainda muito a dizer.

Neste ponto a Volyo Audiobooks fez parceria com a Bookwire e podemos te ajudar.

Além de usarmos uma tecnologia de vozes neurais que gera uma voz com uma sonoridade natural e que tem os padrões e a entonação das vozes humanas, nós fazemos isso dando uma atenção especial à preparação do texto.

Muitos sistemas de leitura automática não funcionam bem porque o texto não é bem preparado e porque a tecnologia usada é pouco eficiente. Assim, usando uma tecnologia mais evoluída e um trabalho de edição feito com atenção conseguimos resultados muito bons.

Descobrimos, por exemplo, que nem todos os textos funcionam bem para a leitura com vozes neurais artificiais. Às vezes precisamos mudar a pontuação, aplicar um léxico específico e criado por nós ou dividirmos os parágrafos do texto de forma diferente. Além disso, algumas vozes neurais artificiais funcionam melhor do que outras para um tipo de texto ou outro. Todo este trabalho de preparação faz com que o resultado seja superior ao que vemos no mercado em geral.

Alguns exemplos de áudiolivros produzidos para a Skeelo em parceria com a Bookwire.

Qual o melhor texto para vozes autonarradas?

Por enquanto estamos oferecendo o serviço para textos de não-ficção. De fato, estes textos mais técnicos exigem uma leitura mais atenta, menos emocional, mais clara e mais direta. As vozes neurais que fazem uso de inteligência artificial conseguem atender muito bem este tipo de conteúdo e com a preparação de texto que fazemos, o resultado surpreende.

A tecnologia como ferramenta

Sempre defendi a ideia de que a tecnologia é apenas uma ferramenta. A inteligência artificial, é uma ferramenta que se bem usada pode realmente contribuir para a melhoria do nosso mercado editorial.

A inteligência artificial, é uma ferramenta que se bem usada pode realmente contribuir para a melhoria do nosso mercado editorial.

No caso da áudio narração os recursos de conversão de texto em voz estão cada vez mais sofisticados e avançados. Não tanto como desejaríamos, visto que em língua inglesa os avanços são maiores ainda.

Na Volyo Audiobooks conseguimos construir mais de 50 vozes diferentes em português brasileiro, entre vozes femininas e masculinas, de adultos e crianças. São as vozes “publicas”, assim chamadas porque não são imitação de uma voz humana específica. Existe sim este recurso, ou seja copiar a voz de uma pessoa, mas para a língua portuguesa ainda não é uma tecnologia que funcione bem e ainda precisamos entender melhor como usar isso de forma construtiva e preservando os direitos autorais das vozes.

Produzimos audiobooks também em inglês, espanhol e italiano.

Optamos por produzir somente as línguas onde conseguimos pessoas que possam escutar e avaliar a qualidade da leitura, além de poder corrigir as pronúncias usando um léxico fonético específico.

Ou seja, a tecnologia é nossa ferramenta, mas quem faz a qualidade somos nós.

A tecnologia é nossa ferramenta, mas quem faz a qualidade somos nós.

Por onde o editor pode começar

Bem, eu diria que a primeira coisa é escolher um bom texto que seja de não-ficção.

Saiba que no audiolivro serão necessárias algumas adaptações, como retirar imagens, adaptar notas, gráficos, etc… cuidamos de tudo isso para você, mas se conseguir um texto mais simples pode ser mais fácil começar.

Eu aconselho a experimentar o mercado. Fazer experiências. Colocar em audiobook aquele livro fora de catálogo que você possui e que ainda tem muito para contar. Experimentar com textos curtos ou médios.

Peça o acesso ao catálogo de vozes que temos disponíveis e faça um teste  com vozes diferentes. Você vai ver que também nas narrações sintetizadas é preciso escolher o tipo de voz com muita atenção para que funcione bem com o texto.

Além disso, se você possui livros em espanhol ou inglês, você pode chegar a este público com uma qualidade excelente a um custo contido.

Faça as suas experiências e não perca esta oportunidade de usar esta ferramenta tecnológica para levar o seu conteúdo mais longe.

Fácil acesso ao mercado de audiobooks

Para você que já distribui com a Bookwire Brasil o acesso a este mercado de audiolivros ficou mais simples. Com a parceria da Volyo Audiobooks com a Bookwire você pode produzir seu livro a custo acessível e a um bom prazo, permitindo que você experimente este mercado  oferecendo seu conteúdo a mais pessoas.

The post Audiolivros narrados por IA: novas oportunidades appeared first on Volyo Audiobooks.

]]>
127
Audiolivros autonarrados por IA: um panorama geral https://volyoaudiobooks.com/audiolivros-autonarrados-por-ia-um-panorama-geral/?utm_source=rss&utm_medium=rss&utm_campaign=audiolivros-autonarrados-por-ia-um-panorama-geral Fri, 14 Feb 2025 21:20:46 +0000 https://volyoaudiobooks.com/?p=119 Com a chegada da Audible no Brasil, a popularidade dos audiolivros no mercado editorial aumentou. Muitas editoras estão correndo para produzir seus livros neste formato, que tem ganhado a atenção do público. Em um mundo cada vez mais agitado, a conveniência de consumir conteúdo auditivo enquanto se está em trânsito ou executando outras tarefas é […]

The post Audiolivros autonarrados por IA: um panorama geral appeared first on Volyo Audiobooks.

]]>

Com a chegada da Audible no Brasil, a popularidade dos audiolivros no mercado editorial aumentou. Muitas editoras estão correndo para produzir seus livros neste formato, que tem ganhado a atenção do público. Em um mundo cada vez mais agitado, a conveniência de consumir conteúdo auditivo enquanto se está em trânsito ou executando outras tarefas é atraente.

O áudio apresenta vantagens expressivas, especialmente em um país com índices de alfabetização desafiadores. Embora não vise substituir a leitura tradicional, amplia o acesso a conteúdos educacionais, sendo, além de tudo, um recurso valioso para a inclusão de pessoas com deficiência visual.

Diante da ampla gama de conteúdos disponíveis, vislumbrar a transformação de todos em audiolivros já se apresenta como uma tarefa quase impossível. Uma seleção criteriosa de títulos é necessária como corte inicial que priorize a parcela do catálogo com maior possibilidade de oferecer retorno e programas como o “WAY (We Audiobook You)”, da Bookwire, com certeza ajuda muito nessa criação de catálogo inicial.

Mas, e quanto aos conteúdos menos populares mas igualmente valiosos? É aqui que o audiolivro autonarrado por IA, através da tecnologia Text-To-Speech (TTS), se torna relevante.

Panorama histórico do TTS

No século XVIII, o cientista húngaro Wolfgang von Kempelen construiu uma máquina falante usando diversos mecanismos para produzir palavras simples e frases curtas. O desejo de fazer as máquinas falarem não é de hoje! Quem for curioso tem um vídeo no YouTube que demonstra o funcionamento desta máquina rudimentar: https://youtu.be/k_YUB_S6Gpo?si=ZA3BW2sWq-ShZXKK

Mas é a partir da chegada dos computadores que este processo ganhou realmente importância. Sem entrar muito em meandros técnicos, é interessante entender que  existem várias formas de criar vozes sintéticas por computador.

Um dos primeiros modos de criar voz com o computador é a síntese vocal articulatória, ou seja, a tentativa de imitar o comportamento dos articuladores de som humanos, como lábios, língua, glote e trato vocal móvel. Em teoria deveria ser o modo mais eficaz, mas na realidade não conseguimos coletar os dados para criar estas simulações o que deixa o resultado muito aquém do esperado.

Depois temos a síntese vocal formante que é um método que usa um conjunto de regras pré-definidas. Essas regras são feitas por linguistas para imitar as características naturais da fala humana. O processo utiliza um modelo simplificado que ajusta certos parâmetros, como a frequência e o nível de ruído, para gerar som. Uma vantagem desse método é que ele pode produzir fala clara sem necessitar de muitos recursos computacionais ou de um grande banco de dados de gravações de voz humana, tornando-o adequado para sistemas com recursos limitados. No entanto, a fala gerada pode soar menos natural e pode ser difícil definir as regras para fazer a síntese, especialmente para diferentes sons ou idiomas.

Temos ainda a síntese vocal concatenativa. Imagine que temos várias gravações de alguém falando. Agora, queremos fazer o computador dizer algo novo. O que fazemos é pegar pedaços dessas gravações que já temos e juntá-los para formar as novas palavras e frases que queremos que o computador diga. Existem dois modos principais de fazer isso. Um deles pega pedaços bem pequenos das gravações, como o som de duas letras juntas. O outro pode pegar pedaços maiores, até mesmo frases inteiras, e tem muitos exemplos diferentes de cada pedaço no banco de dados para escolher.

Esse método pode fazer o computador soar bastante claro e parecido com a pessoa que foi gravada originalmente. Mas tem algumas desvantagens. Precisa de um monte de gravações para começar, e mesmo assim, o som gerado pode não ser muito natural ou expressar emoções muito bem, pois juntar os pedaços pode deixar a fala um pouco desajeitada. Quem já não ouviu um TTS assim? A voz não soa natural e nem sempre a pronúncia é correta, sobretudo nas palavras homófonas.

Vozes Cada Vez Mais Naturais

Com a chegada da Síntese vocal paramétrica estatística as coisas se tornam mais complexas, inclusive de explicar. Por enquanto basta saber que, ao invés de criar ondas sonoras diretamente juntando pedaços de áudio, é necessário primeiro gerar os parâmetros acústicos necessários para produzir a fala, e depois recuperar essa fala usando alguns algoritmos. Com o avanço rápido da capacidade computacional e a chegada das chamadas redes neurais  esta tecnologia avançou rapidamente, tendo inúmeras variações até chegarmos ao que chamamos hoje de Neural TTS.

Com o Neural TTS, os computadores podem aprender a falar de maneira mais natural, usando redes neurais, que são como um modelo do cérebro humano, para entender e copiar a maneira como falamos. Alguns dos primeiros modelos, como o WaveNet, conseguem criar sons de fala diretamente a partir do texto, tornando tudo mais simples e direto.

Ao longo do tempo, diversos modelos emergiram, aprimorando-se continuamente na conversão de texto em fala de maneira natural e clara, com mínima intervenção humana para ajustes ou correções. Desde 2017, o progresso nesse campo foi notável, refletido pelo volume expressivo de pesquisas publicadas. O termo “Vozes Neurais“, indo além de seu viés mercadológico, refere-se a uma série de tecnologias em evolução contínua que visam replicar a fluidez da leitura humana.

A Microsoft tem liderado o campo, especialmente em pesquisa e desenvolvimento, seguida por outras gigantes tecnológicas. No Brasil, a escassez de investimento em pesquisa tem retardado avanços independentes, tornando a criação de uma voz com tecnologia nacional um desafio.

Implementação prática

Na prática temos várias iniciativas de criar sistemas de vozes que leiam bem e respeitem os dois critérios usados para avaliar uma voz neural: inteligibilidade e naturalidade. (Intelligibility and naturalness).

Em geral quando pensamos em vozes neurais nos vem em mente o sistema de clonagem de voz e todas as questões éticas e morais envolvidas com isso. Mas TTS não é isso. Aliás, eu diria que este recurso não funciona tão bem na nossa língua portuguesa, sobretudo em textos longos como um audiolivro, por exemplo.

Tomadas todas as precauções jurídicas, éticas e morais, o TTS é uma ótima solução quando você tem alguma destas situações (ou todas):

  • Textos de não ficção que não precisam de variações de emoção na leitura
  • Orçamento ou tempo restritivos para produções longas
  • Foco em oferecer um conteúdo acessível barato e rápido
  • Desejo de personalizar a leitura com vozes únicas e irrepetíveis
  • Vontade de experimentar um modo diferente de distribuir seu conteúdo

Boa parte do catálogo de livros que temos no Brasil pode tirar vantagem das vozes artificiais neurais, sem que isso impacte o mercado da locução profissional, mas pelo contrário, fomentando ainda mais o mercado de áudio.

Mas… não basta apertar o botãozinho!

Para criar uma narração com voz neural não é suficiente apertar um botão. Assim como para a narração profissional com voz humana é necessário um roteiro, uma adaptação e uma preparação do texto para que o sistema possa ler da melhor forma possível.

Este ano, além de me dedicar aos livros digitais, mergulhei na jornada do audiolivro autonarrado junto à Volyo Audiobooks. Descobrimos que a preparação do texto é uma etapa crucial do processo. Ademais, nem todas as vozes se harmonizam bem com todos os tipos de texto. É necessário realizar testes e seleções criteriosas, pois mesmo sendo vozes artificiais, parece que cada uma tem sua própria “personalidade” que se encaixa melhor com determinados textos.

Existe o trabalho de “roteirização” a ser realizado, definindo os pontos em que a voz irá expressar uma reação ou emoção específica. Em alguns sistemas, isso é alcançado através de uma linguagem de marcação de texto chamada Linguagem de Marcação para Síntese de Fala (SSML, na sigla em inglês). Porém, em outros modelos de vozes, é o próprio sistema (a IA) que interpreta o texto, o que pode tornar o controle da narração um desafio. É como ter um narrador talentoso, mas que insiste em improvisar ao invés de seguir o roteiro!

Além disso as vozes neurais mais sofisticadas, ou que parecem ter uma semelhança maior com a voz humana e até expressar emoções, possuem uma instabilidade muito grande na leitura de longos textos, trazendo resultados ruins no quesito naturalidade. Este é um grande desafio para as vozes neurais. Um estudo sobre este problema foi apresentado este ano por pesquisadores da Apple na tentativa de encontrar soluções.

Ajustes Necessários para o Mercado Brasileiro

Apesar dos avanços notáveis do TTS (Tecnologia de Síntese de Fala), ainda temos um caminho considerável pela frente, especialmente ao considerar sua adaptação ao contexto brasileiro. O português falado no Brasil, com sua vasta gama de dialetos e sotaques, configura um desafio singular para a tecnologia de TTS.

A escassez de investimento em pesquisa, mencionada anteriormente, é um empecilho significativo, contudo, pode ser atenuada através de parcerias estratégicas com empresas internacionais e instituições acadêmicas. O desenvolvimento de uma voz tecnologicamente brasileira é uma questão de necessidade prática para assegurar que os audiolivros sejam acessíveis e atrativos para todos os brasileiros

Além disso, para que o TTS seja amplamente aceito e utilizado, é crucial conhecer mais sobre o assunto e saber administrar as expectativas que editoras, autores e o público em geral podem ter, entendendo melhor os benefícios e limitações do TTS. Essa tecnologia pode ampliar o alcance dos livros e torná-los mais acessíveis.

Concluindo

Um ponto já tocado mas que deve ser  reiterado: TTS (Tecnologia de Síntese de Fala) não é sinônimo de clonagem de voz, e muito menos de clonagem de voz desrespeitando direitos autorais. Trata-se de uma ferramenta adicional que os editores têm à disposição para ampliar o alcance de seu conteúdo. Utilizar o TTS não significa eliminar o mercado de narradores humanos, há espaço para ambos.

O cenário para o TTS no Brasil é animador, com potencial para  transformar e ampliar o acesso à literatura e à informação. Com investimentos robustos em pesquisa e desenvolvimento, somados a uma abordagem inclusiva e colaborativa, o Brasil tem tudo para se destacar no cenário de TTS e narração autônoma, inaugurando uma nova era de acessibilidade e difusão literária.

The post Audiolivros autonarrados por IA: um panorama geral appeared first on Volyo Audiobooks.

]]>
119