309 views 3 mins

Perigo: clonagem de voz cada vez mais fácil

em Tecnologia
quarta-feira, 03 de abril de 2024

Um novo produto da OpenAI, criadora do ChatGPT, pode gerar um clone convincente da voz de qualquer pessoa usando apenas 15 segundos de áudio contendo a voz dessa pessoa – essa ferramenta vem sendo chamada Voice Engine.

Vivaldo José Breternitz (*)

A própria OpenAI está considerando muito arriscado o lançamento desse produto no mercado, e vem trabalhando para minimizar a ameaça de danos gerados pelo mau uso do mesmo, especialmente em um ano em que acontecerão eleições em países importantes, dentre eles, o Brasil.

Uma primeira versão do Voice Engine, bem menos poderosa, ficou pronta em 2022 e foi usada para a funcionalidade de conversão de texto em voz embutida no ChatGPT, a principal ferramenta de inteligência artificial da OpenAI.

Enquanto procura aumentar a segurança da ferramenta, visando impedir seu uso para fins indevidos (o que certamente acontecerá), a empresa vem trabalhando com parceiros que pretendem integrá-la em seus próprios aplicativos.

Um desses parceiros é a HeyGen, que oferece aos usuários a capacidade de gerar traduções de conteúdo digital, mas preservando o sotaque e a voz do falante original; por exemplo, com uma pequena amostra de áudio em português, pode-se gerar em áudio um livro inteiro escrito em inglês, e esse áudio, em português, manterá inclusive o sotaque do falante que forneceu a amostra.

Em outro caso, pesquisadores do Norman Prince Neurosciences Institute, instituição voltada à estudos sobre a saúde do cérebro, usaram um áudio de 15 segundos, de baixa qualidade, de uma jovem apresentando um trabalho escolar, para “restaurar a voz” que ela havia perdido devido a um tumor cerebral – textos digitados por ela agora geram áudios, com a voz original da jovem.

Mas enquanto a ferramenta da OpenAI se destaca pela facilidade de uso e pela pequena quantidade de áudio original necessária para gerar um clone convincente, produtos concorrentes já estão disponíveis, embora sejam menos eficientes.

Com apenas “alguns minutos de áudio”, empresas como a ElevenLabs dizem poder gerar um clone de voz; para tentar evitar fraudes, a empresa introduziu uma seleção de “vozes proibidas”, projetada para detectar e prevenir a criação de clones de voz de candidatos e políticos envolvidos em eleições, começando com aquelas que devem acontecer neste ano nos Estados Unidos e no Reino Unido.

Como temos dito, os governos, empresas e a sociedade como um todo devem combater seriamente essas clonagens criminosas, pelo mal que as mesmas podem fazer à democracia, às empresas e às pessoas comuns.

(*) Doutor em Ciências pela Universidade de São Paulo, é professor da FATEC SP, consultor e diretor do Fórum Brasileiro de Internet das Coisas – [email protected].