A OpenAI está a oferecer acesso limitado a uma plataforma de geração de texto para voz desenvolvida pela empresa, chamada Voice Engine, que pode criar uma voz sintética baseada num excerto de 15 segundos da voz de alguém. A voz gerada por IA pode ler instruções de texto sob comando no mesmo idioma do locutor ou em vários outros idiomas. “Essas implantações em pequena escala estão a ajudar a informar a nossa abordagem sobre como o Voice Engine poderia ser usado em prol de vários setores”, disse a OpenAI.
As organizações com acesso à experiência incluem a empresa de tecnologia educacional Age of Learning, a plataforma de narrativa visual HeyGen, o fabricante de software de saúde Dimagi, o criador da aplicação de comunicação de IA Livox e o sistema de saúde Lifespan.
Nos exemplos postados pela OpenAI, pode ouvir-se o que Age of Learning tem feito com a tecnologia para gerar conteúdo de narração pré-definido, bem como ler “respostas personalizadas em tempo real” para alunos escritas por GPT-4 .
A OpenAI diz que começou a desenvolver o Voice Engine no final de 2022 e que a tecnologia já alimentou vozes predefinidas para a API de conversão de texto em fala e o recurso Read Aloud do ChatGPT. Jeff Harris, membro da equipa de produto da OpenAI para Voice Engine, disse que o modelo foi treinado “numa combinação de dados licenciados e disponíveis publicamente”. A OpenAI esclarece que o modelo estará disponível apenas para cerca de 10 desenvolvedores.
A geração de texto para áudio por IA é uma área da IA generativa que continua a evoluir. Embora a maioria se concentre em sons instrumentais ou naturais, poucos se concentram na geração de voz, em parte devido às questões citadas pela OpenAI. Alguns nomes incluem empresas como Podcastle e ElevenLabs, que fornecem tecnologia e ferramentas de clonagem de voz de IA que a Vergecast explorou no ano passado.
Ao mesmo tempo, o governo dos Estados Unidos está a tentar coibir o uso antiético da tecnologia de voz de IA. No mês passado, a Comissão Federal de Comunicações proibiu chamadas automáticas usando vozes de IA depois de ter havido relatos de chamadas de spam de uma voz clonada por IA do presidente Joe Biden.
De acordo com a OpenAI, os seus parceiros concordaram em cumprir com as as políticas de uso que obriga, a não se usar a Geração de Voz para se fazer passar por pessoas ou organizações sem o seu consentimento. Também exige que os parceiros obtenham o “consentimento explícito e informado” do orador original, não criem ferramentas que possibilitem que os utilizadores individuais criem as suas próprias vozes e divulguem aos ouvintes que as vozes são geradas por IA.
A OpenAI sugeriu várias etapas que acredita que poderiam limitar os riscos de utilização de ferramentas como estas, incluindo a eliminação progressiva da autenticação baseada em voz para aceder a contas bancárias, políticas para proteger o uso da voz das pessoas na IA, maior educação sobre deepfakes de IA e desenvolvimento de sistemas de rastreamento de conteúdo de IA.
Fonte: The Verge










