A Xiaomi revelou a sua mais recente aplicação de algoritmos avançados e tecnologia de voz autodesenvolvida para o campo da acessibilidade. A tecnologia Text-To-Speech de estilo espontâneo, que é desenvolvida pelo Xiaomi AI Lab, é utilizada para gerar uma voz única e personalizada para um utilizador com perturbações da fala.
O utilizador pode agora comunicar com outros utilizando “a sua própria voz”, em vez de uma típica voz eletrónica monótona. Como parte do projeto de pré-investigação “Own My Voice” liderado pelo Comité Técnico da Xiaomi, esta tentativa bem-sucedida demonstra o empenho da Xiaomi na “Tecnologia para o Bem” e em alcançar a sua missão de “deixar que todos no mundo desfrutem de uma vida melhor através de tecnologia inovadora”.
Zhu Xi, responsável do Comité Tecnológico sobre “Tecnologia para o Bem” da Xiaomi Corporation, diz que a empresa está entusiasmada por “explorar os múltiplos valores que a inovação tecnológica nos traz, tais como responder às exigências dos utilizadores em relação à sua identidade e à construção da identidade”.
A fim de gerar a voz mais adequada e personalizada para o destinatário, a equipa recrutou mais de 200 voluntários dentro da Xiaomi para doarem as suas vozes. Utilizaram o algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Tendo em conta a personalização e proteção da privacidade, a voz real escolhida foi manipulada com modificações acústicas complexas para formar um som de voz novo e original.
De seguida, utilizaram a tecnologia Text-To-Speech de estilo espontâneo para treinar o modelo AI, fazendo com que esta nova voz ganhasse gradualmente um ritmo natural e uma entoação capaz de expressar com verdade a emoção e o tom de um humano.
O projeto “Own My Voice” combina uma variedade dos algoritmos mais avançados com a tecnologia de fala autodesenvolvida da Xiaomi para assegurar a especificidade, segurança e elevada genuinidade da voz sintetizada, criando uma nova ideia de síntese. A tecnologia Text-To-Speech de estilo espontâneo torna a voz sintetizada como a de um verdadeiro ser humano na sua entoação, pausa, velocidade e outras características. Isto substitui a sensação monótona e antinatural da voz eletrónica por uma voz mais natural. Atualmente, esta tecnologia aplica-se a muitos dispositivos inteligentes equipados com Xiaoai, o assistente de voz AI da Xiaomi. O projeto “Own My Voice” mostra que a tecnologia Text-To-Speech de estilo espontâneo também pode ser amplamente adotada em áreas de acessibilidade e melhorar a experiência do utilizador.