Nos dias de hoje, a inteligência artificial (IA) está a transformar rapidamente a forma como interagimos com a tecnologia. Os chatbots de IA, por exemplo, têm mostrado uma capacidade impressionante para manter conversas fluidas, responder a perguntas e analisar dados. No entanto, para alcançar tais feitos, as empresas de IA precisam de treinar os seus modelos de linguagem com vastas quantidades de dados. Este processo, embora essencial, tem gerado controvérsia, especialmente no que diz respeito à origem desses dados.
As grandes empresas tecnológicas, responsáveis pelo desenvolvimento das soluções de IA mais avançadas, têm sido pouco transparentes sobre a proveniência dos dados utilizados para treinar os seus modelos. Recentemente, uma investigação da Proof News revelou que empresas como Apple, Anthropic, Nvidia e Salesforce recorreram a dados do YouTube para este fim.
Subtítulos do YouTube como Fonte de Dados
De acordo com o relatório, uma organização sem fins lucrativos chamada EleutherAI recolheu subtítulos de 173.536 vídeos do YouTube, provenientes de mais de 48.000 canais. Estes dados, que consistem em texto puro dos vídeos, muitas vezes com traduções para diferentes idiomas, foram utilizados para criar um conjunto de dados denominado “YouTube Subtitles”.
Este conjunto de dados inclui material de criadores de conteúdo populares como MrBeast e Marques Brownlee, bem como de canais educativos como Khan Academy, MIT e Harvard. Os subtítulos do YouTube fazem parte de um conjunto de dados maior chamado “Pile”, que também inclui material do Parlamento Europeu, Wikipedia em inglês, entre outros.
A Utilização de “Pile” no Treinamento de Modelos de IA
O “Pile” é um conjunto de dados de treino de IA acessível ao público, o que permite que muitos académicos e empresas o utilizem nos seus projetos de IA. Entre estas empresas estão as mencionadas Apple, Anthropic, Nvidia e Salesforce, que não obtiveram os dados diretamente do YouTube, mas sim através do trabalho realizado pela EleutherAI.
Este cenário levanta questões sobre o papel dos termos de serviço do YouTube. No início do segundo trimestre do ano, o CEO do YouTube, Neal Mohan, afirmou que, embora certos conteúdos do YouTube, como títulos de vídeos e nomes de canais, possam ser raspados para aparecer nos motores de busca, as regras atuais não permitem a descarga dos vídeos ou das suas transcrições.
As transcrições são, essencialmente, a matéria-prima dos subtítulos, pois contêm o texto do que é dito nos vídeos. Assim, Mohan não hesitou em afirmar que a descarga de transcrições ou fragmentos de vídeos constitui uma “clara infração” dos termos de serviço da plataforma.
A Questão da Responsabilidade
Aqui surge uma segunda questão: se há uma infração, de quem é a responsabilidade? Embora o relatório indique que Apple, Anthropic, Nvidia e Salesforce utilizaram subtítulos do YouTube para treinar alguns dos seus modelos, não foram estas empresas que realizaram a raspagem dos dados. Esta tarefa foi executada pela EleutherAI. Assim, a grande pergunta é: quem deve ser responsabilizado por esta possível infração?
A utilização de subtítulos do YouTube para treinar modelos de IA levanta questões éticas e legais significativas. A falta de transparência das grandes empresas tecnológicas sobre a origem dos dados de treino e a possível infração dos termos de serviço do YouTube são preocupações que precisam de ser abordadas. À medida que a IA continua a evoluir, é crucial que haja uma maior clareza e responsabilidade na forma como os dados são recolhidos e utilizados.