Com o crescimento exponencial da inteligência artificial (IA), tem-se debatido intensamente sobre a origem dos dados de treinamento utilizados pelos grandes modelos de linguagem, como o GPT-4. A questão do direito dos criadores dessas IAs de usar tais dados também tem sido discutida, chegando até mesmo a ser levada a tribunal.
Estes modelos de IA são treinados utilizando grandes volumes de dados, que incluem conteúdo extraído de diversos sites. Este processo, conhecido como “scraping web”, é uma prática comum em investigação, jornalismo e arquivo digital. No entanto, alguns proprietários de sites podem ter reservas sobre como o seu conteúdo é utilizado neste contexto específico.
Recentemente, tanto a OpenAI como a Google forneceram orientações para os proprietários de sites que preferem evitar que o conteúdo dos seus sites seja incorporado nos enormes datasets de treinamento destes modelos de IA. No entanto, é importante notar que estas orientações apenas se aplicam a conteúdo futuro, uma vez que ambas as empresas não oferecem um método para apagar os dados nos quais as suas IAs já foram treinadas.
Para evitar que o conteúdo de um site seja utilizado em futuros “scrapings” por qualquer um destes gigantes da IA, existe um processo simples, desde que o alojamento web permita o acesso à estrutura de arquivos do site. Para colocar aos bots destas empresas o equivalente digital a uma placa de “Acesso Proibido”, deve-se editar ou criar um arquivo chamado “robots.txt” no diretório raiz do servidor web.
Este arquivo serve como um conjunto de instruções para bots e rastreadores web. Até agora, tem sido utilizado principalmente para dar instruções aos motores de busca. Para bloquear o acesso destes modelos a um site, deve-se incluir no arquivo robots.txt as seguintes linhas:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Em ‘Disallow’, pode-se especificar apenas certas pastas específicas para bloqueio, caso não se importe que o resto do conteúdo do site seja utilizado.
O debate sobre a origem dos dados de treinamento da IA e o direito de uso desses dados é complexo e multifacetado. Embora a prática de “scraping web” seja comum e amplamente aceite em muitos campos, é compreensível que alguns proprietários de sites possam ter reservas sobre como o seu conteúdo é utilizado neste contexto. As orientações fornecidas pela OpenAI e pela Google são um passo na direção certa, mas ainda há muito a ser discutido e acordado no que diz respeito à ética e aos direitos de propriedade intelectual na era da IA.
Fonte: Eff











