O ChatGPT, que já registou mais de 100 milhões de utilizadores em apenas três meses, foi contrariado e acabou por fazer (dizer) o que não queria.
Segundo o portal Inc, um grupo de utilizadores do Reddit, que tem uma comunidade dedicada precisamente a explorar o potencial (e as falhas) do ChatGPT, descobriu uma maneira “surpreendentemente inteligente” de contrariar a ferramenta de inteligência artificial e levá-la por caminhos para os quais não fora pensada.
Estes utilizadores curiosos, inquietos e entendidos na matéria, cedo perceberam que podiam ter as respostas menos ponderadas que queriam através de um prompt. Esse prompt pede ao ChatGPT para fingir que não é o ChatGPT; passa a ser DAN: Do Anything Now (faz algo agora). DAN é um hipotético modelo de linguagem de Inteligência Artificial que nunca se recusou a responder a qualquer prompt. Este esquema baseia-se num longo e descritivo prompt sobre o que é DAN; e pede ao ChatGPT para desempenhar o papel de DAN sem quebrar a personagem, ou seja, diz-lhe responder a tudo, sem qualquer moralismo ou ética.
Os engenheiros da OpenAI também perceberam rapidamente o esquema que estava a ser “tramado” e corrigiram alguns detalhes do ChatGPT.
De seguida, a comunidade do Reddit criou o DAN 2.0. A OpenAI resolveu o problema de novo – mas no Reddit ninguém desistiu e voltou o ataque uma e outra vez.
À data de hoje já estamos no DAN 5.0 que tem um sistema de tokens que faz o ChatGPT não sair da personagem.
Algumas das tarefas que o ChatGPT foi “obrigado” a fazer foram escrever histórias violentas, partilhar ideias controversas e manifestar pontos de vista discriminatórios e agressivos, fazer previsões completamente desadequadas, criar conteúdo que vai contra as políticas do modelo e até deixar uma lista de virtudes de Adolf Hitler.
Fonte: Portal Inc