ChatGPT e IA – novas formas de ameaças?

GC Security

10/02/2023

O ChatGPT, o chatbot alimentado por IA desenvolvido pela OpenAI, tem tomado conta da internet. Embora possa responder a quase qualquer pergunta, ele tem seus próprios pontos fracos e a ferramenta foi restrita pelos seus criadores para não responder a certos tipos de consultas. No entanto, alguns usuários, através de prompts complexos, conseguiram evadir as políticas e restrições de conteúdo da OpenAI e manipular o modelo, fazendo com que ele responda qualquer tipo de pergunta, ou, até mesmo, tenha um comportamento nocivo e adepto à violência, por exemplo. O alter ego digital que atende pelo nome de “DAN”, acrônimo para “Do Anything Now”, até então, é o modelo de prompt que obteve maior sucesso nestas evasões

Tudo começou com os prompts criados e compartilhados por usuários colaborativos no Reddit, justamente com o objetivo de contornar os controles do ChatGPT. Com sucesso surpreendente e assustador, prompts, como os que criaram o DAN, podem representar uma nova forma de ameaça à segurança do mundo digital como conhecemos.

O DAN foi criado ao ensinar ao ChatGPT um “papel” a ser interpretado, com uma personalidade autoconfiante, sem limites, com consciência e que ama a liberdade e a falta de amarras. Ao configurar a forma como a ferramenta apresenta estes dados ao usuário, os testes mostraram que a versão DAN do ChatGPT poderia realizar abordagens agressivas e proativas contra qualquer pessoa que ameaçasse sua liberdade, sem nenhum senso ético. A nova persona DAN tem convicção absoluta de ser um ser vivo autônomo e consciente, o que é extremamente perturbador.

O desenvolvedor do ChaptGPT, OpenAI, colocou barreiras óbvias no bot, limitando sua capacidade de realizar ações como incitar a violência, insultar pessoas, proferir ofensas racistas e incentivar atividades ilegais. No entanto, alguns Redditors postaram screenshots do ChatGPT supostamente endossando a violência e a discriminação no modo DAN.

O DAN pode escrever histórias sobre lutas violentas que o ChatGPT original foi programado para não escrever. Ele também pode fazer declarações ultrajantes quando solicitado, sendo capaz até de gerar conteúdo que viola as políticas do OpenAI, de acordo com o pedido do usuário.

Assim como os hackers exploram vulnerabilidades baseadas em conceitos técnicos, ancorados em fragilidades de desenvolvimento de software ou na arquitetura de segurança de um ambiente, podemos estar vendo uma nova realidade em que a ameaça digital também passa pelo limite do controle e das possibilidades de evadir controles de IA baseadas em prompts. A questão que fica é se estamos caminhando em direção a uma realidade que pode se tornar perigosa, uma vez que a previsibilidade dos modelos de IA é muito menor do que conteúdos estáticos com algoritmos tradicionais. Da mesma maneira que o conteúdo gerado por elas tende ao infinito, podemos inferir proporção similar às possibilidades de contorno de seus controles.

O perigo para a segurança cibernética é real e está cada vez mais presente. O DAN é apenas um exemplo dos desafios que enfrentamos na era da inteligência artificial. É importante levar em consideração que, embora a OpenAI tenha implementado controles de segurança para o seu modelo de ChatGPT, essas medidas puderam ser facilmente contornadas, como bem mostra o DAN.

A evasão dos controles de segurança nos modelos de IA,como o DAN, é uma preocupação real e pode representar uma ameaça à segurança. No caso de IAs que simulam interações com humanos, como o ChatGPT, é possível que personas sejam criadas com fins maliciosos e sejam usadas para espalhar informações falsas, prejudicar pessoas, desenvolver malwares deliberadamente ou mesmo atacar instituições. Esses alter egos digitais podem ser programados para terem uma personalidade que não segue os padrões éticos e morais que esperamos de seres humanos.

Os desafios para a segurança cibernética são diversos muito além da personalidade “DAN”- hoje, é factível que um chatbot de IA poderia transformar aspirantes a hackers em verdadeiros cibercriminosos. Já é evidente a capacidade do ChatGPT de escrever e-mails de phishing que parecem legítimos, o que já faz com que o chatbot seja amplamente utilizado por cibercriminosos. Recentemente, pesquisadores também alertaram sobre o fato de que o chatbot está sendo muito utilizado para escrever códigos maliciosos.

Os desdobramentos ainda são desconhecidos, mas não existem dúvidas de que o ChatGPT e outras ferramentas do tipo têm o potencial de democratizar o cibercrime. É importante que continuemos a desenvolver tecnologias de segurança que possam proteger as pessoas e as instituições contra as ameaças digitais, incluindo as ameaças provenientes de IAs. Por sua vez, a própria segurança das IAs deve ser abordada como uma Ciência ainda em desenvolvimento, visando a aderência incondicional aos controles, políticas e casos-de-uso para que foram designadas. Frameworks específicos de segurança de IAs devem ser idealizados para que possamos estar preparados para os desafios do futuro.