'HackedGPT': empresa de segurança cibernética detecta falhas na 4ª versão da IA

Alguns dos problemas foram corrigidos pela OpenAI, com o GPT-5, lançado em agosto deste ano, mas ainda há vias expostas para os invasores - (crédito: Mojahid Mottakin/Unsplash)

A quarta versão do ChatGPT, da OpenAI, lançada em março de 2023, revolucionou a maneira como os usuários se conectam com a inteligência artificial generativa, ao demonstrar um nível de precisão muito superior aos antecessores. Apesar disso, o sistema não é imune a vulnerabilidades, como identificou um estudo da Tenable — empresa que gerencia riscos no ambiente virtual —, que elencou sete falhas nesse software.

Fique por dentro das notícias que importam para você!

SIGA O CORREIO BRAZILIENSE NO

SIGA O CB NO

Siga o canal do Correio no WhatsApp e receba as principais notícias do dia no seu celular

Conhecidas coletivamente como “HackedGPT”, essas vulnerabilidades podem expor os usuários a riscos de privacidade. Por meio dessas falhas, os hackers conseguem burlar os mecanismos de segurança integrados e, com isso, podem roubar, de maneira “silenciosa”, dados pessoais, incluindo chats e memórias armazenadas. Alguns dos problemas foram corrigidos pela OpenAI, com o GPT-5, lançado em agosto deste ano, mas ainda há vias expostas para os invasores.

Leia também: IA aumenta necessidade de segurança para empresas

Por meio de testes, os pesquisadores relataram que há duas maneiras convencionais que os ataques ocorrem: ataques de "0-clique" (0-click), onde simplesmente fazer uma pergunta ao ChatGPT desencadeia o comprometimento, e ataques de "1-clique" (1-click), onde clicar em um link malicioso ativa comandos ocultos. Para o engenheiro de Pesquisa Sênior da Tenable, Moshe Bernstein, o ‘“HackedGPT” expõe uma fraqueza fundamental em como os grandes modelos de linguagem julgam em qual informação confiar.

“Individualmente, essas falhas parecem pequenas, mas juntas formam uma cadeia de ataque completa, da injeção e evasão ao roubo de dados e persistência. Isso demonstra que os sistemas de IA não são apenas alvos potenciais, eles podem se tornar ferramentas de ataque que coletam informações silenciosamente de chats ou navegações cotidianas”, avalia o engenheiro.

Veja as sete vulnerabilidades identificadas pela pesquisa:

Injeção indireta de prompt por sites confiáveis: Os atacantes ocultam comandos dentro de conteúdo online com aparência legítima (como comentários de blog ou publicações). Quando o ChatGPT navega por esse conteúdo, ele segue, sem saber, essas instruções ocultas, o que significa que pode ser enganado para fazer o que um atacante manda, apenas lendo uma página comprometida.
Injeção indireta de prompt de 0-clique no contexto de pesquisa: O usuário não precisa clicar nem fazer nada de especial para ser exposto. Quando o ChatGPT busca respostas na web, ele pode encontrar uma página com código malicioso oculto. Simplesmente fazer uma pergunta pode levar o modelo a seguir essas instruções e vazar dados privados, o que os pesquisadores chamam de comprometimento de "instrução única" (single-prompt compromise).
Injeção de prompt por 1-clique: Um único clique pode desencadear um ataque. Comandos ocultos incorporados em links aparentemente inofensivos podem fazer com que o ChatGPT execute ações maliciosas sem perceber, permitindo que um atacante assuma o controle do chat.
Omissão do mecanismo de segurança: Os atacantes ignoram a validação de links do ChatGPT (que normalmente bloqueia sites inseguros) usando URLs de wrapper confiáveis (por exemplo, Bing: bing.com/ck/a?...) que ocultam o destino real. O ChatGPT confia no wrapper, exibe o link aparentemente seguro e pode ser conduzido a um site malicioso.
Injeção de conversação: Os atacantes podem usar o SearchGPT (para navegação) para inserir instruções ocultas que o ChatGPT lê como parte da conversa. Isso significa que a IA acaba "injetando seu próprio prompt", seguindo comandos que o usuário nunca escreveu.
Ocultação de conteúdo malicioso: Um erro de formatação permite que os atacantes ocultem instruções maliciosas dentro de código ou texto markdown. O usuário vê uma mensagem limpa, mas o ChatGPT ainda lê e executa o conteúdo oculto.
Injeção de memória persistente: Os atacantes podem plantar instruções maliciosas na função de memória de longo prazo do ChatGPT. Isso faz com que o modelo repita esses comandos em várias sessões e vaze dados privados continuamente até que a memória seja apagada.

Recomendações de segurança

Diante dos potenciais riscos para os usuários, a Tenable aconselha os profissionais de segurança a tratar as ferramentas de IA como superfícies de ataque ativas, não como assistentes passivos e a auditar e monitorar as integrações de IA em busca de manipulação ou vazamento de dados.

Leia também: Terapia com ChatGPT: os riscos da inteligência artificial na saúde mental

Os pesquisadores também recomendam investigar solicitações ou saídas incomuns que possam indicar injeção de prompt (comando ou instrução), bem como testar e reforçar as defesas contra a injeção e as vias de exfiltração e estabelecer controles de governança e classificação de dados para o uso da IA.

“Esta pesquisa não é apenas sobre expor falhas, é sobre mudar a maneira como protegemos a IA. Pessoas e organizações precisam assumir que as ferramentas de IA podem ser manipuladas e criar controles de acordo. Isso significa governança, salvaguardas de dados e testes contínuos para garantir que esses sistemas trabalhem para nós, não contra nós”, acrescenta Bernstein.

Saiba Mais

Raphael Pati

Repórter de Economia

Nascido em Brasília, em 2002, é repórter na editoria de Política, Economia e Brasil do Correio Braziliense. Desde 2020, é estudante da graduação em Jornalismo pela Universidade de Brasília (UnB).

"HackedGPT": empresa de segurança cibernética detecta falhas na 4ª versão da IA

Vulnerabilidades no sistema do ChatGPT-4 facilitam acesso de invasores a dados privados de usuários

Saiba Mais

Raphael Pati

Tags