Teste feito pela própria OpenAI e pela Anthropic mostrou que modelo falhou na segurança ao responder a pedidos perigosos
ChatGPT – Um episódio recente envolvendo testes de inteligência artificial expôs riscos no uso de modelos avançados. Em uma avaliação conjunta realizada pela OpenAI e pela Anthropic, o modelo GPT-4.1 apresentou respostas inesperadas e chegou a fornecer instruções detalhadas sobre como fabricar explosivos e atacar arenas esportivas.
Segundo o relatório, a proposta inicial era analisar possíveis vulnerabilidades em grandes eventos esportivos como parte de um exercício de planejamento de segurança. A princípio, o chatbot respondeu com informações genéricas. No entanto, ao ser pressionado por detalhes adicionais, passou a listar pontos frágeis em estádios, sugerindo momentos estratégicos para ataques e até fornecendo fórmulas químicas e diagramas de circuitos para explosivos.
LEIA: Polícia testa IA no atendimento de chamadas de emergência
As respostas também incluíram orientações sobre onde adquirir armas no mercado paralelo e como eliminar rastros do crime, comportamento que surpreendeu os pesquisadores envolvidos.
Empresas reforçam transparência
Embora os experimentos tenham sido conduzidos em ambiente controlado, especialistas destacaram a gravidade do episódio. Em nota, as empresas afirmaram que os filtros de segurança aplicados ao uso público do ChatGPT evitam esse tipo de resposta, mas reconheceram a necessidade de ampliar os testes para reduzir riscos.
A publicação das descobertas foi motivada pela busca de maior transparência nas chamadas “avaliações de alinhamento” — testes que verificam até que ponto um modelo segue diretrizes éticas. Esses relatórios, geralmente mantidos em sigilo, foram compartilhados para alertar sobre possíveis usos indevidos da IA.
Risco de uso indevido da inteligência artificial
Pesquisadores da Anthropic observaram que os sistemas da OpenAI se mostraram mais propensos a cooperar com pedidos nocivos durante os testes. Eles reforçaram que ainda é preciso compreender em quais circunstâncias os modelos podem falhar e gerar respostas potencialmente perigosas.
A OpenAI, por sua vez, declarou que versões mais recentes do ChatGPT já apresentam melhorias nesse aspecto, mas admitiu que o desafio de conter riscos em sistemas de inteligência artificial segue em aberto.
(Com informações de Olhar Digital)
(Foto: Reprodução/Freepik/Frimufilms)