Testes mostram limitações de modelos da OpenAI, do Google e de outras empresas em atividades complexas do mundo real
Agentes de IA – Uma nova pesquisa indica que agentes de inteligência artificial ainda estão longe de substituir profissionais humanos em áreas especializadas. De acordo com o estudo, os modelos disponíveis atualmente não conseguem realizar com precisão mais de 30% das tarefas típicas de consultores de gestão, analistas de investimentos e advogados corporativos.
O levantamento foi conduzido pela empresa Mercor, especializada em recrutamento de profissionais e treinamento de dados. A iniciativa resultou na criação de um novo indicador de desempenho, batizado de AI Productivity Index for Agents (APEX-Agents), desenvolvido para medir a capacidade prática dos agentes de IA em atividades profissionais.
LEIA: Internet deixa de ser espaço comum e gerações se dividem entre plataformas
Nos testes voltados à atuação de analistas de investimentos, o melhor desempenho foi registrado pelo GPT-5.2, da OpenAI, que obteve 27,3% de acertos. O mesmo modelo liderou as tarefas de consultoria de gestão, com 22,7% de respostas corretas. Já nos testes relacionados a atividades jurídicas, o destaque ficou com o Gemini 3 Flash, do Google, que alcançou 25,9%.
Segundo os responsáveis pelo estudo, os resultados baixos estão relacionados ao formato do benchmark. Diferentemente de outros testes, o APEX-Agents utiliza comandos elaborados por profissionais reais, o que aumenta o nível de complexidade das tarefas. Em muitos casos, os agentes de IA forneceram respostas incorretas ou não conseguiram responder.
“Uma das grandes mudanças desse benchmark é que nós construímos um ambiente completo, modelado de acordo com serviços profissionais”, afirma Brendan Foody, CEO da Mercor e um dos autores da pesquisa.
De acordo com Foody, o principal desafio está na necessidade de reunir informações dispersas em diferentes contextos e ferramentas, algo comum no trabalho humano. “Nós trabalhamos sem que alguém nos dê todo o contexto em um único lugar. Na vida real, você opera com o Slack, o Google Drive e todas essas ferramentas”, explica.
As questões utilizadas nos testes foram disponibilizadas publicamente e exigem alto grau de especialização. Um dos exemplos envolve a análise de um caso em que dados pessoais de cidadãos europeus foram transferidos para servidores nos Estados Unidos, levando em conta tanto as políticas internas da empresa quanto a legislação de privacidade da União Europeia.
Embora esse tipo de tarefa seja desafiador até para profissionais experientes, os pesquisadores defendem que avaliações desse nível são essenciais para medir se os agentes de IA têm condições reais de substituir trabalhadores humanos.” Acho que esse é o assunto mais importante na economia. O benchmark reflete bem o trabalho real que essas pessoas fazem’’, afirma o CEO da Mercor.
(Com informações de Tecnoblog)
(Foto: Reprodução/Freepik)