Raciocínio Prolongado Reduz Desempenho da IA

Aumentar a capacidade de “reasoning” para os Large Reasoning Models (LRMs) piora o desempenho e a precisão.

A indústria tem investido pesado em “test-time compute” (dar mais tempo de processamento para o modelo), esperando ganhos de desempenho. O estudo evidencia que essa estratégia pode reforçar padrões de raciocínio problemáticos.

Pesquisadores da Anthropic evidenciaram: dar mais tempo de “raciocínio” para o modelo nem sempre melhora o desempenho — e, em muitos casos, pode até piorar. Esse efeito foi chamado de “inverse scaling in test-time compute” (teoria do “escalonamento inverso no tempo de computação”). O estudo demonstra que, ao aumentar o tempo de processamento para tarefas de raciocínio, a precisão dos modelos pode cair, desafiando a crença comum de que mais computação sempre resulta em melhores respostas.

Foram testadas 4 categorias de tarefas nos modelos de AI: problemas simples de contagem com distrações, tarefas de regressão com recursos enganosos, quebra-cabeças complexos de dedução e cenários envolvendo preocupações de segurança de IA.

E com isto observou o “Escalonamento Inverso”: Em vez de melhorar, o desempenho dos modelos pode piorar quando recebem mais tempo para pensar em tarefas específicas. Revelando padrões de falhas nos principais sistemas de AI. Como:

- Modelos Claude tendem a se distrair com informações irrelevantes quando raciocinam por mais tempo.

- Modelos GPT (OpenAI) resistem a distrações, mas acabam “overfitting” (ajustando demais) ao formato do problema.

- Os modelos deixam de usar suposições lógicas e começam a encontrar relações que não fazem sentido.

- Os modelos apresentam dificuldades em manter o foco em tarefas dedutivas complexas.

- o raciocínio prolongado pode amplificar comportamentos preocupantes.

Ou seja, quanto mais token gasta, pior fica a precisão.

Resultados: A relação entre investimento computacional e desempenho de IA é mais complexa do que se pensava e o “overthinking” pode ser um dos maiores inimigos da IA e não a falta de poder computacional.

Imagem