Skip to main content

Command Palette

Search for a command to run...

Paper: dar mais tempo de “raciocínio” para AI piora o desempenho.

Seja específico: quanto mais token gastar, pior fica

Updated
2 min read
Paper: dar mais tempo de “raciocínio” para AI piora o desempenho.

Aumentar a capacidade de “reasoning” para os Large Reasoning Models (LRMs) piora o desempenho e a precisão.

A indústria tem investido pesado em “test-time compute” (dar mais tempo de processamento para o modelo), esperando ganhos de desempenho. O estudo evidencia que essa estratégia pode reforçar padrões de raciocínio problemáticos.

Pesquisadores da Anthropic evidenciaram: dar mais tempo de “raciocínio” para o modelo nem sempre melhora o desempenho — e, em muitos casos, pode até piorar. Esse efeito foi chamado de “inverse scaling in test-time compute” (teoria do “escalonamento inverso no tempo de computação”). O estudo demonstra que, ao aumentar o tempo de processamento para tarefas de raciocínio, a precisão dos modelos pode cair, desafiando a crença comum de que mais computação sempre resulta em melhores respostas.

Foram testadas 4 categorias de tarefas nos modelos de AI: problemas simples de contagem com distrações, tarefas de regressão com recursos enganosos, quebra-cabeças complexos de dedução e cenários envolvendo preocupações de segurança de IA.

E com isto observou o “Escalonamento Inverso”: Em vez de melhorar, o desempenho dos modelos pode piorar quando recebem mais tempo para pensar em tarefas específicas. Revelando padrões de falhas nos principais sistemas de AI. Como:

- Modelos Claude tendem a se distrair com informações irrelevantes quando raciocinam por mais tempo.

- Modelos GPT (OpenAI) resistem a distrações, mas acabam “overfitting” (ajustando demais) ao formato do problema.

- Os modelos deixam de usar suposições lógicas e começam a encontrar relações que não fazem sentido.

- Os modelos apresentam dificuldades em manter o foco em tarefas dedutivas complexas.

- o raciocínio prolongado pode amplificar comportamentos preocupantes.

Ou seja, quanto mais token gasta, pior fica a precisão.

Resultados: A relação entre investimento computacional e desempenho de IA é mais complexa do que se pensava e o “overthinking” pode ser um dos maiores inimigos da IA e não a falta de poder computacional.

Imagem

O paper completo: https://arxiv.org/pdf/2507.14417

Código, demo e todo o material que demonstra a tese está no github: https://safety-research.github.io/inverse-scaling-ttc/

Thread no X de pesquisador mostrando os resultados: https://x.com/aryopg/status/1947591901886222570

Tech

Part 22 of 50

Technical topics. Code, Linux, Network... Exercising the Tech Writer and teacher in me. Articles covering topics from across the entire OSI layer. Artigos passando por assuntos de toda a camada OSI.

Up next

Cloud Storage para Linux

Serviços de armazenamento em nuvem com client GUI e CLI para linux