LLMs tomam nocaute em raciocínio lógico?

Share
bits wizard anime

LLMs tomam nocaute em raciocínio lógico?

LLMs tomam nocaute em raciocínio lógico?

Um estudo recente da Apple abalou o mundo da inteligência artificial ao demonstrar uma limitação crucial dos grandes modelos de linguagem (LLMs): curiosamente, esses sistemas têm dificuldade extremas em tarefas de raciocínio lógico que humanos e programas convencionais resolvem com facilidade.

O problema da Torre de Hanói

Pesquisadores testaram modelos como Claude e o famoso “o3” num desafio clássico: a Torre de Hanói. Esse quebra-cabeça simples, onde discos precisam ser movidos entre pinos seguindo regras básicas:

  • Com 4 discos: os LLMs acertaram quase sempre
  • Com 7 discos: taxa de acerto caiu para menos de 80%
  • Com 8 discos: praticamente incapazes de resolver

Para comparação, uma criança de 7 anos ou um programa Python simples resolvem versões maiores sem erros. Por que bilhões de parâmetros falham onde algoritmos tradicionais brilham?

O fantasma da distribuição de treinamento

A chave do problema está no treinamento dos modelos. Como explica o cientista Gary Marcus:

“Redes neurais generalizam dentro de dados que viram durante o treinamento, mas falham dramaticamente fora dessa zona de conforto”

A Apple foi além: mesmo quando forneceu o algoritmo correto aos LLMs, os modelos não conseguiram executar os passos logicamente. Isso levanta dúvidas sobre o chamado “raciocínio” exibido em técnicas como:

  • Cadeia de pensamento (chain of thought)
  • Cálculo em tempo de inferência

Humanos também falham, mas…

Sim, humanos erram Hanói com 8 discos. Porém, como Marcus destaca, sistemas de AGI deveriam combinar adaptabilidade humana com precisão computacional. Não podemos ter IAs falhando em aritmética básica ou em tarefas algorítmicas fundamentais.

Implicações para o futuro

Este não é um ataque isolado. Pesquisador Subbarao Kambhampati já demonstrava que os rastros de raciocínio dos LLMs frequentemente não refletem seus processos reais. As falhas expostas sugerem que:

  • LLMs não são substitutos para algoritmos tradicionais
  • Testes iniciais podem criar falsa confiança
  • A busca por AGI precisará de novas abordagens

Como conclui Marcus: “Qualquer um que pense que LLMs são um caminho direto para AGI está enganado. Esta abordagem tem limites cada vez mais claros”.