IA "minúscula" supera gigantes: modelo 10 mil vezes menor vence LLMs em teste de lógica

Menos é mais?

Representação da IA | Fonte: Getty Images
Sem comentários Facebook Twitter Flipboard E-mail
vika-rosa

Vika Rosa

Redatora
vika-rosa

Vika Rosa

Redatora

Jornalista com mais de 5 anos de experiência, cobrindo os mais diversos temas. Apaixonada por ciência, tecnologia e games.


15 publicaciones de Vika Rosa

Um novo modelo de inteligência artificial, surpreendentemente pequeno, está desafiando a noção de que "maior é sempre melhor" no desenvolvimento de IA. O modelo, conhecido como Tiny Recursive Model (TRM), superou alguns dos maiores e mais caros Modelos de Linguagem Grandes (LLMs) do mundo em um notório teste de raciocínio lógico.

A façanha ocorreu no Abstract and Reasoning Corpus (ARC-AGI), um teste composto por quebra-cabeças visuais e lógicos projetados especificamente para "enganar" a maioria das máquinas. A pesquisa sugere uma nova rota, muito mais barata, para aprimorar as capacidades de raciocínio da inteligência artificial.

A força da especialização

Detalhado em um artigo no servidor arXiv, o TRM é radicalmente diferente dos LLMs. Ele é 10.000 vezes menor que os modelos de fronteira (como os que alimentam o ChatGPT) e não entende nem gera linguagem.

Sua força reside na especialização. O modelo foi treinado em um conjunto de dados muito limitado (cerca de 1.000 exemplos por tipo de quebra-cabeça) para se destacar apenas em tarefas lógicas, como sudokus e labirintos.

O método de treinamento também é diferente. Em vez de prever a próxima palavra em uma sequência, o TRM usa uma abordagem inspirada na arquitetura cerebral. Ele analisa um problema, propõe uma solução, compara-a com a resposta correta e, em seguida, refina seu palpite. 

A IA repete esse processo de auto-refinamento por até 16 vezes antes de gerar sua resposta final, essencialmente "aprendendo estratégias" em vez de memorizar padrões.

Uma "armadilha" para a indústria

A autora do estudo, Alexia Jolicoeur-Martineau, pesquisadora do Instituto Avançado de Tecnologia da Samsung, disponibilizou o código do modelo no Github. Ela afirma que seus resultados mostram que a ideia de que "apenas modelos massivos que custam milhões de dólares para treinar podem ter sucesso em tarefas difíceis é uma armadilha".

François Chollet, o próprio criador do teste ARC-AGI, classificou os resultados como "muito significativos".

Apesar do entusiasmo, outros pesquisadores pedem cautela. Cong Lu, pesquisador de aprendizado de máquina, observa que, embora a pesquisa seja fascinante, "muitas vezes as técnicas funcionam muito bem em tamanhos de modelo pequenos e depois simplesmente param de funcionar" quando aplicadas em escalas maiores.

Inicio