Um novo modelo de inteligência artificial, surpreendentemente pequeno, está desafiando a noção de que "maior é sempre melhor" no desenvolvimento de IA. O modelo, conhecido como Tiny Recursive Model (TRM), superou alguns dos maiores e mais caros Modelos de Linguagem Grandes (LLMs) do mundo em um notório teste de raciocínio lógico.
A façanha ocorreu no Abstract and Reasoning Corpus (ARC-AGI), um teste composto por quebra-cabeças visuais e lógicos projetados especificamente para "enganar" a maioria das máquinas. A pesquisa sugere uma nova rota, muito mais barata, para aprimorar as capacidades de raciocínio da inteligência artificial.
A força da especialização
Detalhado em um artigo no servidor arXiv, o TRM é radicalmente diferente dos LLMs. Ele é 10.000 vezes menor que os modelos de fronteira (como os que alimentam o ChatGPT) e não entende nem gera linguagem.
Sua força reside na especialização. O modelo foi treinado em um conjunto de dados muito limitado (cerca de 1.000 exemplos por tipo de quebra-cabeça) para se destacar apenas em tarefas lógicas, como sudokus e labirintos.
O método de treinamento também é diferente. Em vez de prever a próxima palavra em uma sequência, o TRM usa uma abordagem inspirada na arquitetura cerebral. Ele analisa um problema, propõe uma solução, compara-a com a resposta correta e, em seguida, refina seu palpite.
A IA repete esse processo de auto-refinamento por até 16 vezes antes de gerar sua resposta final, essencialmente "aprendendo estratégias" em vez de memorizar padrões.
Uma "armadilha" para a indústria
A autora do estudo, Alexia Jolicoeur-Martineau, pesquisadora do Instituto Avançado de Tecnologia da Samsung, disponibilizou o código do modelo no Github. Ela afirma que seus resultados mostram que a ideia de que "apenas modelos massivos que custam milhões de dólares para treinar podem ter sucesso em tarefas difíceis é uma armadilha".
François Chollet, o próprio criador do teste ARC-AGI, classificou os resultados como "muito significativos".
Apesar do entusiasmo, outros pesquisadores pedem cautela. Cong Lu, pesquisador de aprendizado de máquina, observa que, embora a pesquisa seja fascinante, "muitas vezes as técnicas funcionam muito bem em tamanhos de modelo pequenos e depois simplesmente param de funcionar" quando aplicadas em escalas maiores.
Ver 0 Comentários