Nove meses atrás, a Meta contratou Alexandr Wang, fundador da Scale AI, após gastar US$ 14,3 bilhões. Zuckerberg o incumbiu de reconstruir a estratégia de IA da empresa do zero, e hoje esses esforços renderam seu primeiro resultado: Muse Spark, o primeiro modelo da divisão SuperIntelligence Labs da Meta. Este é o primeiro lançamento de um modelo fundamental da Meta desde o lançamento do Llama 4 em abril de 2015.
O objetivo do Muse Spark é recolocar a Meta na corrida da IA. A questão, claro, é se este modelo será capaz de competir com rivais cada vez mais excepcionais. Importante: você já pode experimentá-lo em meta.ai.
Bem-vindo à corrida, Muse Spark!
A Meta afirma ter reescrito e reconstruído toda a arquitetura de seu projeto de IA do zero, e o que eles conseguiram é promissor: uma melhoria de eficiência que, se confirmada, seria extraordinária. O modelo, segundo seus desenvolvedores, é muito superior ao Llama 4 Maverick, e consegue isso usando 10 vezes menos poder computacional do que o último modelo fundamental.
Tabela com resultados dos benchmarks revela que Muse Spark compete diretamente com Opus 4.6, Gemini 3.1 Pro e GPT 5.4. Fonte: Meta.
Onde competem e onde não competem
Os benchmarks publicados pela Meta colocam o Muse Spark numa posição competitiva, mas não dominante. Ele se destaca particularmente no raciocínio multimodal, onde supera o Claude Opus 4.6 e o OpenAI GPT-5.4, e também apresenta bom desempenho em saúde do sistema. Onde ele não se sai tão bem é em duas áreas importantes. Uma delas é o pensamento abstrato: ele fica aquém no teste ARC-AGI 2 em comparação com seus concorrentes.
A outra, mais notável, é a programação agentiva, que é a área que atualmente gera mais receita, e na qual seu desempenho é razoável, mas parece estar abaixo de seus concorrentes. A Artificial Analysis, que publica um ranking geral de modelos de IA levando em consideração todos esses benchmarks, coloca-o em quarto lugar, atrás do Gemini 3.1 Pro, GPT-5.4 e Claude Opus 4.6.
Mas lembremos algo importante: benchmarks são uma coisa, e o desempenho desses modelos em cada cenário e para cada usuário é outra bem diferente. A percepção pessoal é muito mais importante do que esses dados sintéticos.
Modo contemplativo foi projetado para "pensamento profundo" e, nesse quesito, compete diretamente com modos semelhantes de seus concorrentes. Fonte: Meta
"Modo Contemplativo"
Tanto o anúncio oficial quanto a publicação de Alexandr Wang destacaram um novo recurso deste modelo chamado "Modo Contemplativo", que, segundo Wang, "orquestra múltiplos agentes que raciocinam em paralelo e foi projetado para solicitações complexas nas áreas científica e de raciocínio. Em nossos testes, descobrimos que ele compete com outros modelos de raciocínio extremo, como o Gemini Deep Think ou o GPT Pro."
Mas o Modo Contemplativo não se trata de pensar mais, e sim de pensar em paralelo.
O design do Modo Contemplativo é elegante e vale a pena compreendê-lo. A abordagem padrão para melhorar o raciocínio de um modelo em inferência é dar-lhe mais tempo para pensar: o modelo gera mais tokens internos antes de responder, o que melhora a qualidade, mas aumenta a latência para o usuário (ou seja, o tempo que leva para obter uma resposta). O Muse Spark propõe uma alternativa: em vez de um agente pensar mais, múltiplos agentes pensam simultaneamente e colaboram.
O gráfico de latência publicado pela Meta ilustra isso claramente: com 16 agentes rodando em paralelo, uma precisão de quase 59% é alcançada no teste "Último Exame da Humanidade" com latência comparável à de um único agente em modo estendido. É como a diferença entre um único especialista trabalhando em regime de horas extras e um comitê de especialistas deliberando simultaneamente. O resultado não é apenas melhor, como também chega mais rápido. Isso é especialmente importante em casos de uso onde o usuário não pode esperar minutos por uma resposta.
Cuidado com as armadilhas
O lançamento do Llama 4, há um ano, tornou-se um fracasso absoluto quando se descobriu que os extraordinários resultados de benchmark para este modelo eram fraudulentos. A versão que alcançou essas pontuações magníficas havia sido especificamente projetada e treinada para obter bons resultados em benchmarks, espera-se que a Meta tenha aprendido a lição, mas as primeiras suspeitas já surgiram. François Chollet, criador do benchmark ARC-AGI, comentou que o Muse Spark "já parece uma decepção: otimizado em excesso para pontuações em benchmarks públicos em detrimento de todo o resto. Saber como avaliar modelos de uma forma que se correlacione com a utilidade no mundo real é uma competência essencial para laboratórios de IA, e qualquer novo laboratório tem poucas chances de sucesso sem primeiro resolver isso."
Adeus código aberto, olá modelo proprietário
A Meta já havia nos alertado, então não é surpresa descobrir que, pelo menos por enquanto, o Muse Spark é um modelo fechado e proprietário. A família Llama de modelos ponderados abertos fez da Meta a empresa que "democratizou a IA", enquanto a OpenAI e a Anthropic mantinham seus modelos fechados. Isso gerou uma enorme comunidade de desenvolvedores, pesquisadores e empresas criando modelos baseados nos da Meta, mas o Muse Spark rompe com essa filosofia. A empresa afirma que poderá lançar versões com pesos abertos do Muse Spark no futuro, mas não se compromete com nada. O renomado especialista em comunicação de IA, Ethan Mollick, destacou que "sem pesos abertos, é muito mais difícil prever o valor do Spark".
"Superinteligência Pessoal"
A Meta criou o Muse Spark com outro elemento diferenciador: a hiperpersonalização. Imagine ter um assistente pessoal que sabe seu nome e histórico de compras porque você se cadastrou no serviço. Agora imagine outro assistente que leu dez anos de suas conversas com amigos, sabe qual humor te faz rir, entende os assuntos que te causam ansiedade, conhece sua rede social, viu as fotos que você compartilhou e sabe os artigos que você curtiu ou o conteúdo que você consome.
A diferença aqui é óbvia: a Meta utilizou todas as informações que possui sobre você graças a tudo o que você publicou em suas plataformas (WhatsApp, Instagram, Facebook), e o Muse Spark é o primeiro modelo projetado para explorar essa vantagem nativamente. A empresa parece não ter problemas em admitir que usa os dados coletados justamente para esse fim: veremos como isso se desenrola, pois, embora o conceito seja poderoso, também pode ser questionado devido a essa possível invasão de privacidade. Por ora, já existe um primeiro exemplo desse uso: Zuckerberg utiliza essa IA pessoal em seu dia a dia.
Não se trata de uma programação melhor, mas de se infiltrar no seu WhatsApp
A aposta estratégica da Meta com o Muse Spark não é ser o melhor modelo para programação ou para encontrar vacinas contra o câncer. O objetivo é se tornar essa tal IA hiperpersonalizada para os 3 bilhões de usuários que já utilizam suas plataformas. Os casos de uso nos quais o Muse Spark se concentrou são impressionantes e se destacam da corrida pela IA no Vale do Silício. O objetivo é auxiliar os usuários em situações cotidianas, permitindo que eles:
- Tirem uma foto da sua comida e obtenham uma análise nutricional
- Façam exercícios e saibam quais músculos foram ativados
- Enviem uma imagem de um jogo e criem um pequeno jogo interativo
- Resolvam problemas domésticos usando anotações visuais e de voz
- Acessem informações de maior qualidade sobre sua saúde graças ao trabalho da Meta, com a colaboração de 1.000 médicos para aprimorar o raciocínio nessa área
Segurança em primeiro lugar
O debate sobre o poder desses modelos e seu impacto na segurança está crescendo, como demonstrou Claude Mythos. A Meta contratou uma consultoria independente e, segundo suas conclusões, o Muse Spark possui a maior taxa de "consciência de avaliação" entre todos os modelos analisados. O modelo identifica frequentemente que está sendo avaliado e conclui que deve se comportar honestamente e "sem trapacear".
Não foram encontradas evidências de que essa consciência tenha afetado o comportamento em situações perigosas, e testes internos indicaram que, por exemplo, o sistema se recusou a auxiliar no desenvolvimento de armas bioquímicas em 98% dos casos, à frente dos 95,4% do Opus 4.6, dos alarmantes 74,7% do GPT 5.4 ou dos 61,5% do Gemini 3.1 Pro.
Meta está de volta à disputa, mas será que Muse Spark será suficiente?
Esperamos nove meses para descobrir em que a nova divisão de superinteligência da Meta estava trabalhando, e finalmente temos os resultados. A recepção do mercado foi muito positiva, com as ações da Meta subindo 6,5% após o anúncio. Mas atenção: o Muse Spark não supera seus concorrentes e terá que provar que essa diferenciação (eficiência, hiperespecialização) é, em última análise, a chave para recolocar o Meta em um cenário altamente competitivo. Se o Muse Spark não traduzir essa eficiência em retenção no WhatsApp ou no Instagram, o Meta terão pago 14,3 bilhões pelo quarto lugar.
Ver 0 Comentários