Ao longo do último ano, a elite dos modelos abertos para programação assistida, pelo menos em benchmarks como o SWE-Bench Verified, apresentou uma forte presença chinesa. Nomes como DeepSeek, Kimi e Qwen já haviam se consolidado no topo dos testes e ditado o ritmo em tarefas complexas de engenharia de software, enquanto a Europa ainda buscava seu espaço. A chegada do Devstral 2 altera esse cenário. Não desbanca aqueles que já estavam no topo, mas coloca o Mistral no mesmo patamar de exigência e transforma uma empresa europeia em uma verdadeira concorrente em um campo que até então parecia reservado a outros.
Mudança de liga: o salto tecnológico que vinha se desenhando há algum tempo
Nos últimos meses, os modelos de código aberto desenvolvidos na Europa e nos Estados Unidos apresentaram uma evolução constante, embora ainda sem o desempenho necessário para competir nos testes mais exigentes. O progresso era evidente, mas faltava um projeto capaz de consolidá-lo em um nível superior e demonstrar que esse caminho poderia gerar resultados comparáveis aos benchmarks do setor.
Devstral 2 em dados: desempenho, tamanho e licenças
O novo modelo da Mistral atinge 123 bilhões de parâmetros em uma arquitetura densa e oferece um contexto expandido de 256 mil tokens, acompanhado de uma licença MIT modificada que facilita sua adoção em ambientes abertos. Sua versão compacta, Devstral Small 2, reduz o modelo para 24 bilhões de parâmetros sob a licença Apache 2.0. Nos resultados do SWE-Bench Verified publicados pela empresa, o Devstral 2 obtém 72,2%, uma marca que o coloca na categoria mais competitiva dos modelos abertos avaliados e confirma sua presença entre as alternativas mais avançadas do segmento.
Isso se reflete em um panorama concentrado no topo do benchmark. Entre os modelos abertos, o DeepSeek V3.2 lidera com 73,1%, seguido pelo Kimi K2 Thinking com 71,3% e por propostas como o Qwen 3 Coder Plus e o Minimax M2, que ficam em torno de 69 pontos. Em níveis mais baixos, aparecem o GLM 4.6, o GPT-OSS-120B, o CWM e o DeepSWE, com resultados mais moderados. No campo dos modelos comerciais fechados (modelos proprietários), o gráfico incorpora pontuações mais altas: o Gemini 3 Pro atinge 76,2%, o GPT 5.1 Codex Max chega a 77,9% e o Claude Sonnet 4.5 registra 77,2%, todos acima das melhores pontuações registradas por modelos abertos.
O que o SWE-Bench Verified realmente mede e por que isso é importante
O SWE-Bench Verified é um teste projetado para avaliar se um modelo consegue resolver tarefas reais de programação, não exercícios sintéticos. Cada caso apresenta um bug em um repositório de código aberto e requer uma correção que passe em testes anteriores que falharam. A avaliação busca medir se o sistema compreende a estrutura do projeto, identifica a causa do problema e propõe uma solução coerente. É uma métrica útil e exigente, embora limitada a repositórios Python e a um conjunto específico de cenários que não abrangem toda a amplitude do trabalho de software.
De copilotos a agentes que atuam no projeto
A chegada do Devstral 2 coincide com uma mudança mais ampla na forma como trabalhamos com ferramentas de programação. Não se trata mais apenas de receber sugestões no editor, mas de ter agentes capazes de explorar um repositório inteiro, interpretar sua estrutura e propor alterações consistentes com seu estado real. Nesse contexto, surge o Vibe CLI, uma ferramenta que permite ao Devstral analisar arquivos, modificar partes do código e executar ações diretamente do terminal, aproximando essas funcionalidades do fluxo de trabalho diário dos desenvolvedores.
Custo e implantação: o que cada tipo de usuário pode fazer com o Devstral
O modelo estará disponível gratuitamente por um período inicial e, posteriormente, custará US$ 0,40 por milhão de tokens de entrada e US$ 2 por milhão de tokens de saída, enquanto a versão Small 2 terá um preço mais baixo. A implantação também faz diferença: o Devstral 2 requer pelo menos quatro GPUs da classe H100, voltadas para data centers, enquanto o Devstral Small 2 foi projetado para rodar em uma única GPU e, de acordo com a documentação da Mistral, a família Devstral Small também pode rodar em configurações somente com CPU, sem uma GPU dedicada. Essa variedade permite que tanto empresas quanto desenvolvedores individuais encontrem um ponto de partida adequado.
O surgimento do Devstral 2 introduz um elemento inesperado em um mercado onde as empresas chinesas ditavam o ritmo e onde nem mesmo os Estados Unidos, apesar de sua liderança em inteligência artificial, tinham um modelo aberto.
A Mistral se destaca nessa faixa de alto desempenho, conforme verificado pelo SWE-Bench. Ela não desbanca os líderes de mercado, mas amplia o debate e demonstra que a Europa pode competir em um campo onde até então não figurava. Essa mudança não altera a hierarquia geral, embora abra novas perspectivas para a evolução das ferramentas de programação assistida.
Imagens | Xataka com Gemini 3
Ver 0 Comentários