Fabio Akita • 6/1/2026

LLM Benchmarks - Atualizando sobre Grok 4.3, MiniMax v3 e Opus 4.8

Este artigo apresenta uma atualização de rotina dos benchmarks de LLMs para coding, incluindo três novos modelos: Opus 4.8 (95/100), Grok 4.3 (72/100) e MiniMax M3 (78/100). O autor avalia que nenhum deles altera a conclusão principal do ranking, mas registra os dados para manter a honestidade. O benchmark utiliza um prompt fixo para construir um app Rails 8 + RubyLLM + Hotwire + Tailwind + Docker com testes, e os resultados são apresentados em tiers A/B/C/D. O artigo também recapitula a metodologia e lista referências para posts anteriores da série.

0 comments

#LLM Benchmarks #Grok 43 #Minimax M3