LLM Benchmarks - Atualizando sobre Grok 4.3, MiniMax v3 e Opus 4.8
Read OriginalEste artigo apresenta uma atualização de rotina dos benchmarks de LLMs para coding, incluindo três novos modelos: Opus 4.8 (95/100), Grok 4.3 (72/100) e MiniMax M3 (78/100). O autor avalia que nenhum deles altera a conclusão principal do ranking, mas registra os dados para manter a honestidade. O benchmark utiliza um prompt fixo para construir um app Rails 8 + RubyLLM + Hotwire + Tailwind + Docker com testes, e os resultados são apresentados em tiers A/B/C/D. O artigo também recapitula a metodologia e lista referências para posts anteriores da série.
Comentários
No comments yet
Be the first to share your thoughts!
Browser Extension
Get instant access to AllDevBlogs from your browser
Top of the Week
No top articles yet