Fabio Akita • 24/04/2026

Benchmark de LLMs pra Coding (Maio 2026): DeepSeek v4, Kimi v2.6, Grok 4.3, GPT 5.5

Este artigo apresenta um benchmark detalhado de LLMs para coding, atualizado para maio de 2026, com rankings e tiers (A, B, C) para modelos como DeepSeek V4 Pro, Kimi K2.6, Grok 4.3, GPT 5.5, Opus 4.7, entre outros. A metodologia testa a capacidade de construir um app Rails + RubyLLM + Hotwire + Docker a partir de um prompt fixo, com 15 requisitos específicos. Inclui ajustes pós-publicação, como a subida do DeepSeek V4 Pro para Tier A via DeepClaude e a estreia do Grok 4.3 em Tier B. O benchmark é focado em tarefas de desenvolvimento web e não deve ser generalizado para outros tipos de tarefa.

0 comentários

#Grok #Deepseek #Coding