Submit Blog

Sign up Sign in

Search Articles

Filter by Tag

Sort By

Popular Tags

Proximal Policy Optimization Articles

Page 1 of 1 (1 article)

Bite: How Deepseek R1 was trained

1/17/2025 • EN

Bite: How Deepseek R1 was trained

Explains the training of DeepSeek-R1, focusing on the Group Relative Policy Optimization (GRPO) reinforcement learning method.

Deepseek Grpo LLM Training Proximal Policy Optimization Reinforcement Learning