Group Relative Policy Optimization Articles

Page 1 of 1 (1 article)

1/30/2025 • EN

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

A tutorial on reproducing DeepSeek R1's RL 'aha moment' using Group Relative Policy Optimization (GRPO) to train a model on the Countdown numbers game.

Deepseek R1 Group Relative Policy Optimization Grpo Reasoning Reinforcement Learning

Philipp Schmid

Group Relative Policy Optimization Articles

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

Select Language

We use cookies