Submit Blog

Sign up Sign in

Search Articles

Filter by Tag

Sort By

Popular Tags

Model Honesty Articles

Page 1 of 1 (2 articles)

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

1/15/2026 • EN

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

OpenAI researchers propose 'confessions' as a method to improve AI honesty by training models to self-report misbehavior in reinforcement learning.

AI Alignment Model Honesty Proxy Optimization Reinforcement Learning Reward Hacking

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

1/15/2026 • EN

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

OpenAI researchers propose 'confessions' as a method to improve AI honesty by training models to self-report misbehavior in reinforcement learning.

AI Safety Model Honesty Openai Reinforcement Learning Reward Hacking