- 01:18:36
OpenAI研究员讲解指令微调和RLHF_哔哩哔哩_bilibili
- 01:00:02
什么是基于人类反馈的强化学习 What is RLHF?_哔哩哔哩_bilibili
- 06:34
19 How LLMs follow instructions- Instruction tuning and RLHF (optional)_哔哩哔哩_bilibili
- 13:43
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】原理第02篇_哔哩哔哩_bilibili
- 01:00:38
RLHF: From Zero to ChatGPT_哔哩哔哩_bilibili
- 18:25
清华博后带你走进ChatGPT——ChatGPT与RLHF(3)_哔哩哔哩_bilibili
- 04:33
ChatGLM2如何进行微调?SSF RLHF QLora #小工蚁_哔哩哔哩_bilibili
- 01:42
1.3 基于人类偏好的强化学习RLHF_哔哩哔哩_bilibili
- 36:59
【李宏毅2024春最新】第8讲 生成式AI导论(中文)RLHF 大预言模型修炼史(3) by Hung-yi Lee_哔哩哔哩_bilibili
- 26:27
Reward Hacking (in RLHF of LLM)_哔哩哔哩_bilibili