- 24:46
P09 以大型语言模型打造的AI Agent (14_50 教你怎么打造芙莉莲一级魔法使考试中出现的泥人哥列姆) [生成式AI导论 2024 李宏毅]_哔哩哔哩_bilibili
- 01:00:02
什么是基于人类反馈的强化学习 What is RLHF?_哔哩哔哩_bilibili
- 11:56
中国版ChatGPT只缺GPU(1/2)_哔哩哔哩_bilibili
- 00:34
Wombat: 93%ChatGPT性能!无需RLHF就能对齐人类的语言模型_哔哩哔哩_bilibili
- 06:15
ChatGPT背后的技术(2/2)IFT SFT COT RLHM你知道吗?_哔哩哔哩_bilibili
- 59:12
吴恩达《深入探讨使用权重和偏差进行 LLM 评估|Deep Dive into LLM Evaluation with Weights & Biases》中英字_哔哩哔哩_bilibili
- 01:10
GPT-Fathom评估套件_哔哩哔哩_bilibili
- 13:43
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】原理第02篇_哔哩哔哩_bilibili
- 01:15
Contrastive Prefence Learning: Learning from Human Feedback without RL_哔哩哔哩_bilibili
- 36:59
【李宏毅2024春最新】第8讲 生成式AI导论(中文)RLHF 大预言模型修炼史(3) by Hung-yi Lee_哔哩哔哩_bilibili