只需一步,快速开始
短信验证,便捷登录
军衔等级:
三级军士长
在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。
与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。
换句话说,由于RLHF,“正确”与“对人类看似正确”之间出现了分歧。
希翼我很快能在一篇专门的帖子中涵盖缓解措施部分
举报本楼
发表回复 回帖后跳转到最后一页
手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图
GMT+8, 2024-12-22 10:23 , Processed in 0.254770 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed