最近一直好奇一个问题：用户反馈数据（点赞点踩三选一四选一）给模型做强化学习有没有用？用处多大？产品能否构建起数据飞轮形成壁垒？

最近一直好奇一个问题：用户反馈数据（点赞点踩三选一四选一）给模型做强化学习有没有用？用处多大？产品能否构建起数据飞轮形成壁垒？目前问了几个从业者，收集到的回答有： 1. 很有用 2. 在娱乐化场景用处不大，因为用户的选择偏好很离散 3. alignment阶段让模型语言风格贴近用户喜好有些用处，但本质对于模型能力提升用处不大欢迎各位大神评论

在Telegram中查看

相关推荐