reward

刺激指向效应:生活场景中的心理机制

胡同里的孩子总爱凑堆儿玩。前院的小虎子昨天见隔壁大哥哥用竹竿挑着风筝跑,今天一早就缠着爷爷削了根细竹,也学着样儿在空地上颠颠儿地跑。他未必懂什么叫观察学习(Observational Learning),只觉得那样子有趣,注意力便自发指向了竹竿与风筝线 ——

镜像神经元 心理 stimulus reward learn 2025-08-10 07:29  1

英语中最难区分的50词

attain / achieve / reach‌attain:强调雄心驱使下的长期努力(目标/理想)achieve:侧重通过技能/努力获得成果(成功/突破)reach:中性词,指到达某地点或数值(地点/年龄)award / reward‌award:官方授予

英语 principal reward achi adapt 2025-08-10 02:19  3

121W,确实可以封神!

LLM+奖励模型 :当下的迫切需求!大模型生成的毒性内容、幻觉等问题严重影响落地,而奖励模型虽对提升对齐效果作用显著,但目前泛化能力都很弱,难以应对复杂任务。可以关注代理型奖励模型、自我反思奖励模型……

模型 推理 llm 关键帧 reward 2025-06-27 04:40  6