科学家打造“变分偏好学习”技术,将AI偏好辨识准确率提高10%
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于OpenAI使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human F
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于OpenAI使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human F
娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。此前在美国麻省理工学院读博期间,她曾开发一种语言模型微调技术,后被用于 OpenAI 使用基于人类反馈强化学习(RLHF,Reinforcement Learning from Human
预告了近一年,娜塔莎终于让关注他们一家的朋友们,走进了大郎的主业,窥得这位艺术家的一角。