强化学习怎么玩？

摘要：探险家（Agent）这是机器自己，负责行动。比如玩游戏的AI，开车的无人车。森林（Environment）探险的舞台，可能是游戏屏幕，也可能是真实道路。探险家在这儿试招。行动（Action）探险家能干啥？左转、右跳、加速……每一步都是个选择。奖励（Reward

强化学习的冒险，有几个关键角色和规则，咱们讲讲这个“游戏”咋玩：

探险家（Agent）
这是机器自己，负责行动。比如玩游戏的AI，开车的无人车。

森林（Environment）
探险的舞台，可能是游戏屏幕，也可能是真实道路。探险家在这儿试招。

行动（Action）
探险家能干啥？左转、右跳、加速……每一步都是个选择。

奖励（Reward）
环境给的反馈。撞墙了，扣1分；吃到金币，加10分。探险家的目标是把总分刷到最高。

策略（Policy）
探险家的“脑子”，告诉它“啥时候干啥”。一开始可能是瞎猜，后来就变聪明了。

故事是这样的：探险家走进森林，啥也不知道，先乱试几下。比如玩超级马里奥，它可能跳起来撞墙（-1分），或者踩到乌龟（+5分）。每次试完，环境给个信号，它就调整策略，慢慢学会“跳过乌龟好，撞墙傻乎乎”。时间长了，它就成了“森林之王”。

来源：佳佳课堂

标签：学习超级马里奥 agent 乌龟 reward

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!