专家增强强化学习 - 蒙特沙姆复仇的代理商
加强学习正在获得通知作为培训神经网络来解决需要灵活,创造性的方法的开放问题的一种方式。作为培训钢筋学习代理需要大量的计算能力和时间,研究人员正在寻找缩短过程的方法并不奇怪。专家增强学习似乎是一个有趣的方法。
本文查看:
- 为什么加固学习的学习过程是漫长而复杂的
- 将专家知识转移到神经网络中以解决这一挑战
- 在实践中应用专家增强强化学习
- 可能用例技术
设计一个激励RL代理按照期望的方式行动的奖励系统是这项技术的基础。虽然这确实是有效的,但仍然有一些缺点限制了它的用途。一个是训练过程的复杂性,它随着待解决问题的复杂性而迅速增长。更重要的是,代理解决问题的第一次尝试通常是完全随机的。在学习跑步,一个经纪人被训练以像人类移动的项目,在几百万次初始运行期间,代理人将在或落后。
当环境和任务都很复杂时,“执行错误”的可能性,以及数据科学家可能无法发现模型内的隐藏缺点。
当然,代理总是在不考虑大局的情况下寻找最大化奖励和减少惩罚的方法。这就是为什么环境中的任何小故障在被发现后都会被最大限度地利用。以下是来自游戏《Qbert》的一个典型例子:
有关代理和发现的错误的详细信息本文涵盖:arxiv。
教神经网络执行人类毫不费力就能完成的任务,比如抓一罐可乐或驾驶一辆汽车,其挑战在于传递执行任务所需的知识。把神经网络放在基米·雷克南旁边的座位上,让它学习如何像专业司机一样驾驶汽车,这将是非常棒的。不幸的是,这是不可能的。
或者是吗?
蒙特祖玛对人工智能的报复
验证强化学习算法最常见的方法是让他们玩雅达利的经典游戏,如《太空入侵者》或《Breakout》。这些游戏提供了一个足够复杂的环境,以测试模型是否能够处理大量变量,但又足够简单,不会消耗提供计算能力的服务器。
虽然代理人倾向于相对容易地破解这些游戏,但像经典的蒙特扎乌玛的复仇一样冒着相当大的挑战。
For those who missed this classic, Montezuma’s Revenge is a platform game where an Indiana Jones-like character (nicknamed Panama Joe) explores the ancient Aztec pyramids, which are riddled with traps, snakes, scorpions and sealed doors, the keys to which, of course, are hidden in other rooms. While similar to Mario Bros games, it was one of the first examples of the “Metroidvania.“子群,带有梅德里德和Castlevania系列是最着名的游戏。
Montezuma的复仇提供了不同的游戏体验,而不是太空入侵者:它提供的世界更加开放,而不是地图上的所有对象都是敌对的。代理人需要弄清楚蛇是致命的,而钥匙需要打开门并踩踏它不仅是无害的,而且对完成水平至关重要。
目前,强化学习独自努力解决蒙特祖玛的复仇。让更有经验的玩家提供指导可以节省大量时间。
意志被束缚,心灵被解放
为了与神经网络分享人类知识,必须提供关于专家的信息以及它们在给定环境中的行为方式。在Montezuma的复仇的情况下,这意味着提供屏幕的快照和玩家的反应。如果他或她正在驾驶汽车,则必须采取任何数量的额外步骤:需要记录轨道,并且还需要提供有关车轮的轿厢和位置的信息。
在训练的每一个阶段,代理不仅被激励着去最大化回报,还被激励着去模仿人类。当游戏环境中没有即时奖励时,这一点尤其有用。
然而,跟随专家的缺点是网络不能发展对意外情况作出反应的能力。以莱科宁的驾驶为例,该网络将能够在记录的赛道上表现良好,但在其他天气条件下比赛或与新对手比赛将使该网络无能为力。这正是强化学习的亮点所在。
在Montezuma的复仇的情况下,我们的算法培训涉及遵循专家之间的平衡并最大限度地提高奖励。因此,如果专家从未踩过蛇,则代理商也不会。如果专家做了一些事情,那就可能做了相同的事情。如果代理人在新的情况下发现自己,它会尽力遵循专家的行为。如果忽略建议的奖励是高,它选择了较大的有效载荷。
如果你迷路了,走到路上坚持下去,直到你进入一个熟悉的社区,对吧?代理人是总是有动力模仿专家的行为。刚刚复制人类行为的方法,然后让代理人随机探索太弱,无法提供值得注意的结果.
通过专家知识增强加强学习的想法证明是令人惊讶的。我们的型号在蒙特沙姆的复仇中表现良好,在水平之后跳动水平。此外,它并没有停止利用奖励政策来最大限度地提高其奖励。代理商在游戏中发现了未发表的错误。这一发现导致了804 900点的得分 - 世界纪录。我们的代理通过这里所示的无尽奖励最大化循环推动:
虽然令人讨厌,但是循环本身就是证明代理人遵循专家。具有足够的动力,能够制定自己的策略来最大限度地提高其奖励,从而创造专家知识。
克隆和提高人类行为是机器学习的最终目标之一。尽管如此,专家实际上并没有成为一种人类。这导致有趣的可能性。一台机器可用于模仿与不采用人工智能的方法编程的其他机器,然后在其顶部构建。
总结-降低成本
用专家知识增强强化学习为人工智能设备的发展开辟了新途径。
- 它遵循人类的行为,利用两个世界的最佳,以及强化学习代理在利用环境中存在的便利机会和漏洞方面的超人天赋特征。
- 它通过减少随机性来增加安全性,特别是在学习的早期阶段。
- 它显着减少了学习所需的时间,因为代理人从人类专家获取暗示,从而减少了对完全随机探索的需求。
设计强化学习代理费用和任务的复杂性和水平增加呈指数增长的变量,利用专家知识培训代理很划算的:它不仅降低了数据和计算能力的成本,但也获得结果所需的时间。我们的解决方案的技术细节可以在这里找到:Arxiv.org.和这里:github存储库.
特别的合作
在这个项目中,我们与独立研究员Michał Garmulewicz (blog,github),谁提供了基本的技术和概念性投入。我们希望继续与Michał和其他研究人员进行这样的合作。