亚博波胆deadsense.ai.亚博波胆deadsense.ai.logo
  • 客户的故事
  • 行业
    • 零售
    • 制造业
    • 金融和保险
    • IT运营
    • TMT和其他
    • 医疗美容
  • 训练你的团队
  • 研发枢纽
  • 博客
  • 关于我们
    • 我们的故事
    • 管理
    • 咨询委员会
    • APP亚博娱乐
    • 职业生涯
    • 暑期实习
  • 接触
  • 菜单菜单
专家增强强化学习 - 蒙特沙姆复仇的代理商

专家增强强化学习 - 蒙特沙姆复仇的代理商

2018年9月21日/在加强学习/通过康拉德Budek

加强学习正在获得通知作为培训神经网络来解决需要灵活,创造性的方法的开放问题的一种方式。作为培训钢筋学习代理需要大量的计算能力和时间,研究人员正在寻找缩短过程的方法并不奇怪。专家增强学习似乎是一个有趣的方法。

本文查看:

  • 为什么加固学习的学习过程是漫长而复杂的
  • 将专家知识转移到神经网络中以解决这一挑战
  • 在实践中应用专家增强强化学习
  • 可能用例技术

设计一个激励RL代理按照期望的方式行动的奖励系统是这项技术的基础。虽然这确实是有效的,但仍然有一些缺点限制了它的用途。一个是训练过程的复杂性,它随着待解决问题的复杂性而迅速增长。更重要的是,代理解决问题的第一次尝试通常是完全随机的。在学习跑步,一个经纪人被训练以像人类移动的项目,在几百万次初始运行期间,代理人将在或落后。
当环境和任务都很复杂时,“执行错误”的可能性,以及数据科学家可能无法发现模型内的隐藏缺点。
当然,代理总是在不考虑大局的情况下寻找最大化奖励和减少惩罚的方法。这就是为什么环境中的任何小故障在被发现后都会被最大限度地利用。以下是来自游戏《Qbert》的一个典型例子:

有关代理和发现的错误的详细信息本文涵盖:arxiv。
教神经网络执行人类毫不费力就能完成的任务,比如抓一罐可乐或驾驶一辆汽车,其挑战在于传递执行任务所需的知识。把神经网络放在基米·雷克南旁边的座位上,让它学习如何像专业司机一样驾驶汽车,这将是非常棒的。不幸的是,这是不可能的。
或者是吗?

蒙特祖玛对人工智能的报复

验证强化学习算法最常见的方法是让他们玩雅达利的经典游戏,如《太空入侵者》或《Breakout》。这些游戏提供了一个足够复杂的环境,以测试模型是否能够处理大量变量,但又足够简单,不会消耗提供计算能力的服务器。
虽然代理人倾向于相对容易地破解这些游戏,但像经典的蒙特扎乌玛的复仇一样冒着相当大的挑战。

有关的: 建立一个钢筋和钢筋学习和人工想象力

For those who missed this classic, Montezuma’s Revenge is a platform game where an Indiana Jones-like character (nicknamed Panama Joe) explores the ancient Aztec pyramids, which are riddled with traps, snakes, scorpions and sealed doors, the keys to which, of course, are hidden in other rooms. While similar to Mario Bros games, it was one of the first examples of the “Metroidvania.“子群,带有梅德里德和Castlevania系列是最着名的游戏。
Montezuma的复仇提供了不同的游戏体验,而不是太空入侵者:它提供的世界更加开放,而不是地图上的所有对象都是敌对的。代理人需要弄清楚蛇是致命的,而钥匙需要打开门并踩踏它不仅是无害的,而且对完成水平至关重要。
目前,强化学习独自努力解决蒙特祖玛的复仇。让更有经验的玩家提供指导可以节省大量时间。

意志被束缚,心灵被解放

为了与神经网络分享人类知识,必须提供关于专家的信息以及它们在给定环境中的行为方式。在Montezuma的复仇的情况下,这意味着提供屏幕的快照和玩家的反应。如果他或她正在驾驶汽车,则必须采取任何数量的额外步骤:需要记录轨道,并且还需要提供有关车轮的轿厢和位置的信息。
在训练的每一个阶段,代理不仅被激励着去最大化回报,还被激励着去模仿人类。当游戏环境中没有即时奖励时,这一点尤其有用。
然而,跟随专家的缺点是网络不能发展对意外情况作出反应的能力。以莱科宁的驾驶为例,该网络将能够在记录的赛道上表现良好,但在其他天气条件下比赛或与新对手比赛将使该网络无能为力。这正是强化学习的亮点所在。

有关的: 学习跑步 - 钢筋学习的一个例子

在Montezuma的复仇的情况下,我们的算法培训涉及遵循专家之间的平衡并最大限度地提高奖励。因此,如果专家从未踩过蛇,则代理商也不会。如果专家做了一些事情,那就可能做了相同的事情。如果代理人在新的情况下发现自己,它会尽力遵循专家的行为。如果忽略建议的奖励是高,它选择了较大的有效载荷。
如果你迷路了,走到路上坚持下去,直到你进入一个熟悉的社区,对吧?代理人是总是有动力模仿专家的行为。刚刚复制人类行为的方法,然后让代理人随机探索太弱,无法提供值得注意的结果.
通过专家知识增强加强学习的想法证明是令人惊讶的。我们的型号在蒙特沙姆的复仇中表现良好,在水平之后跳动水平。此外,它并没有停止利用奖励政策来最大限度地提高其奖励。代理商在游戏中发现了未发表的错误。这一发现导致了804 900点的得分 - 世界纪录。我们的代理通过这里所示的无尽奖励最大化循环推动:

虽然令人讨厌,但是循环本身就是证明代理人遵循专家。具有足够的动力,能够制定自己的策略来最大限度地提高其奖励,从而创造专家知识。
克隆和提高人类行为是机器学习的最终目标之一。尽管如此,专家实际上并没有成为一种人类。这导致有趣的可能性。一台机器可用于模仿与不采用人工智能的方法编程的其他机器,然后在其顶部构建。

总结-降低成本

用专家知识增强强化学习为人工智能设备的发展开辟了新途径。

  • 它遵循人类的行为,利用两个世界的最佳,以及强化学习代理在利用环境中存在的便利机会和漏洞方面的超人天赋特征。
  • 它通过减少随机性来增加安全性,特别是在学习的早期阶段。
  • 它显着减少了学习所需的时间,因为代理人从人类专家获取暗示,从而减少了对完全随机探索的需求。

设计强化学习代理费用和任务的复杂性和水平增加呈指数增长的变量,利用专家知识培训代理很划算的:它不仅降低了数据和计算能力的成本,但也获得结果所需的时间。我们的解决方案的技术细节可以在这里找到:Arxiv.org.和这里:github存储库.

特别的合作

在这个项目中,我们与独立研究员Michał Garmulewicz (blog,github),谁提供了基本的技术和概念性投入。我们希望继续与Michał和其他研究人员进行这样的合作。

分享此条目
  • 在脸书上分享
  • 在Twitter上分享
  • 在WhatsApp分享
  • 分享在LinkedIn
  • 分享Reddit.
  • 通过邮件分享
https://亚博波胆www.coxjunk.com/wp-content/uploads/2019/02/Expert-augmented-reinforcement-learning--agents-of-Montezuma 's-Revenge.jpg337.1140康拉德Budekhttps://亚博波胆www.coxjunk.com/wp-content/uploads/2019/04/ds_logo_color.svg.康拉德Budek2018-09-21 13:23:422021-01-05 16:47:11专家增强强化学习 - 蒙特沙姆复仇的代理商

yabo波胆从这里开始搜索

通讯订阅

    您可以随时修改您的隐私设置和取消订阅我们的列表(请参阅我们的隐私政策)。

    该网站由Recaptcha和Google保护隐私政策和服务条款申请。

    最新的ai每月摘要

    • AI每月摘要20  -  TL; DRAI月刊20 - TL;DR2020年5月12日

    类别

    • Elasticsearch.
    • 计算机视觉
    • 人工智能
    • Aiops.
    • 大数据和火花
    • 数据科学
    • 深度学习
    • 机器学习
    • 海王星
    • 加强学习
    • 海马
    • 工作机会
    • 流行帖子
    • AI每月消化
    • 新闻稿

    流行帖子

    • AI趋势2021AI趋势20212021年1月7日,
    • 需求预测的综合指南需求预测的综合指南2019年5月28日
    • 什么是强化学习?完整的指南什么是强化学习?完整的指南2018年7月5日

    你想要吗?
    了解更多吗?

    联系我们!
    • 亚博波胆Deepsense.ai标志白色
    • 行业
    • 零售
    • 制造业
    • 金融和保险
    • IT运营
    • TMT和其他
    • 知识库
    • 博客
    • APP亚博娱乐
    • 亚博波胆deadsense.ai.
    • 我们的故事
    • 管理
    • 科学咨询委员会
    • 职业生涯
    • 支持
    • 服务条款
    • 隐私政策
    • 联系我们
    • 加入我们的社区
    • Facebook徽标linkedin的标志twitter的标志
    • ©D亚博波胆eepsense.ai 2014-
    滚动到顶部

    此站点使用cookie。通过持续浏览该网站,您同意我们对Cookie的使用。

    好的 了解更多

    cookie和隐私设置



    我们如何使用cookie

    我们可以请求要在设备上设置的cookie。我们使用cookie在访问我们的网站时让我们知道如何与我们互动,丰富您的用户体验,并与我们的网站定制您的关系。

    单击不同的类别标题以了解更多信息。您还可以更改您的一些偏好。请注意,阻止某些类型的cookie可能会影响您对我们网站的经验和我们能够提供的服务。

    基本网站cookie

    这些cookie严禁为您提供通过我们的网站提供的服务,并使用其一些功能。

    因为这些cookies对网站的传递是非常必要的,拒绝它们将会影响我们网站的功能。你可以通过改变浏览器设置来阻止或删除cookies,并强制阻止本网站上的所有cookies。但这将始终提示您接受/拒绝cookies时,重新访问我们的网站。

    我们完全尊重,如果你想拒绝饼干,还可以避免再次询问你,再次允许我们为那个饼干来存储饼干。您可以自由选择任何时间或选择其他饼干以获得更好的体验。如果您拒绝Cookie,我们将删除我们域中的所有设置cookie。

    我们为您提供一个存储在我们域您的计算机上的cookies的列表,以便您可以检查我们存储了什么。由于安全原因,我们不能显示或修改来自其他域的cookie。您可以在浏览器的安全设置中检查这些设置。

    其他外部服务

    我们还使用Google Webfonts,Google地图和外部视频提供商等不同的外部服务。由于这些提供者可以收集像您的IP地址这样的个人数据,因为我们允许您在此阻止它们。请注意,这可能会严重降低我们网站的功能和外观。重新加载页面后,更改将生效。

    Google Webfont设置:

    谷歌地图设置:

    谷歌reCaptcha设置:

    Vimeo和YouTube视频嵌入:

    隐私政策

    您可以在我们的隐私策略页面上详细阅读我们的cookie和隐私设置。

    接受设置 隐藏通知只