在游戏中卡壳时,你是会继续反复地撞南墙,还是转而探索游戏地图的其它方向?也许是受古装戏影响,我们可能会四处寻找密道开关。但当前的人工智能可能会选择前一种,不达目的不罢休。
加州大学伯克利分校最近发布的论文,则想要开阔人工智能的视野,让它在卡壳时退一步,转而探索更广阔的天地,对视野外的世界产生兴趣。论文被 8 月的国际机器学习大会接收。
刚刚退役的 AlphaGo,使用蒙特卡罗树搜索来决定下一步,并依据此前的经验确定加权值,给出相对的奖励反馈,借此让机器具备人工编程没有设计的技能。这种机器学习方法叫做“增强学习”,特点是奖励高效和阻止无效的行为。
这种方法的缺点则是,需要大量的训练工作,并且不管什么情况都只追求高回报的行动,哪怕损害整体效率也不在乎。如果 AI 不能立即获得所需的反馈,继续行进可能会遇到困难,尤其是在反馈不明显的电子游戏中。
伯克利研究团队的方法,是在缺乏奖励、甚至没有奖励的情况下,训练人工智能探索环境。研究人员让 AI 学会了在动态环境中预测行动造成的误差,并将这种探索的动力称为“好奇心”。小宝宝们经常就有这种实验行为,他们受好奇心的指引,在天马行空的探索中学习技能。
为了训练神经网络,研究人员让人工智能学习玩《马里奥兄弟》和射击游戏《毁灭战士》。结果如同视频中所示,有好奇心的 AI 没有盲目地重复回报较高的行动,对游戏整体有了更多把握,学会了观察周遭环境和快速地移动,而没有花很多时间去撞眼前的墙。
研究人员认为,在许多现实的场景常常缺乏外在的奖励。在这种情况下,好奇心可以作为内在的动力,让 AI 探索环境,学习后期才会有用的技能。这或许可以为机器人导航任务带来启发,也能让机器人学会抓握奇形怪状的物体。机器人往往浪费大量时间做无用功,比如尝试很多随机的手势。如果配备了好奇心,机器人可以很快掌握环境信息并作出相应的动作。
让人工智能具备好奇心已经成为该领域的研究热点。纽约大学的科学家 Brenden Lake 接受《麻省理工科技评论》采访时说,好奇心驱动的学习技术并没有关注得分,但也能在游戏中让 AI 表现更好,这令人惊讶,“配备与人相似的特征,是开发出具备人类的学习思考能力的机器人的重要一步”,但这项研究里的好奇心仍然不同于孩童身上的好奇心,“AI 只好奇和自己有关的环境特点。但人类的好奇心更加宽泛。他们不只关心周遭的世界。”
这也不是 AI 第一次玩《马里奥兄弟》。这款游戏一直是人工智能的试验田。2015 年,德州大学奥斯汀分校开发的 MarI/O 程序( GitHub 链接),用吃一堑长一智的方法在 34 次尝试后通关,但它并没有预测的能力。
也是 2015 年,德国蒂宾根大学开发的 Mario A.I. 项目,让 AI 学习人类的语音内容,理解英文的攻略,并获得过关的经验。更早的年代,2009 ~ 2012 年间,网络上还曾举办过马里奥 AI 大赛,之后被平台 AI 大赛所取代。
而谷歌旗下的 DeepMind 在拿下围棋之后,也要挑战《星际争霸》了。过去七年间一直有类似的尝试,但 AI 从未赢过和熟练玩家的比赛。DeepMind 也并未表明何时会开展人机对决,只计划在未来几个月内发布相关的接口。
但人工智能发展速度如此之快,在电子竞技上打败人类的那一天也许并不遥远。