据verge等外媒报道,专注于推进人工智能(ai)研究的谷歌子公司deepmind今天发布了一款新版本的alphago程序,它能通过自学玩转多种游戏。这套系统名为“alphago zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己的对决游戏中吸取教训。
在击败韩国棋神李世石,并且今年5月击败“世界围棋第一人”柯洁后,alphago迎来了一次新生。昨天,deepmind 在《自然》杂志上发表了一篇论文,正式介绍了这个人工智能围棋程序及其演化:
- alphago zero从零开始自我学习下围棋。
- 仅仅36小时后,alphago zero靠着自我学习,就摸索出所有基本且重要的围棋知识,达到了与李世石九段对战的alphago v18的相同水平。
- 30天后,不断进步的alphago zero达到了master的水平。master即年初在网上达成60连胜的alphago版本。
- 40天后,alphago zero对战master达到近90%胜率,成为有史以来alphago的最强版本。
之前的alphago版本首先基于数千场人类围棋比赛来训练如何学习围棋。但alphago zero跳过了这一步,从自己完全随机的下围棋开始来学习围棋。通过这种“无师自通”的方式,它快速超越了人类棋手的水平,并且以 100:0 的比分打败了之前战胜世界冠军的alphago,堪称“最强棋手”。
硬件和算法上的变化才是系统更加强大和高效的重要原因。alphago zero的运作非常高效,它只需要一台机器和4个tpu。在训练过程中,alphago zero每下一步需要思考的时间是0.4秒。
由于是自我对弈学习下棋,并且是在世界上最强大的棋手——alphago本身学起,alphago zero很快超过了人类水平,并且走出了很多新的步法。利用“强化学习”的新模式,从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。
等级分排名(在围棋等竞争性比赛中对选手的相关技巧的水平的度量):显示 alphago 如何在发展过程中逐渐变得强大。
alphago的首席研究员大卫·席尔瓦(david silver)表示,“由于未引入人类棋手的数据,alphago zero远比过去的版本强大,我们去除了人类知识的限制,它能够自己创造知识。
deepmind联合创始人宣布了alphago zero面世的消息,并称公司“要解决的是智能上的问题”
与此前的alphago一大不同之处在于,alphago zero仅用了单一的神经网络。在此前的版本中,alphago 用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,依靠的是其高质量的神经网络来评估下棋的局势,从而让它能得到更高效的训练和评估。
alphago zero中的自我对抗强化学习
这一进展标志着通用型ai发展的大一里程碑。大多数ai被认为“用途有限”,因为它们只能执行单一任务,例如,翻译、识别面孔。但通用型ai在许多不同任务上拥有超越人类的潜能。像alphago zero就正在研究蛋白质如何折叠的问题,这是一个艰难的科学挑战,不过有望成为药物发明的一大突破。类似的其他结构性问题如减少能耗和寻找新材料也有望利用通用型ai来完成。
p48 q0
品牌、内容合作请点这里:
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载app
关注微信号
扫一扫下载app
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
咨询专线:400-068-7188
我要投稿
×