星期日 , 12月 22 2024
首页 / 新知快讯 / 24H看点 / 首战告负,AlphaGo 2.0是如何战胜柯洁的?

首战告负,AlphaGo 2.0是如何战胜柯洁的?

首战告负,AlphaGo 2.0是如何战胜柯洁的?

柯洁的首战,到底还是输了。

尽管AlphaGo连胜人类高手60局,与柯洁的这场对战也不能说毫无悬念,毕竟在AlphaGo大败韩国围棋第一人李在石时,柯洁曾十分自信道:“就算阿法狗战胜了李世石,但它赢不了我。”

首战告负,AlphaGo 2.0是如何战胜柯洁的?

然而今天的战果却再一次证明了AlphaGo的强悍,人工智能的逆天。

按照比赛规则,柯洁和 AlphaGo 各有三个小时的时间;但在现场的比赛中,整体的节奏比预想中的要快很多。

尤其是 AlphaGo,它的平均出子时间为 30 秒左右,现场解说的职业八段棋手张璇和职业九段棋手常昊多次用“高效、果断”来评价它的表现;而柯洁的应对状况比较多变,有时会立刻下子,有时也会思考很长时间。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

最终比赛的结果也并不十分出人意料,在比赛进行了四个多小时之后,柯洁九段执黑负于 AlphaGo,AlphaGo 赢四分之一子。

但今天仅是柯洁的第一场比赛,从25日开始,柯洁与 AlphaGo 之间按计划将进行第二场对垒赛,27号将举行第三场。除此之外,还有两场群战。

属于人类的大逆转会出现吗?

事实上,就在昨晚,柯洁在新浪微博发表了题为《最后的对决》的赛前宣言,曾谦虚得表示到:“其实私底下我已经与朋友家人说了很多次这样的想法,现在的AI进步之快远超我们的想象。像国产的绝艺、日产的ZEN虽然和AIphago还有着较大差距,但已经表现出超强的实力了…我相信未来是属于人工智能的。”

首战告负,AlphaGo 2.0是如何战胜柯洁的?

为此王思聪还留言称“哟,当时李和alphago下的时候你那嚣张劲儿哪儿去了?。”

首战告负,AlphaGo 2.0是如何战胜柯洁的?

一向奉王思聪为国民老公的网友这次却站在了王思聪的对立面,纷纷发言为柯洁出头,“不嚣张能吸引你这种棋盲来关注围棋?王公子不知道你对人工智能和围棋的了解程度有多少?”

还有网友回应王思聪:“人家嚣张是因为人家蝉联世界冠军,你嚣张只是因为你是王健林的儿子。”

甚至喊出“赢了陪你狂,输了陪你扛”的口号。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

事实上,柯洁或许还是当初战胜李在石的天才少年,AIphago却早已不是当年和李世石下棋时的AlphaGo了。

AlphaGo 对阵李世石时的版本号是 V18,而当下的版本估计已经到了 V60,在逻辑上和棋局策略上已经今非昔比。

和李世石下棋时,AlphaGo配备了1920个CPU加280个GPU,如今经过一年多的软硬件升级,计算能力已武装到了牙齿。

不过,AlphaGo用的真的不是穷举,而是一套结合了深度学习(Deep Learning)与增强学习(Reinforcement Learning)的系统。

DeepMind团队在《自然》杂志上发表的《用深度神经网络和树搜索掌握围棋博弈(Mastering the Game of Go with Deep Neural Networks and Tree Search)》论文中详细介绍了AlphaGo是怎么下棋的,此处粗浅的介绍一下流程。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

首战告负,AlphaGo 2.0是如何战胜柯洁的?

1、分析专业棋手棋谱,得到两个结果,快速走棋策略(Rollout Policy)与策略网络(SL Policy Network)。其中快速走棋策略类似于人观察盘面获得的“直觉”,使用线性模型训练;策略网络则经过深度学习模型训练进行分析,类似于人类的“深思熟虑”。

2、用新的策略网络与先前训练好的策略网络互相对弈,利用增强学习来修正参数,最终得到增强的策略网络(RL Policy Network),类似于人类左右互搏后得到一个“更加深思熟虑”的结果,对某一步棋的好坏进行判断。

3、将所有结果组成一个价值网络(Value Network),对整个盘面进行“全局分析”判断,图中蓝色越深的位置赢面越大,这样可以让程序有大局观,不会因蝇头小利而输掉整场比赛。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

4、综合“直觉”、“深思熟虑”、“全局分析”的结果进行评价,循环往复,找出最优落子点。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

而当下版本 AlphaGo 最骇人之处,在于它已经跳出了学习人类棋盘的方法,而进入了自己左右手互搏,自己学习各种情况的局面,一方面它所学习到的棋局广度非人类可想象,另一方面它的出招可能越来越没有“套路”可言。

柯洁也曾在赛后感叹,“对手就像围棋上帝”。但外界更想知道的是,即便AlphaGo打遍全天下无敌手,它对人类究竟有什么实际价值。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

据说,DeepMind正在使用AlphaGo系统的变体来服务其他行业,其中一种变体应用于医疗行业,他们正在着力解决蛋白质折叠的问题。

这家公司在未来几十年会将善意程序编入机器。“如何检查和解读系统的操作目的,我们也会在建造机器的过程中解决这些问题。”Demis Hassabis说。

人工智能领域,最让他兴奋的两件事:深度学习和强化学习。前者用于识别,后者用于决策。

DeepMind的最终目标是智能助手、医疗和机器人等。Scott Beaumont曾经在4月初的发布会上表示,尽管AlphaGo只是针对围棋开发的系统,但其原理可以被应用到现实问题中,比如医疗中的癌症检测、机器人训练等。

首战告负,AlphaGo 2.0是如何战胜柯洁的?

即便这场三番棋赛柯洁最终获胜,但人工智能的潮流已无法阻隔。而未来人工智能如此逆天,人类该能拿它怎么办?

“卷积神经网络之父”、深度学习三巨头之一、Facebook人工智能研究院院长Yann LeCun曾如此说道,人类的占领、统治、斗争等大部分行为,都是在一代代进化的过程中,受到“希望获得资源”这一目的所驱动的。而如果我们想要机器做一件事情,则需要给它赋予这个能力,朝这个目的去打造机器。

如今我们已经做出了在特定领域比人类更智能的机器,但人工智能并不会真正统治世界,因为我们并不会朝这个目的去做。

如果“未来是属于人工智能的”,那么人类也应该无所畏惧。

在火车刚刚发明的时候,美国某位权威人士曾经预言:“如果美国建设铁路,首先要建许多家精神病院,因为人们看见呼啸而过的火车会被吓破胆的。”

如今,谁又会因为火车呼啸而过恐慌不已呢?

关于 吉运好熊

吉运好熊
清华计算机系

检查

巴菲特年底购股大动作:增持西方石油等多家公司

圣诞节前夕,巴菲特趁近几天美股 …

发表评论

邮箱地址不会被公开。 必填项已用*标注