?
山东生活网 > 科技之家 > 正文

王小川:和柯洁对阵的AlphaGo 2.0没风格 稳如磐石

核心提示: 本文作者:王小川 最早发于知乎 该来的终于来了。 一年前AlphaGo发布,看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信,为此我收了很多智商税,之后微信发红

本文作者:王小川 最早发于知乎

该来的终于来了。

一年前AlphaGo发布,看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信,为此我收了很多“智商税”,之后微信发红包一直发到春节才发完。此外我还立了两个断言:一个是Google很有可能再研发出AlphaGo 2.0,摆脱“监督学习”,不再需要人类下围棋的历史数据,而是只通过“增强学习”,两台AlphaGo自我对战学习如何下棋,并达到登峰造极的地步。从公开的资料判断,此言中了。这意味着什么呢,又有什么看点呢?

技术重大提升:和1.0原理大不同 更接近于人

AlphaGo 1.0是巧妙地混合了三种算法:蒙特卡洛树搜索+监督学习+增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算,比1997年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习3000万步人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助,是两台AlphaGo从自我对战众中学习如何下棋,据悉对棋力提升有限。

根据公开资料推测,此次AlphaGo2.0的技术原理与之前有着巨大不同:

1. 放弃了监督学习,没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法,也是今天主流机器学习不可避免的核心条件:依赖于优质的数据,在这个特定问题下就这么被再次突破了。

2. 放弃了蒙特卡洛树搜索,不再进行暴力计算。理论上,算法越笨,就越需要暴力计算做补充。算法越聪明,就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看,走棋非常迅速,约在每10秒钟就走棋一步,如此速度很可能是放弃了暴力的计算。

3. 极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。想想看有多励志:两台白痴机器,遵守走棋和获胜规则,从随机走棋开始日夜切磋,总结经验,不断批评和自我批评,一周后终成大器。

在这样的算法下,AlphaGo 2.0对计算资源开销极小,把当前棋局输入神经网络,电流流过,输出就是最佳的走棋方案。我猜测如此算法下,有可能仅仅依靠一个GPU工作,每一步棋消耗的能源接近人的大脑。

最大看点: AlphaGo2.0棋风完全脱离人类经验

今年年初,AlphaGo化身Master连胜人类顶尖棋手60局。在围棋领域,机器完胜已经变成公认的定论。这导致很多人开始问:这次人机大战还有意义吗?我们的关注点不再是机器是否会赢——而是机器将用什么姿势战胜人类。

AlphaGo学习了3000万步人类棋谱,走棋风格也近似于人。在比赛现场,偶有AlphaGo走棋和人的经验不符合,就被评为“愚蠢”,只是在中盘之后发现机器渐渐局面占优最终获胜,为了自圆其说解读为“AlphaGo中盘逆转”,前两局莫过如此。第三局开始评论者长了教训,开始尊称AlphaGo为“阿老师”,有了欣赏和敬畏的心态。这带给围棋界很大的冲击,以前大家认为正确的东西,其实是不正确的??陆嘣兰鬯担?ldquo;AlphaGo出现,很多理论都被推翻,再看以前定式变得好笑,亏那么多目就不再是两分。”人类通过数千年实战,总结了围棋理论,然后计算机告诉人类:这些全都是错的。现在在很多比赛上,人类棋手已经开始向机器学习,模仿AlphaGo的下法,棋圣聂卫平也曾表示“理论被颠覆了”。

而AlphaGo2.0脱离了机器对人模仿,走棋风格也将完全脱离人的定式。在与柯洁的比赛中,会不断出现我们意想不到的走棋,而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻,但凡一个正常的棋手都不会这么玩,但凡一个新手这么玩都会被点拨这样不对。而AlphaGo2.0会不断制造这样的局面,关键他还是对的??上攵宰ㄒ灯迨值男睦锘嵊卸啻蟮恼鸷常翰唤鲎约赫庖槐沧佣济徽饷聪牍饷聪缕?,整个围棋界都没有想过?;岵换峄骋勺约喊谆盍??会不会反思两千年围棋的发展为什么有这样的瓶颈?还有多少海阔天空等着我们去探索?可等不及我们去探索,计算机就给出了终局的答案,多么惆怅。

我们会津津乐道,AlphaGo是什么棋风。但可以这样推理:但凡有流派和风格,就还有局限性。只有当所有流派合一看不出流派的时候,才到达致高境界。AlphaGo 2.0便会是这么一台机器,没有风格,稳如磐石。

可以想见这次与柯洁的对弈,能频现“怪招”,完全颠覆人类对围棋的理解——这会是比赛最大的看点。英勇的柯洁,要解锁108种姿势来抵挡了。

2017人机大战的意义:重演一部进化史 重新认识智慧的边界

2016年在AlphaGo和李世乭的对战后,人工智能进入大众的视野,我们开始重新思考机器和人的关系。

围棋已经有两千多年的历史,在漫长岁月的琢磨中,围棋理论不断进化,到达了很高的水准,AlphaGo的获胜,我们大可以解读于“青出于蓝”,毕竟是在人类围棋进化的主路径上又攀高峰。

而AlphaGo2.0完全抛弃掉人类这两千年来进化的围棋经验,另寻他径,仅凭两台机器自我对弈中学习和进化,最终不仅赶超了人类进化的速度,还发展出一套截然不同的下棋方法,并且更加接近完美的状态,实现了对人类的碾压,重演了一部围棋的进化史,而且得出了与这两千年来不同的进化结果。

这会给我们什么启示?如果跳出围棋的规则,类比看地球生命的进化:人类是从原始的有机物,到单细胞开始逐步变成灵长类动物,并且发展出超越其他一切生物的智慧。这条路径是唯一的么?人类的生命形态和最顶级的生命形态还有多大距离?AlphaGo告诉我们:我们还有极大的发展空间;AlphaGo2.0告诉我们:如果有合适的条件,完全可能有其他的生命进化路径,以及更不一样的进化结果。

让我们欢呼人的智慧造就了AlphaGo,这也帮我们开了眼界,看到我们离最终的生命形态和智慧依然有遥远的距离。

保持敬畏,坚定前行,终得圆满。

?
  • 网站工作人员内容发布须知:①遵守“七条底线”,文明上网,争做文明网民。
  • ②稿件以正面宣传为主。③来源必须标注。④不能发布虚假失实稿件。
  • ⑤不能发布医疗稿件。⑥不能恶意篡改新闻标题。
菲律宾菠菜公司大全 石楼县| 醴陵市| 阳谷县| 宁津县| 锦州市| 新源县| 六枝特区| 南安市| 沭阳县| 青河县| 寻乌县| 洪洞县| 嫩江县| 永和县| 武城县| 乌拉特后旗| 平塘县| 巴林左旗| 永仁县| 新平| 德州市| 三原县| 马龙县| 通榆县| 平陆县| 东乡族自治县| 常山县| 墨竹工卡县| 沙洋县| 永兴县| 砚山县| 兖州市| 天柱县| 高要市| 原阳县| 喜德县| 平顶山市| 溧水县| 南丰县| 花莲县| 河津市| 天等县| 新巴尔虎左旗| 彰化县| 新余市| 永兴县| 吉木萨尔县| 岱山县| 江华| 普宁市| 平阳县| 收藏| 教育| 崇阳县| 富平县| 波密县| 汕尾市| 安阳县| 永福县| 怀化市| 会宁县| 旺苍县| 尤溪县| 桦南县| 仁布县| 施秉县| 衡南县| 辽宁省| 宜城市| 吴川市| 彝良县| 名山县| 大名县| 肥城市| 错那县| 巴林右旗| 定州市| 洛川县| 芮城县| 扎囊县| 景谷| 横山县| 长寿区| 拜泉县| 绥芬河市| 平山县| 西安市| 长武县| 桐庐县| 凤阳县| 陆川县| 盈江县| 巴东县| 交口县| 江城| 怀来县| 福清市| 伊金霍洛旗| 白城市| 同心县| 商南县| 边坝县| 怀远县| 竹北市| 庄浪县| 塔河县| 麻城市| 兴安县| 巨野县| 平乐县| 镇宁| 宝清县| 西乌| 江城| 海兴县| 芮城县| 泸水县| 盐池县| 肥东县| 汾阳市| 徐水县| 盐津县| 安平县| 无棣县| 桦南县| 清远市| 五峰| 永和县| 德化县| 韶关市| 罗田县| 重庆市| 呼和浩特市| 新巴尔虎右旗| 井冈山市| 陆良县| 沙雅县|