您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
阿尔法元无师自通却完爆阿尔法狗,你怎么看?
人工智能,人类,神经网络阿尔法元无师自通却完爆阿尔法狗,你怎么看?
发布时间:2016-12-08加入收藏来源:互联网点击:
阿尔法元无师自通却完爆阿尔法狗,你怎么看?
问题补充:
人工智能领域又有巨大突破,DeepMind新一代的阿法元(AlphaGo Zero), 完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcement learning)和参悟, ,棋艺增长远超阿法狗,百战百胜,击溃阿法狗100-0。
对于这件事你怎么看?
回答于 2019-09-11 08:43:50
回答于 2019-09-11 08:43:50
《不是人工智能,是智能机器》
图文/Kaiser
AlphaGo Zero,和之前的AlphaGo版本,如AlphaGo Lee(对弈李世乭的版本),或AlphaGo Master(对弈柯洁)有根本区别。
之前的迭代只能说是“优化”(Optimization),而AlphaGo Zero的诞生,可以说是“进化”(Evolution)。
为方便阅读,以下"AlphaGo"专指从前的版本,"Zero"指代AlphaGo Zero。
1. 真正的零
AlphaGO之前的学习路径是:
输入棋谱 ==> 挖掘策略 ==> 自我对弈 ==> 优化迭代
我们常说人工智能,人工智能,无论怎么智能,里面终究是有“人工”二字,那么人工究竟做了什么呢?就是数据和训练。对于美颜相机,数据是图像;对于对话机器人,数据是文本;而对于围棋AI,海量的棋谱就是数据。
再说训练,当然不是让人真的去“教”AI怎么下棋(也教不了),而是手动调整模型参数,让AlphaGo具有更高的学习能力。这个“手动调参”其实像个黑盒有点玄学,业内也经常戏称为“炼丹”。
因为有棋谱,那么AlphaGo最初的“输入”就是围棋的具体战术,是定式开局手筋打劫征子,他是站在棋魂们的肩膀上成长起来的,是五绝全真七子江南七怪联合调教出来的郭靖。
而Zero是白手起家的,被扔在一个19x19的荒岛上,唯一知道的就是有黑白两种棋子,头脑中想起一个声音:围住对方。
在三个小时之内,Zero还只知道单纯地围子,毫无战略战术可言。
Zero的学习路线只能是:
尝试策略 ==> 自我对弈 ==> 优化迭代
AlphaGo和 Zero的区别,是人民币玩家和未充钱玩家的区别。
2. 增强学习
首先需要明确几个概念:人工智能、机器学习、深度学习。这几个词每天不绝于耳,往往同框出镜,但不是并列关系。
“人工智能”是我们想实现的目标。
工业革命让机器代替或辅助人类进行生产:转化能源的形式,改变材料的性质,高效地专递信息等;而在更早之前,人类驯化牲畜也是同样的目的,用动物代替或辅助人类耕种、狩猎、采集。
所以当很多人问起,“AI会让人失业吗?”,我都会举这个例子:耕牛让农民失业了吗?没有,只是解放了自己出力犁地的人,“农民”这个职业仍然存在,只是技能由“犁地”变成了“训牛”。
那么人工智能要代替或辅助地球人做什么呢?那就是决策,甚至是,思考。
“机器学习”是实现目标的方法。
这里说的机器学习,并非广义地“让机器学会什么”,而是Machine Learning这种方法。机器学习来自“统计学习”(Statistical Learning),根本上是从数据中基于概率统计、信息熵来挖掘规律,与前些年的热点词汇“大数据”、“数据挖掘”紧密相连。
为什么机器学习的存在感如此之强呢?无他,好用而已。人类对于创造智慧的尝试从未停止,更不是计算机出现以后的事情,从莲藕中满血复活的哪吒,到尸块拼成的弗兰肯斯坦,都是对“人工智能”的想象与求索,甚至穿着清朝官袍的僵尸,也是非常理想的智能机器模型。
而“深度学习”原本是机器学习的众多算法之一的“神经网络”,接触过数学建模竞赛的同学对此应该并不陌生。而随着近年计算资源的性能与价格变化,潜力被不断挖掘出来,2012年至今成为AI界的显学。
我们的讨论将立足在“机器学习”这个层面上,机器学习可以分为三个大类:
有监督学习
无监督学习
增强学习
2.1 有监督学习
这是最好理解的一类,比如我要给数据样本进行分类,看一张病历判断此人是否有病,那么在训练过程中,会不断地告诉每一次分类结果:对,还是不对。
另外一种就是回归分析,中学里的“线性规划”、“最小二乘法”就是最简单的表现形式。
2.2 无监督学习
也就是常说的“数据驱动”,当我的网站积累了大量的用户访问数据,然后我要给用户画像,看看有哪几种典型用户。那么问题来了,我事先并不知道存在哪几种用户,那就只能模型自己去摸索如何根据数据,尽量把典型的用户聚类了。
2.3 增强学习
回顾上面两种“学习”,你会发现他们虽然能做的事情很多,但没法学会下棋。因为棋局的判断、落子的策略,无法用“对不对”(分类的二元判断),“远不远”(聚类的距离判断)或“差多少”(回归的损失函数)来衡量。
回想我们小时候怎么学会骑自行车,每前进一小步,就会得到家长的鼓励支持(support),我们称+1s;如果能连着骑出一段路,家长的支持会更加热烈,这时就会+2s甚至更多。而有时我们会在阴沟里翻船,因载具不受控制而沮丧(-1s),因车子倾覆而受伤(-2s)。每一次的动作都在与环境产生交互,并受到来自外界的激励,从而调整自己的动作状态,就这样一点点变成了老司机。
AlphaGo就是这样学会下棋的。
3. 成也萧何
对于AlphaGo,人类用棋谱把他附上了马,但同时也裹上了足。从棋谱数据中开始学习,然后自我对弈扩充棋谱容量,这其中的基本功仍然是出自人的套路。
而Zero是光腚落在棋盘上的,除了最基本的游戏规则,他是一张白纸,一个know nothing的﹝神经网络¹﹞,这个神经网络用于预测局面和判断胜负,是Zero的第一个零件。
由于缺少先验知识和现场指导,Zero的自我对弈像是菜鸡互啄,刚开始下出来可能跟五子棋一样。这些很菜的对局仍然会被保留下来,以供不断地复盘反思,积累每一步落子的参考,这里用到的是﹝搜索算法﹞。
﹝神经网络¹﹞和﹝搜索算法﹞就组成了初代目Zero,其中﹝神经网络﹞也在对弈中不断地优化,成为更强的﹝神经网络²﹞。
﹝神经网络²﹞与﹝搜索算法﹞再次碰撞,组成了二代目Zero,实现了Zero的进化。这个过程周而复始,﹝神经网络﹞的优化带来Zero的进化,最终在21天里从入门到精通,对当年的AlphaGo取得了100:0的完胜。
Zero相比于AlphaGo的另一大特点是,神经网络的合并:AlphaGo始终存在两套神经网络,一个策略网络(Policy Network)决策行动,一个价值网络(Value Network)判断赢面。而Zero将此合二为一,更少的神经网络,降低了进化的时间与计算成本,不仅智能,而且环保。
上一篇:泳池蛙泳,中距离(1500-2000),划水次数多少会效率最好?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |