第一千五百零五章、两会前夕(8) (2 / 3) 首页

字体:      护眼 关灯

上一章 目录 下一章

第一千五百零五章、两会前夕(8) (2 / 3)
        但是,随着2014年让步至2015年,包括爱丁堡大学团队,Facebook团队以及DeepMind团队在内的研究者们,开始将深度学习应用于围棋研究。

        这个想法是利用技术来模仿下棋时所需要的‘人类直觉’。‘围棋是隐式的,且都是模式匹配(一种算法)’哈萨比斯说:‘但这正是深度学习的优势所在。’

        3、自我增强

        深度学习依赖于所谓的神经网络——一种硬件和软件网络,类似于人脑中的神经元。

        这些神经网络并非依靠暴力计算或手动制定的规则来运作,他们分析大量数据以‘学习’特定的任务。

        将足够多的袋熊照片送入神经网络,它可以学习识别袋熊;给它‘投喂’足够多的口语,它可以学会辨认你说的话;‘投喂’足够的围棋走法,它就可以学会下围棋。

        在DeepMind,研究人员希望神经网络可以通过‘看’盘中的选点来掌握围棋,就像人类在下棋时一样。

        这项技术反馈良好,通过将深度学习与‘蒙特卡洛树’方法结合,Facebook旗下的系统已经击败了一些人类玩家。

        但DeepMind团队更加深入的执行了这个理念。

        当接受了3千万步人类棋着的训练后,DeepMind神经网络能以57%的概率预测下一手人类棋着,这是一个令人印象深刻的数字(此前的记录是44%)。

        在这之后,研究员们让该神经网络和与其自身略有不同的版本进行相互对弈,这被称之为强化学习。

        本质上来说,通过神经网络进行自我对弈,系统会追踪哪一手棋能够带来最大利益——在围棋中体现在获得最多的地盘。

        随着时间的增加,系统在识别‘哪些棋能带来利益,哪些不能’方面变得越来越完善。

        ‘AlphaGo通过其神经网络之间的数百万次相互对弈,日渐提高,最终学会了自己发现新的战略。’DeepMind的研究员西尔弗说。

        据团队成员西尔弗的说法,这使得AlphaGo能够超越包括Crazystone在内的所有围棋AI系统。

        在这之后,研究员们将研究结果输入第二个神经网络,收集它通过自我对弈给出的建议棋着,神经系统便可以预见这之后的每一步的变化。

        这类似于较旧的系统(如深蓝)在国际象棋领域所表现出的一样,只不过AlphaGo系统在分析更多数据时,会不断进行自我学习并最终做到这一点,而非通过暴力的手段探索棋盘上所有的可能性。

        内容未完,下一页继续阅读

更多完整内容阅读登陆

《墨缘文学网,https://wap.mywenxue.org》
加入书签我的书架


上一章 目录 下一章