第五章深度突破2（第1页）

天才一秒记住【动力小说】地址：https://www.dlchuwuqi.com

第五章深度突破2

banner"

有一种特别的游戏吸引了很多人的注意。

这款名为“打砖块”

的游戏是20世纪70年代最早出现的电子游戏之一：由玩家控制“球板”

，将“球”

弹到由彩色“砖块”

组成的墙上。

每当球碰到砖块的时候，砖块就会被摧毁，玩家的目的是摧毁整面砖墙。

图18显示了程序在学习玩打砖块的早期阶段（在它玩了大约100次游戏之后），在这个阶段，它经常漏球。

图18　程序学习玩打砖块游戏的早期阶段

深度思维的雅达利游戏程序在学习打砖块的初期漏接了球，球在这里用一个竖直的小矩形表示，水平的平板状矩形表示玩家的接球板。

但是经过几百轮的训练以后，程序就成了这个游戏的专家：它再也没有漏接过一个球。

然后发生了一件不同寻常的事情：程序了解到，最有效率得高分的方式是在砖墙的一侧“钻”

一个洞，让球打进去，这样球就会在砖墙和顶部屏障之间快速反弹，迅速消灭砖块，而玩家可以不用额外操作什么（见图19）。

深度思维公司的工程师并没有预料到这种行为：它是由程序自主学习的。

这个游戏的视频很容易在网上找到：我在自己的讲座中用过十几次。

每次我给观众播放这段视频时，都能听见惊讶的抽气声，因为观众明白程序在游戏中学到了什么。

图19　程序经过训练后玩打砖块游戏

最终，程序学会了怎么迅速取得高分，即让球在砖墙一侧“钻”

一个洞，这样球就会在砖墙上快速反弹。

没有人教程序这么做，这种行为让程序开发者都大吃一惊。

我得反复强调一点：深度思维的程序员并没有编写一个程序来玩雅达利游戏：这并不难。

他们所做的是写一个程序，让它学习如何比人类更会玩全部49个雅达利游戏中的29个。

程序接收到的唯一输入就是屏上显示的东西，以及分数。

此前已经提到过，雅达利游戏程序使用的是强化学习的方式，通过神经网络来实现，它使用的神经网络具有三个隐藏层。

神经网络的输入经过预处理，将图像从原始的210×160像素的彩色格式缩减为84×84像素，并用灰度代替了彩色。

程序从可用的输入中提取出样本，由每四幅游戏屏幕图像拼合组成，而不是单独的每一幅图像。

神经网络使用经典的深度学习技术（随机梯度下降）进行训练。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第五章 深度突破2（第1页）