天才一秒记住【动力小说】地址:https://www.dlchuwuqi.com
第五章深度突破2
banner"
>
有一种特别的游戏吸引了很多人的注意。
这款名为“打砖块”
的游戏是20世纪70年代最早出现的电子游戏之一:由玩家控制“球板”
,将“球”
弹到由彩色“砖块”
组成的墙上。
每当球碰到砖块的时候,砖块就会被摧毁,玩家的目的是摧毁整面砖墙。
图18显示了程序在学习玩打砖块的早期阶段(在它玩了大约100次游戏之后),在这个阶段,它经常漏球。
图18 程序学习玩打砖块游戏的早期阶段
深度思维的雅达利游戏程序在学习打砖块的初期漏接了球,球在这里用一个竖直的小矩形表示,水平的平板状矩形表示玩家的接球板。
但是经过几百轮的训练以后,程序就成了这个游戏的专家:它再也没有漏接过一个球。
然后发生了一件不同寻常的事情:程序了解到,最有效率得高分的方式是在砖墙的一侧“钻”
一个洞,让球打进去,这样球就会在砖墙和顶部屏障之间快速反弹,迅速消灭砖块,而玩家可以不用额外操作什么(见图19)。
深度思维公司的工程师并没有预料到这种行为:它是由程序自主学习的。
这个游戏的视频很容易在网上找到:我在自己的讲座中用过十几次。
每次我给观众播放这段视频时,都能听见惊讶的抽气声,因为观众明白程序在游戏中学到了什么。
图19 程序经过训练后玩打砖块游戏
最终,程序学会了怎么迅速取得高分,即让球在砖墙一侧“钻”
一个洞,这样球就会在砖墙上快速反弹。
没有人教程序这么做,这种行为让程序开发者都大吃一惊。
我得反复强调一点:深度思维的程序员并没有编写一个程序来玩雅达利游戏:这并不难。
他们所做的是写一个程序,让它学习如何比人类更会玩全部49个雅达利游戏中的29个。
程序接收到的唯一输入就是屏上显示的东西,以及分数。
此前已经提到过,雅达利游戏程序使用的是强化学习的方式,通过神经网络来实现,它使用的神经网络具有三个隐藏层。
神经网络的输入经过预处理,将图像从原始的210×160像素的彩色格式缩减为84×84像素,并用灰度代替了彩色。
程序从可用的输入中提取出样本,由每四幅游戏屏幕图像拼合组成,而不是单独的每一幅图像。
神经网络使用经典的深度学习技术(随机梯度下降)进行训练。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!