狂虐Dota2最强人类玩家的OpenAI是怎样炼成的
此次人机大战采取一对一模式,共进行三轮比赛。在第一场对战中,OpenAI机器人只用了十分钟就干掉了Dendi,Dendi甚至还一度大叫,“请放过我吧!”到了第二场比赛,Dendi被痛打几分钟后,就主动放弃了比赛,并拒绝进行第三场比赛。
人类又输了,而且输得还很惨!那么问题就来了,这位OpenAI机器人究竟是如何做到完虐人类的呢?答案就是“自学”。
新浪VR了解到,OpenAI机器人采取了“自我博弈(self-play)”的方式来学习打Dota,训练过程中并没有使用模仿学习或者类似于AlphaGo的树搜索技术。简单来讲,“自我博弈”就是通过自己与自己的复制品对打,而不是与人类选手对战,获得游戏经验。在“自我博弈”中,机器人与自己复制品的实力相当,就可以避免因对手太强或者太弱而学不到东西。而且,由于机器人的决策和操作速度远远超过人类,它就可以在短时间内用海量的比赛来迅速获得更多经验。
其实,“自我博弈”在此前AlphaGo的训练中就有过类似应用,AlphaGo曾经通过自我对弈3000万盘,来提高自己神经网络的精度。只不过,AlphaGo在自我对弈前,还曾被输入16万盘人类棋手的棋谱,通过海量棋谱来学习人类落子布局的特征;而OpenAI则是完全从零开始,在对Dota游戏世界没有认知的情况下就开始通过自我对练学习游戏方法。研发团队也表示,他们并没有为OpenAI机器人编入对战策略,没有为它指定任何战术,一开始也没让它与人类高手对练,而是让它“放飞自我”,随机行动,在一次次失败过程中逐渐掌握了游戏打法。...
16190