AlphaGo挑戰(zhàn)《星際爭霸2》:必遭暴虐
在 AlphaGo 戰(zhàn)勝了韓國圍棋棋手李世石后,DeepMind 創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabis)就曾表示將研究以人工智能與人類玩其他游戲,例如即時(shí)戰(zhàn)略游戲《星際爭霸》。不過目前看來,DeepMind AI要跟人類比賽打《星際爭霸》這事,還是有點(diǎn)兒懸。
早在2015年,DeepMind AI就開始用已經(jīng)雅達(dá)利1977年發(fā)行的游戲機(jī)Atari 2600來進(jìn)行游戲訓(xùn)練,整個(gè)訓(xùn)練過程團(tuán)隊(duì)沒有提供任何額外信息幫助,全依靠AI自己來一步步學(xué)習(xí)如何打怪升級(jí)。在這些游戲里,有一款游戲始終讓DeepMind AI很苦惱,那就是《Montezuma’s revenge》,這是雅達(dá)利一款難度超高的游戲。
后來團(tuán)隊(duì)找到了“好奇心”激勵(lì)機(jī)制,來讓DeepMind AI獲勝。他們給AI變成編程輸入“人工好奇心”,在AI探索更多的玩法的時(shí)候給予它更多的獎(jiǎng)勵(lì),鼓勵(lì)它去用不同的途徑來獲取更高的分?jǐn)?shù)。在新版本里,DeepMind AI在好奇心的驅(qū)動(dòng)下探索了15個(gè)房間的游戲。在沒有好奇心的時(shí)候,它只玩了2個(gè)房間。
今年3月底,在AlphaGo五局四勝贏了李世石之后,暴雪娛樂制作總監(jiān)Tim Morten就在WCS中國區(qū)總決賽上確認(rèn),DeepMind AI將挑戰(zhàn)《星際爭霸2》,當(dāng)時(shí)Tim Morten就直言DeepMind AI不會(huì)在《星際爭霸2》中戰(zhàn)勝人類。直接目前,這一場人機(jī)游戲爭霸戰(zhàn),官方都沒透露更多的細(xì)節(jié)。
實(shí)際上,《星際爭霸》作為一款即時(shí)戰(zhàn)略類的游戲,給 DeepMind 的挑戰(zhàn)比圍棋更大。單單是對(duì)戰(zhàn)局面的數(shù)據(jù)獲取方面,兩者就相差巨大。圍棋棋盤上就只有數(shù)量不等的黑白兩色棋子作為數(shù)據(jù),而游戲中則包括了雙方兵力數(shù)量、兵種構(gòu)成、能力屬性、時(shí)間等等等。另外作為即時(shí)戰(zhàn)略游戲,《星際爭霸》需要在極短時(shí)間內(nèi)執(zhí)行策略,而圍棋相對(duì)來說則有充足的時(shí)間給AI運(yùn)算思考。
目前,DeepMind AI想要打贏《星際爭霸》 還是需要更長的時(shí)間學(xué)習(xí)和摸索?!?/p>
關(guān)注我們
