摘要:人工智能長(zhǎng)期以來(lái)的目標(biāo)就是創(chuàng)造機(jī)器的完全主導(dǎo)領(lǐng)域,在人類生活中發(fā)揮作用。AlphaGo成為首個(gè)在圍棋中戰(zhàn)勝人類世界冠軍的系統(tǒng)。AlphaGo神經(jīng)網(wǎng)絡(luò)使用人類的棋盤數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,同時(shí)也通過(guò)自我對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí)。圍棋對(duì)于人工智能來(lái)說(shuō)是最具有挑戰(zhàn)性的經(jīng)典博弈比賽,它的巨大的搜索空間,棋局和落子地點(diǎn)讓機(jī)器學(xué)習(xí)難以應(yīng)對(duì)??茖W(xué)家創(chuàng)造了一種新的人工智能程序系統(tǒng)AlphaGo,使用估值網(wǎng)絡(luò)來(lái)評(píng)估局勢(shì)以及使用策略網(wǎng)絡(luò)來(lái)選擇如何落子。這些深度神經(jīng)網(wǎng)絡(luò)被一種新的組合來(lái)訓(xùn)練:使用了人類專業(yè)比賽數(shù)據(jù)的監(jiān)督學(xué)習(xí),以及自我對(duì)弈的強(qiáng)化學(xué)習(xí)。AlphaZero沒有使用任何預(yù)測(cè)搜索的方法,神經(jīng)網(wǎng)絡(luò)搭配最先進(jìn)的蒙特卡洛樹搜索算法讓程序達(dá)到了更加精確和智能的水準(zhǔn),這程序模擬了數(shù)以千計(jì)的自我對(duì)弈的隨機(jī)博弈。Alpha系列達(dá)到了99.8%的勝率,這是史上第一次計(jì)算機(jī)程序在全尺寸圍棋中擊敗人類職業(yè)棋手。通過(guò)對(duì)AlphaGo和AlphaZero原理學(xué)習(xí),我們可以在掌握現(xiàn)有先進(jìn)技術(shù)的基礎(chǔ)上,開拓創(chuàng)新,思考類似的人工智能在醫(yī)學(xué),軍事等領(lǐng)域的未來(lái)應(yīng)用可能性。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社