close

AlphaGo之父:還沒發現它的上限

(原標題:AlphaGo之父:“它如果有上限,我們也還未發現”)

【寫在前面】

連下三局後,AlphaGo與韓國棋手李世石的對決已毫無懸念。這樣的比賽註定會成為人工智能(AI)的又一個裡程碑。為此,3月12日最新刊發的《經濟學人》雜志刊發瞭題為《人工智能和圍棋一決勝負》的長文。

不同於1997年深藍對弈的國際象棋,AlphaGo對弈的圍棋更加復雜,每下一步後能產生的可能性也更多。但AlphaGo背後的算法在比賽中已經顯示出自己的優勢。通過深度學習,它已經能模擬人類下棋,擁有“直覺”,並能給靜電機租賃出下一步的最佳策略選擇。

對於商界和學術界而言,AlphaGo背後的深度學習更值得期待。《經濟學人》指出,深度學習是未來通用人工智能必不可少的部分。目前已經有眾多公司在這一領域投入資金和經歷。

作為AlphaGo之父,Deepmind的創始人之一Demis Hassabis被問到AlphaGo的能力是否有上限時,Hassabis說他不知道:“如果有,我們也還未發現。”

《經濟學人》指出,結合瞭策略網絡和價值網絡的深度學習,已經構成瞭人類棋手需要通過幾年實踐才能累積的圍棋智慧。未來,我們可以期待深度學習在人臉識別、語音識別甚至是醫療領域的應用。

以下為《經濟學人》最新文章的全文翻譯:

這次爭奪榮譽的戰場在韓國首爾的一個棋盤上。韓國對圍棋的熱愛程度絕不亞於它的鄰國,那個被稱為最瘋狂熱愛圍棋的國傢——日本。讓許多認為圍棋是他們自己的日本人懊惱的是,這項運動最好的玩傢(過去十年)普遍被認為是韓國的李世石。但這可能馬上就要改變瞭。李世石正在與AlphaGo進行5場系列賽的對決。AlphaGo是由倫敦DeepMind公司開發的電腦程序,2014年被Google收購。雖然這次不是官方的冠軍系列賽,但比分牌顯示,李世石早已輸掉瞭比賽。

圍棋是一種古老的遊戲,相傳是中國秦始皇為指導他兒子發明的。圍棋在東亞非地區非常流行,就像國際象棋在西方的位置一樣。同時,圍棋在計算機科學傢當中也非常流行。尤其是對於人工智能研究人員,對打敗圍棋棋手一直有著一種迷

戀。人類在其他棋類比賽中,已經被機器打敗。最著名的應該是1997年,歷史上最優秀的國際象棋大師卡斯帕羅夫輸給瞭“深藍”。深藍的表現比人類更好,但和圍棋比起來,教電腦學會國際象棋簡直就是輕而易舉。

乍一看,這樣說有點奇怪。圍棋的規則簡單,有限。棋分黑白,執黑子棋手先下。選手輪流放置棋子到19*19網格棋盤交叉點上。最終目的是使用棋子來圈地盤。在李世石和AlphaGo對弈的規則中,每個棋子,或者說每個被圍著的交叉點,都決定最終分數。被對方棋子圍著的棋子要被提走。可以重復出現提走和反提的情況(這種情況被稱為“劫”),但棋手不允許立即反提對方的棋子,他必須先在別處下一棋子。直到其中一個人認輸,遊戲結束。

復雜多樣的圍棋

但是這種簡潔是充滿欺騙性的。在一個真實的簡單遊戲中,比如畫圈打叉遊戲,到遊戲結束,每個可能的步數都是可以計算出來的。這意味著電腦可以計算出在某種特定情況下的最優下法。這種方法曾解決的最復雜遊戲是國際跳棋,它大約有10^20(1000億*10億)次不同的下法。在2007年,經過18年的努力,研究者稱他們找出瞭最佳戰略。

但是國際跳棋的棋盤隻有8*8個格子。而圍棋棋盤的尺寸意味著這個遊戲可走的數目是非常巨大的:粗略的估計為10^170。這麼大的數字已無法通過類比來描述。它大概是我們可見宇宙中所有原子總和(大概在10^80的數量級)的100倍那麼多。在圍棋數百回合中,任一回合大約有250種下法,也被稱為分支因子。因為選擇其中任一種下法又將會出現250種可能的下法,以此往復直到遊戲結束。就像DeepMind的創始人Demis Hassabis所說的,這意味著圍棋是無法采取數學意義上的暴力算法。

而且這個遊戲的難度不僅僅如此。雖然國際象棋的棋盤要小一些,規則也相對嚴格,大約隻有10^47種不同的玩法,而且它的分支因子僅為35。但實際上,這也意味著對國際象棋的處理無法像國際跳棋那樣。而代替的方法是,國際象棋程序會隨著比賽的發展,選擇看起來更有希望的步數,從而過濾掉其他選項,然後計算機能通過計算,模擬選擇步數中衍生出來的成千上萬個步數。這種方法是可行的,因為國際象棋有一些固定范式來幫助程序理解一個步數的好壞。例如,騎士通常比兵要有價值;皇後比任何棋子都有價值。(它們的標準價值分別為:3、1和9)。

Demis Hassabis 東方IC 圖

Hassabis說,在圍棋中勝出就難得多。因為對一個棋子的理解僅僅依靠於棋盤上其他棋子的相對位置,而且每一步都會發生變化。同時如每位圍棋選手所知,小的戰術可能在後面的比賽中產生巨大的戰略影響。圍棋還有足夠多的定式,圍棋選手會說到一些特征,例如梯子、墻和假眼,這些都是從規則中有機演化出來的,而不是規則規定的。

因為好選手通常都能擊敗差的選手,所以一定要有好的對戰策略。但是就算是最好的選手也很難準確地描述他們是怎麼做的,美國亞利桑那州立大學人工智能研究者Miles Brundage說。“職業圍棋選手談到很多通用原則,甚至是直覺。” Brundage說,“然而如果你跟職業圍棋選手交談,他們可以準確地解釋在某一特定步數為什麼那樣走。”直覺非常好,但這對超越字面意思的電腦編程工作沒有太大的幫助。在AlphaGo出現之前,最好的圍棋程序也隻是一個技術精湛的圍棋業餘愛好者水平。

AlphaGo的算法

AlphaGo使用瞭舊程序的某些相同技術。但是它得意的地方在於用新的方法把它們結合起來,試著讓電腦發展出如何下棋的直覺——能自己發現人類選手理解卻無法解釋的原則。它采用深度學習的技術,通過重復地復雜統計,讓電腦從巨大的無用數據中提取出通用的原則。

深度學習需要兩個東西:足夠多的處理單元及足夠多的可供學習的數據。DeepMind用瞭3000萬棋譜樣本來訓練機器,這些棋譜來自業餘和職業選手聚集下棋的在線服務器。另外AlphaGo還通過自己互相對弈,進行微調,從而能快速產生更多的訓練數據。

這些數據需要經過深度學習的兩種算法處理。一是所謂的策略網絡,用來訓練模仿人類行為。看過數百萬計的對局後,它已學會提取特征,原則和經驗法則。它在對局中的工作就是觀察棋盤的狀態,並產生一些看起來更有希望的步數提供給第二個算法考慮。

第二個算法叫做價值網絡,用來評估一個步數的致勝概率。機器會根據策略網絡的建議,評估數以千計的走法。因為圍棋如此復雜,所以將所有可能的走法都走完是不可能的。作為替代,價值網絡會評估數個步數後可能的棋盤狀態,並與它之前見過的例子進行比較。這種想法是找出統計意義上最像過去能夠獲勝的棋形。策略網絡和價值網絡結合起來構成瞭人類棋手需要通過幾年實踐才能累積的圍棋智慧。

如同Brundage所指出的,暴力算法並沒有被DeepMind完全摒棄。像許多深度學習系統一樣,AlphaGo的性能隨著計算單元的增加而改善,至少提升到瞭某個點。與李世石對戰的系統使用瞭1920個標準處理芯片和280個原用於視頻遊戲的圖形芯片。Brundage指出,目前AlphaGo領先於比賽的部分原因就是這些更加強悍的硬件上。他還指出,在AlphaGo的代碼中隱藏著一個或兩個手工寫的特性。它們直接指示機器該怎麼做,而不是讓機器自己解決問題。盡管如此,Brundage認為,AlphaGo自我學習的方式與人類下圍棋的方式已經非常相像,而“深藍”與人類下國際象棋的方式卻不那麼相似。

商界和學術界對深度學習感到如此興奮的一個原因是它有廣闊的應用場景。AlphaGo采用的技術可以用來教電腦識別人臉,翻譯語言,給網絡用戶展示相關廣告或者從原子加速器的數據中捕獲亞原子靜電油煙處理機出租。因此,深度學習是一個蓬勃發展的商業領域。它快速推進電腦有效地識別圖像和聲音,同時例如谷歌、Facebook和百度這樣的公司正在不斷地向這一領域投錢。

深度學習也是建立通用人工智能所必不可少的。換句話說,通用人工智能就是像人類一樣表現出廣泛的,靈活的智能。DeepMind在2015年刊登的一篇關於深度學習的論文裡,就描述瞭電腦通過簡單地觀察屏幕而教會自己玩49款經典的雅達利電子遊戲。從“星球入侵”到“突圍”等,整個過程沒有得到人類的任何有用提示(甚至沒有基礎說明)。結束的時候,它比任何人類玩傢都玩得好。(一個有意思的巧合,atari也是圍棋裡面表示一個棋子或一群棋子有危險被拿掉時的術語。Atari為多義詞,可譯為雅達利公司,或圍棋術語“叫吃”)。

這樣的遊戲提供瞭衡量人工智能研究的便捷途徑。棋類遊戲,例如圍棋,可用數學復雜度的量級來衡量。視頻遊戲也跨越瞭一系列的難度。比如,“星際入侵”是一個簡單的在低分辨率屏幕上玩的遊戲;對電腦來說,學會玩一個現代視頻遊戲,需要它能夠解析更精致、更復雜的畫面,以及要追求比殺死怪物更不明顯的目標。Hassabis說,DeepMind接下去的目標之一就是建立一個僅僅通過觀察人類牌局的視頻就可以學會玩牌的機器。

我們還沒有發現AlphaGo的上限

目前為止,Hassabis估計通用人工智能還有很長的路要走。深度學習的算法模式、識別能力讓人印象深刻,但電腦依然缺少很多人類認為理所當然的智力工具。重要的一項就是“學習遷移”,即被人工智能研究者稱為通過類比來推理的能力。這是將一個領域學習到的知識運用到其他領域的能力。而像AlphaGo這樣的機器是沒有這樣的目標,它們最多意識到自己是一個文字處理器或是一款會計軟件。




但簡單說來,Hassabis對此是樂觀的。在首爾,比賽開始的前一天,有30名左右的選手都一致認為機器將會被打敗。“李世石是一個不斷能下出新招的天才;什麼機器可以復制這些?”其中一個人反問。在賽前記者招待會上,李世石說他有信心贏個5-0,或4-1。

坦白地說,他錯瞭,比賽已經結束。“他是一個非常好的選手”Hassabis在賽前說。“但是我們內部測試發現一些不同的東西。”即使李先生設法取得瞭令人不可思議的勝利,人類也不可能在冠軍寶座上呆多靜電機出租久。當AlphaGo算法經過微調,並收集更多的數據來學習,它就會越變越好。當問到AlphaGo的能力是否有上限時,Hassabis說他不知道:“如果有,我們也還未發現。”

本文來源:澎湃新聞網

責任編輯:王鳳枝_NT2541

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    n8unh72x8s 發表在 痞客邦 留言(0) 人氣()