&

導(dǎo)語(yǔ)：如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)基本概念，這就需要搜集整理更多的資料和文獻(xiàn)，歡迎閱讀由公務(wù)員之家整理的十篇范文，供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)基本概念

篇1

關(guān)鍵詞：AlphaGo；人工智能；圍棋；未來(lái)展望

中圖分類(lèi)號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1671-2064（2017）07-0193-02

1 圍棋與人工智能

圍棋作為中國(guó)傳統(tǒng)四大藝術(shù)之一，擁有著幾千年的悠久歷史。圍棋棋盤(pán)由19條橫線和19條豎線組成，共有19*19=361個(gè)交叉點(diǎn)，圍棋子分為黑白兩種顏色，對(duì)弈雙方各執(zhí)一色，輪流將一枚棋子下在縱橫交叉點(diǎn)上，終局時(shí)，棋子圍上交叉點(diǎn)數(shù)目最多的一方獲勝。圍棋棋盤(pán)上每一個(gè)縱橫交叉點(diǎn)都有三種可能性：落黑子、落白子、留空，所以圍棋擁有高達(dá)3^361種局面；圍棋的每個(gè)回合有250種可能，一盤(pán)棋可長(zhǎng)達(dá)150回合，所以圍棋的計(jì)算復(fù)雜度為250^150，約為10^170，然而全宇宙可觀測(cè)的原子數(shù)量只有10^80，這足以體現(xiàn)圍棋博弈的復(fù)雜性和多變性。

人工智能（Artificial Intelligence，AI）主要研究人類(lèi)思維、行動(dòng)中那些尚未算法化的功能行為，使機(jī)器像人的大腦一樣思考、行動(dòng)。長(zhǎng)期以來(lái)，圍棋作為一種智力博弈游戲，以其變化莫測(cè)的博弈局面，高度體現(xiàn)了人類(lèi)的智慧，為人工智能研究提供了一個(gè)很好的測(cè)試平臺(tái)，圍棋人工智能也是人工智能領(lǐng)域的一個(gè)重要挑戰(zhàn)。

傳統(tǒng)的計(jì)算機(jī)下棋程序的基本原理，是通過(guò)有限步數(shù)的搜索樹(shù)，即采用數(shù)學(xué)和邏輯推理方法，把每一種可能的路徑都走一遍，從中選舉出最優(yōu)路徑，使得棋局勝算最大。這種下棋思路是充分發(fā)揮計(jì)算機(jī)運(yùn)算速度快、運(yùn)算量大等優(yōu)勢(shì)的“暴力搜索法”，是人類(lèi)在對(duì)弈規(guī)定的時(shí)間限制內(nèi)無(wú)法做到的。但是由于圍棋局面數(shù)量太大，這樣的運(yùn)算量對(duì)于計(jì)算機(jī)來(lái)講也是相當(dāng)之大，目前的計(jì)算機(jī)硬件無(wú)法在對(duì)弈規(guī)定的時(shí)間內(nèi)，使用計(jì)算機(jī)占絕對(duì)優(yōu)勢(shì)的“暴力搜索法”完成圍棋所有局面的擇優(yōu)，所以這樣的下棋思路不適用于圍棋對(duì)弈。

搜索量巨大的問(wèn)題一直困擾著圍棋人工智能，使其發(fā)展停滯不前，直到2006年，蒙特卡羅樹(shù)搜索的應(yīng)用出現(xiàn)，才使得圍棋人工智能進(jìn)入了嶄新的階段，現(xiàn)代圍棋人工智能的主要算法是基于蒙特卡洛樹(shù)的優(yōu)化搜索。

2 圍棋人工智能基本原理

目前圍棋人工智能最杰出的代表，是由谷歌旗下人工智能公司DeepMind創(chuàng)造的AlphaGo圍棋人工智能系統(tǒng)。它在與人類(lèi)頂級(jí)圍棋棋手的對(duì)弈中充分發(fā)揮了其搜索和計(jì)算的優(yōu)勢(shì)，幾乎在圍棋界立于不敗之地。

AlphaGo系統(tǒng)的基本原理是將深度強(qiáng)化學(xué)習(xí)方法與蒙特卡洛樹(shù)搜索結(jié)合，使用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)，極大減少了搜索空間，即在搜索過(guò)程中的計(jì)算量，提高了對(duì)棋局估計(jì)的準(zhǔn)確度。

2.1 深度強(qiáng)化學(xué)習(xí)方法

深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究，人類(lèi)大量的視覺(jué)聽(tīng)覺(jué)信號(hào)的感知處理都是下意識(shí)的，是基于大腦皮層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法，通過(guò)模擬大腦皮層推斷分析數(shù)據(jù)的復(fù)雜層狀網(wǎng)絡(luò)結(jié)構(gòu)，使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個(gè)處理層對(duì)數(shù)據(jù)進(jìn)行高層抽象，其過(guò)程類(lèi)似于人們識(shí)別物體標(biāo)注圖片。現(xiàn)如今，應(yīng)用最廣泛的深度學(xué)習(xí)模型包括：卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自編碼網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等。

強(qiáng)化學(xué)習(xí)源于動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論，通過(guò)模擬生物對(duì)環(huán)境以試錯(cuò)的方式進(jìn)行交互達(dá)到對(duì)環(huán)境的最優(yōu)適應(yīng)的方式，通過(guò)不斷地反復(fù)試驗(yàn)，將變化無(wú)常的動(dòng)態(tài)情況與對(duì)應(yīng)動(dòng)作相匹配。強(qiáng)化學(xué)習(xí)系統(tǒng)設(shè)置狀態(tài)、動(dòng)作、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)賞四個(gè)部分，在當(dāng)前狀態(tài)下根據(jù)策略選擇動(dòng)作，執(zhí)行該過(guò)程并以當(dāng)前轉(zhuǎn)移概率轉(zhuǎn)移到下一狀態(tài)，同時(shí)接收環(huán)境反饋回來(lái)的獎(jiǎng)賞，最終通過(guò)調(diào)整策略來(lái)最大化累積獎(jiǎng)賞。

深度學(xué)習(xí)具有較強(qiáng)的感知能力，但缺乏一定的決策能力；強(qiáng)化學(xué)習(xí)具有決策能力，同樣對(duì)感知問(wèn)題無(wú)能為力。深度強(qiáng)化學(xué)習(xí)方法是將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)，優(yōu)勢(shì)互補(bǔ)，用深度學(xué)習(xí)進(jìn)行感知，從環(huán)境中獲取目標(biāo)觀測(cè)信息，提供當(dāng)前環(huán)境下的狀態(tài)信息；然后用強(qiáng)化學(xué)習(xí)進(jìn)行決策，將當(dāng)前狀態(tài)映射到相應(yīng)動(dòng)作，基于初期匯報(bào)評(píng)判動(dòng)作價(jià)值。

深度強(qiáng)化學(xué)習(xí)為復(fù)雜系統(tǒng)的感知決策問(wèn)題提供了一種全新的解決思路。

2.2 蒙特卡洛樹(shù)搜索

蒙特卡洛樹(shù)搜索是將蒙特卡洛方法與樹(shù)搜索相結(jié)合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統(tǒng)計(jì)理論為指導(dǎo)的強(qiáng)化學(xué)習(xí)方法，它通常解決某些隨機(jī)事件出現(xiàn)的概率問(wèn)題，或者是某隨機(jī)變量的期望值等數(shù)字特征問(wèn)題。通過(guò)與環(huán)境的交互，從所采集的樣本中學(xué)習(xí)，獲得關(guān)于決策過(guò)程的狀態(tài)、動(dòng)作和獎(jiǎng)賞的大量數(shù)據(jù)，最后計(jì)算出累積獎(jiǎng)賞的平均值。

蒙特卡洛樹(shù)搜索算法是一種用于解決完美信息博弈（perfect information games，沒(méi)有任何信息被隱藏的游戲）的方法，主要包含選擇（Selection）、擴(kuò)展（Expansion）、模擬（Simulation）和反向傳播（Backpropagation）四個(gè)步驟。

2.3 策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)

AlphaGo系統(tǒng)擁有基于蒙特卡洛樹(shù)搜索方法的策略網(wǎng)絡(luò)（Policy Network）和價(jià)值網(wǎng)絡(luò)（Value Network）兩個(gè)不同的神經(jīng)網(wǎng)絡(luò)大腦，充分借鑒人類(lèi)棋手的下棋模式，用策略網(wǎng)絡(luò)來(lái)模擬人類(lèi)的“棋感”，用價(jià)值網(wǎng)絡(luò)來(lái)模擬人類(lèi)對(duì)棋盤(pán)盤(pán)面的綜合評(píng)估。

AlphaGo系統(tǒng)主要采用有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)，通過(guò)觀察棋盤(pán)布局，進(jìn)行棋路搜索，得到下一步合法落子行動(dòng)的概率分布，從中找到最優(yōu)的一步落子位置，做落子選擇。DeepMind團(tuán)隊(duì)使用棋圣堂圍棋服務(wù)器上3000萬(wàn)個(gè)專(zhuān)業(yè)棋手對(duì)弈棋譜的落子數(shù)據(jù)，來(lái)預(yù)測(cè)棋手的落子情況。期間，系統(tǒng)進(jìn)行上百萬(wàn)次的對(duì)弈嘗試，進(jìn)行強(qiáng)化學(xué)習(xí)，將每一個(gè)棋局進(jìn)行到底，不斷積累“經(jīng)驗(yàn)”，學(xué)會(huì)贏面最大的棋路走法，最終達(dá)到頂級(jí)圍棋棋手的落子分析能力。而AlphaGo的價(jià)值網(wǎng)絡(luò)使用百萬(wàn)次對(duì)弈中產(chǎn)生的棋譜，根據(jù)最終的勝負(fù)結(jié)果來(lái)進(jìn)行價(jià)值網(wǎng)絡(luò)訓(xùn)練，預(yù)測(cè)每一次落子選擇后贏棋的可能性，通過(guò)整體局面的判斷來(lái)幫助策略網(wǎng)絡(luò)完成落子選擇。

3 圍棋人工智能意義

經(jīng)過(guò)比賽測(cè)試證明，AlphaGo系統(tǒng)的圍棋對(duì)弈能力已經(jīng)達(dá)到世界頂級(jí)棋手水平。一直以來(lái)，圍棋因?yàn)閺?fù)雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領(lǐng)域成為一個(gè)具有代表性的難度挑戰(zhàn)。目前的硬件水平面對(duì)如此巨大的搜索空間顯得束手無(wú)策，AlphaGo系統(tǒng)基于有監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)大大減少搜索空間，在訓(xùn)練中開(kāi)創(chuàng)性地使用深度強(qiáng)化學(xué)習(xí)，然后結(jié)合蒙特卡洛樹(shù)搜索方法，使得系統(tǒng)自學(xué)習(xí)能力大大提高，并且AlphaGo系統(tǒng)在與人類(lèi)頂級(jí)棋手對(duì)弈中取得的連勝卓越成績(jī)，櫧湓諶斯ぶ悄芰煊虻於了堅(jiān)實(shí)的里程碑地位。

雖然圍棋人工智能取得了如此優(yōu)秀的成績(jī)，但是也僅僅是它在既定規(guī)則內(nèi)的計(jì)算處理能力遠(yuǎn)遠(yuǎn)超過(guò)了人類(lèi)的現(xiàn)有水平，并且還有有待提高和完善的地方。在人類(lèi)的其他能力中，例如情感、思維、溝通等等領(lǐng)域，目前的人工智能水平是遠(yuǎn)遠(yuǎn)達(dá)不到的。但是隨著科技的進(jìn)步和人類(lèi)在人工智能領(lǐng)域的研究深入，人工智能與人類(lèi)的差距會(huì)逐漸減小，像圍棋人機(jī)大戰(zhàn)人工智能連勝人類(lèi)這樣的例子也可能在其他領(lǐng)域發(fā)生，這就意味著人工智能的發(fā)展前景十分可觀。

4 結(jié)語(yǔ)

人類(lèi)和人工智能共同探索圍棋世界的大幕即將拉開(kāi)，讓人類(lèi)棋手結(jié)合人工智能，邁進(jìn)全新人機(jī)共同學(xué)習(xí)交流的領(lǐng)域，進(jìn)行一次新的圍棋革命，探索圍棋真理更高的境界。

參考文獻(xiàn)

卷積神經(jīng)網(wǎng)絡(luò)基本概念范文

篇1

熱門(mén)標(biāo)簽

相關(guān)文章

精品范文