[爆卦]AlphaZero GitHub是什麼?優點缺點精華區懶人包

雖然這篇AlphaZero GitHub鄉民發文沒有被收入到精華區:在AlphaZero GitHub這個話題中,我們另外找到其它相關的精選爆讚文章

在 alphazero產品中有20篇Facebook貼文,粉絲數超過3,992的網紅台灣物聯網實驗室 IOT Labs,也在其Facebook貼文中提到, 為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」 作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 | DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。 DeepMind之前開發的AlphaZero,儘管可以玩...

 同時也有1部Youtube影片,追蹤數超過75萬的網紅志祺七七 X 圖文不符,也在其Youtube影片中提到,#記得打開CC字幕 #真的不要遲到! ✔︎ 成為志祺七七會員:http://bit.ly/join_shasha77 ✔︎ 訂閱志祺七七頻道: http://bit.ly/shasha77_subscribe ✔︎ 追蹤志祺 の IG :https://www.instagram.com/shas...

  • alphazero 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答

    2021-08-02 12:44:02
    有 0 人按讚

    為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」

    作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |

    DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。

    DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。

    但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。

    多任務宇宙

    DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。

    每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。

    複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。

    比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。

    再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。

    這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。

    基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。

    來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。

    終生學習

    數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。

    具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。

    邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。

    DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?

    DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。

    訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。

    怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。

    新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。

    當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。

    DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」

    智慧初現

    最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。

    來看具體例子。首先智慧體學會臨機應變。目標有三個:

    黑色金字塔放到黃色球體旁邊
    紫色球體放到黃色金字塔旁邊
    黑色金字塔放到橙色地板

    AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。

    第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。

    因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。

    經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。

    DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。

    往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。

    資料來源:https://technews.tw/2021/07/30/deepmind_xland/

  • alphazero 在 Technews 科技新報 Facebook 的最讚貼文

    2021-07-30 09:12:03
    有 51 人按讚

    苦於類化能力差,AI 強化學習只能從頭開始訓練?DeepMind 又給了我們一個小驚喜!「元宇宙」究竟是什麼?一起來看看。

  • alphazero 在 BennyLeung.com Facebook 的最佳貼文

    2021-01-01 08:32:00
    有 6 人按讚

    Unwire.hk】新 AI 自學打機及捉棋 MuZero 更勝 AlphaGo

    如今人工智能大行其道,不論是演算法、顯示卡、處理器等,都一一將人工智能加入技術中。而人工智能的進化速度之快,更已不是在專精層面,在通用的層面上人工智能也有新突破。

    人工智能公司 DeepMind 早前於《自然》期刊上,發佈了新一款 AI 模型 MuZero,它的最大特點是精通各種不同遊戲如雅達利 (Atari)電子遊戲、西洋棋、圍棋及日本象棋,並且能夠在不告知遊戲規則的情況下,也可以在過程之中自行學習與領悟。Deepmind 更指,它在各種遊戲上的表現都十分優秀。

    根據 DeepMind 的講法,MuZero 的設計理念,是為了應用在現實環境,並可以在不同環境下應用的人工智能,並且可以應對未知、複雜及混亂的環境,當中有甚多未知的「遊戲規則」。而它的運作方式,就是為它所遊玩的遊戲建立一個模型,然後依照該模型分析,並規劃出遊戲中最好的策略。

    DeepMind 提供的資訊透露,MuZero 主要以三種環境的元素繪製模型,然後規劃:當前位置的好壞、採取那一個行動是最好、以及最後一個行動的好壞。

    負責開發這款人工智能的電腦科學家大衛西爾弗(David Silver)在英國廣播公司(BBC)的訪問中透露,「這個人工智能起初一無所知,只可以在不停嘗試與失敗之中探索世界的規則,然後以這些規則,去達致超越人類的表現。」

    他們亦測試了 MuZero 在各項棋類遊戲上的效能,發現不單在棋類遊戲上有 AlphaZero 同樣的效能水準,比起現有的最佳系統,它在 Atari 遊戲的表現更是超越同儕。

    他續指,這款人工智能已應用在壓縮影片上,因為在網絡上的流量絕大多數都是影片,如果能夠有效地壓縮影片的流量,可節省不少開支。

    MuZero 最初在 2019 已經公布,不過正式在《自然》期刊上發表則在今年(2020 年)年尾。

    #科技 #娛樂

  • alphazero 在 志祺七七 X 圖文不符 Youtube 的最佳解答

    2019-12-04 19:00:12

    #記得打開CC字幕 #真的不要遲到!

    ✔︎ 成為志祺七七會員:http://bit.ly/join_shasha77
    ✔︎ 訂閱志祺七七頻道: http://bit.ly/shasha77_subscribe
    ✔︎ 追蹤志祺 の IG :https://www.instagram.com/shasha77.daily
    ✔︎ 志祺七七 の 粉專 :http://bit.ly/shasha77_fb

    各節重點:
    【臺灣焦點】
    00:27 楊蕙如被起訴侮辱公務員
    02:09 蘭嶼補償金遭到抗議
    02:55 泰國簽證新制引發爭議
    03:53 黃國昌爆料盜採砂石案
    【國際關注】
    04:44 伊拉克總理下台兩伊局勢洗牌?
    06:45 巴基斯坦村莊大量孩童染愛滋
    07:56 韓國棋王李世乭宣布退休
    08:58 17歲少女槓上美國抖音
    【趣味集錦】
    10:07 準時很重要
    【溫馨新聞】
    11:12 AS Roma突發奇想做善事

    【 製作團隊 】
    |企劃:土龍
    |腳本:土龍、力寧
    |剪輯後製:Pookie
    |剪輯助理:絲繡 & 范范
    |演出:志祺

    ——

    【 本集參考資料 】

    🔆楊蕙如被起訴
    → PTT帳號間接造成蘇啟誠之死 「卡神」楊蕙如涉案遭起訴:http://bit.ly/361tS5o
    → 網軍逼死蘇啟誠?「卡神」楊蕙如涉案遭起訴:http://bit.ly/2rOZyMO
    → 監院調查外交官輕〇案 曾質疑「idcc」與謝長廷關聯性:http://bit.ly/2DV34rP
    → 楊蕙如遭起訴 外交部:待司法調查:http://bit.ly/2OQ2HVL
    → 網路帶風向侮辱大阪辦事處 楊蕙如遭訴:http://bit.ly/2RkrjHt
    → 質疑假消息害蘇啓誠輕〇 國民黨外交部抬棺抗議:http://bit.ly/2P9fscU
    → 「卡神」楊蕙如屬個人行為 民進黨:無關!勿見獵心喜政治操作:http://bit.ly/2DGwObC
    → 大砲輪流撿? 韓國瑜臉書開酸:網軍發大財!:http://bit.ly/2DP4Ie9
    → 帶風向逼死蘇啟誠?他批楊蕙如網軍:人神共憤:http://bit.ly/2rbixRD
    → 楊蕙如曾開價500萬被韓營回絕 張善政:價碼無法接受:http://bit.ly/386vXyM
    → 誰出錢給卡神楊蕙如養網軍?藍議員:明天將公布金流:http://bit.ly/366JpRL
    🔆泰簽話題爭議
    → 泰國簽證新制手續更繁瑣,但並不需要「三個月」財力證明:http://bit.ly/2LktAyN
    → 泰簽新規今上路 線上註冊、附財力證明:http://bit.ly/2rQZ88E
    → 泰簽惹論戰 童振源:馬政府錯失互惠免簽:http://bit.ly/2OP963s
    → 童振源批無泰國免簽馬英九害的 馬 : 蔡執政3年多一個免簽國都沒增加:http://bit.ly/2rbyMOA
    → 赴泰國要附財力證明 國民黨團批喪權辱國:http://bit.ly/2DMOemM
    🔆蘭嶼補償金爭議
    → 蘭嶼拒政府25.5億補償金 要求核廢遷出:http://bit.ly/2P9dDMZ
    → 達悟族政院抗議 要求退25億補償金核廢遷出蘭嶼:http://bit.ly/33KZrir
    → 拒絕25.5億補償金 蘭嶼達悟族:應用在核廢遷場:http://bit.ly/2OLiRj4
    🔆韓國瑜關說盜採砂石案
    → 李佳芬家族被指濫權盜採砂石 韓辦:不應上綱韓國瑜:http://bit.ly/2OLb2cY
    → 遭黃國昌爆當年助岳父「濫權圈地」採砂石,韓國瑜:幫地方爭取建設絕無不法:http://bit.ly/2rehi41
    → 遭指「河川地」變「浮覆地」 李佳芬家族砂石業起家:http://bit.ly/2YdsNF7
    → 黃國昌再爆韓國瑜岳家砂石場「違法佔國有地」,韓辦正式提告「意圖使人不當選」:http://bit.ly/2rSrMWO
    → 黃國昌質疑韓國瑜為採砂石關說 韓辦赴北檢提告:http://bit.ly/34OxVC7
    → 盜採砂石案打韓國瑜 黃國昌再秀違法事證公文:http://bit.ly/2rQm0VG
    → 控李佳芬家族涉特權盜採砂石案 黃國昌赴監院檢舉:http://bit.ly/2LltfvT
    → 台水前董座徐享崑收賄被通緝 新北遭逮捕歸案:http://bit.ly/2Rfxvk2
    → 被韓國瑜害的?徐享崑是這下場......:http://bit.ly/383kobR
    🔆伊拉克示威現況
    → 伊拉克血〇鎮壓釀400〇 總理下台難遏怒火:http://bit.ly/33O0QVB
    → 伊拉克總理下台抗爭難平 巴格達政壇恐再陷危機:http://bit.ly/2Yd8KXr
    → 示威風暴中伊拉克總理請辭 殺害示威者警員首度遭判〇刑:http://bit.ly/2DJq7ph
    → 伊拉克總理宣布請辭 打破兩伊聯盟恐促中東政治洗牌:http://bit.ly/2OLjI3g
    → 伊拉克國會批准總理辭職 教宗譴責嚴厲鎮壓示威:http://bit.ly/34Q2tn4
    → 伊拉克「反政府示威」近2個月已350〇,但為何放火燒了伊朗領事館?:http://bit.ly/3608P39
    → 伊拉克示威15000人傷亡:總理請辭、兩伊聯盟破局,中東局勢重新洗牌:http://bit.ly/34NdpSr
    → 伊拉克反政府抗爭 已近4百〇、逾8千人傷:http://bit.ly/2YcGR1s
    → 一夜屠〇45名示威者!伊拉克軍警失控的血〇大鎮壓:http://bit.ly/384nAUq
    → 示威增加到104〇、6000傷:伊拉克每年都抗議,這次為何讓總理芒刺在背?:http://bit.ly/2P7pzie
    🔆巴基斯坦村莊爆發嚴重愛滋病疫情
    → 艾滋病日:900名兒童染病的巴基斯坦悲慘村莊:https://bbc.in/380hMeF
    → 驚!巴基斯坦小城 近900名兒童疑感染愛滋:http://bit.ly/2qeWsB4
    🔆韓國棋王李世乭宣布退休
    → 唯一戰勝AlphaGo人類棋手 南韓棋王李世石退休:http://bit.ly/2PaM1XN
    → 輸給AlphaGo的韓國棋王宣布退役,李世乭:「拿下第一名,我也不是冠軍。」:http://bit.ly/2RiEwAU
    🔆17歲少女在抖音上呼籲大家關注新疆議題
    → 抖音解鎖批評新疆帳號 稱是「人為錯誤」:https://bbc.in/35Y0hKe
    → 抖音海外版用戶談新疆再教育營 教美妝避下架:http://bit.ly/2RhseIX
    → 美國少女抖音大罵新疆集中營 帳號一度遭停權:http://bit.ly/2OMxwul
    → 抖音道歉了!批新疆集中營爆紅少女取回帳號:http://bit.ly/34KVVpK
    → Feroza Aziz Interview: I'm not scared of TikTok:http://bit.ly/2rOMaZ5
    🔆桃園市議會7分鐘通過50億預算
    → 桃市議會國民黨團首度甲級動員 大刪市府90億元預算:http://bit.ly/2RhsB6j
    → 藍營攏沒人來!桃市2局處、55億預算被綠營突襲通過:http://bit.ly/361xNPE
    → 《桃園》捷工局52.9億預算 議會2分鐘過關:http://bit.ly/2rWw2V7
    → 遭脫口秀譏「苗栗國」 時力議員再爆料地政所詐領出差費:http://bit.ly/2sJ0C5f
    🔆義大利足球俱樂部幫忙協尋失蹤兒
    → 幫失蹤孩童找到回家的路 義大利羅馬足球隊有辦法:http://bit.ly/2r0vs93

    【 延伸閱讀 】

    🔆楊蕙如被起訴
    → 【錯誤】媒體報導:日本關西機場因燕子颱風重創而關閉後,中國優先派巴士前往關西機場營救受困之中國旅客?:http://bit.ly/386BNAb
    🔆伊拉克示威現況
    → 波灣戰後一手扶植伊拉克 如今暴動示威美卻袖手:http://bit.ly/2YeZB0l
    → 伊拉克「後伊斯蘭國時代」的三角習題:什葉派民兵日益壯大,遜尼派戒慎恐懼,伊朗伺機擴張:http://bit.ly/2Lo8e3E
    → 【2018伊拉克大選】親伊朗軍事組織左右選情 川普輸掉「代理戰爭」:http://bit.ly/35WksYQ
    🔆巴基斯坦村莊爆發嚴重愛滋病疫情
    → 世界愛滋病日照顧團體分享成果 嘆成立20年不敢掛招牌:http://bit.ly/2rRyYCz
    → 世界愛滋病日: 根除愛滋病 必須先根除其污名:http://bit.ly/361wDng
    → 國際艾滋病日:患者人數遞減 未來挑戰仍在:https://bbc.in/2Yf0iqt
    🔆韓國棋王李世乭宣布退休
    → 制霸人類!全新AlphaZero連西洋棋、日本將棋都精通了:http://bit.ly/2DLhOcG


    \每週7天,每天7點,每次7分鐘,和我們一起了解更多有趣的生活議題吧!/
    🥁七七仔們如果想寄東西關懷七七團隊與志祺,傳送門如下:
    106台北市大安區羅斯福路二段111號8樓

    如有業務需求,請洽:hi77@simpleinfo.cc