close
[中性評級]人工智能雙周報(計算機行業):ALPHAGO ZERO完勝 人工智能可以舍棄數據?
滴雞精重點事件
10 月19 日凌晨,DeepMind 在《Nature》發佈最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學習,3 天訓練後就以100 比0 擊敗瞭上一版本的AlphaGo,21 天達到AlphaGo Master 水平。
1. 與前兩代版本相比,AlphaGo Zero 性能和訓練效率全面提升
與AlphaGo Lee 和AlphaGo Master 相比,AlphaGo Zero 的性能和訓練效率大幅提升。AlphaGo Zero 僅通過72 小時內490 萬對局的訓練,3 天訓練後就以100 比0 擊敗瞭AlphaGo Lee,21 天達到AlphaGo Master水平。在局面評估過程中,AlphaGo Zero 和AlphaGo Master 僅配備4 個TPU,而此前戰勝樊麾和李世乭的 AlphaGo 則分別配備176 個和48 個TPU。
雞精禮盒 2. 神經網絡架構優化大幅節省訓練時間、提升特征提取能力
AlphaGo Zero 表現的提升主要取決於新算法在神經網絡結構設計上的突破:首先,AlphaGo Zero 將價值(Value)網絡和策略(Policy)網絡整合為一個架構,新策略。價值網絡的輸入特征平面由48 個減少到瞭17 個,並且去掉瞭快速走子系統,從而大幅節省訓練時間。其次,AlphaGo Zero特征提取層采用20 或40 個殘差模塊,每個模塊包含2 個卷積層。殘差模塊的運用使網絡深度獲得瞭很大的提升,能夠更有效地直接從棋盤上提取特征,無需人工提取特征。
3. 從0 到1 訓練模型,擺脫人類知識束縛探尋最優解
AlphaGo Zero 從零開始,擺脫瞭對人類樣本的依賴,訓練過程從完全隨機開始。一方面,AlphaGo Zero 通過自我對弈獲得的樣本數據,訓練過程進行瞭 2900 萬次自我對弈,進行瞭 310 萬次參數升級。另一方面,在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。這種從0 到1 的自我對弈增強學習機制的優勢在於能夠讓網絡自動嘗試各種可能性,打破基於人類知識的思維局限,獲得最優解。
4. 偉大與局限並存,AlphaGo Zero 技術短期難成為主流
AlphaGo Zero 證明瞭深度增強學習從無到有的強大學習能力,為解決監督學習缺少數據這一難題提供瞭一種可行的思路。但是AlphaGo Zero 本質上解決的仍然是啟發式搜索的問題,尚未展現出普遍適用的泛化性能。在視頻、遊戲、機器人等有既定規則並可以窮舉的領域更容易實現突破,未來也有可能應用於新材料開發、新藥的化學構造探索等前沿科學領域。而對於語音識別、圖像識別、自然語言理解、無人駕駛等沒有明確可窮舉規則的領域,AlphaGo Zero 技術很難推廣,監督學習仍將是AI 研究與AI 商業化的主流方向。
5. 投資建議:
燕窩功效 AlphaGo Zero 的成功,證明瞭通過算法升級減少甚至擺脫人類經驗數據依賴這一思路的可行性,對於人工智能的未來發展具有重要意義,但是在很多其他領域,比如語音識別、圖像識別、自然語言理解等,人類經驗數據仍不可缺少。推薦科大訊飛、華宇軟件、蘇州科達、東方網力、中科創達 、中科曙光、同花順、海康威視、大華股份、思創醫惠、恒生電子、千方科技、神州泰嶽、佳都科技;關註萬東醫療(醫藥團隊覆蓋)、遠方信息、工大高新、川大智勝、漢王科技、神思電子;新三板關註捷通華聲、海鑫科金;一級市場關註地平線機器人、深鑒科技、馭勢科技、圖靈機器人、三角獸、小視科技、奇點機智、理財魔方、藍海智投、商湯科技、波森數據、依圖科技、機器之心、思必馳等。
6. 風險提示:
人工智能政策支持不及預期;產業競爭燕窩推薦加劇的風險;人工智能應用落地低於預期
□ .兒童滴雞精推薦陳.寶.健 .華.創.證.券.有.限.責.任.公.司
滴雞精重點事件
10 月19 日凌晨,DeepMind 在《Nature》發佈最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學習,3 天訓練後就以100 比0 擊敗瞭上一版本的AlphaGo,21 天達到AlphaGo Master 水平。
1. 與前兩代版本相比,AlphaGo Zero 性能和訓練效率全面提升
與AlphaGo Lee 和AlphaGo Master 相比,AlphaGo Zero 的性能和訓練效率大幅提升。AlphaGo Zero 僅通過72 小時內490 萬對局的訓練,3 天訓練後就以100 比0 擊敗瞭AlphaGo Lee,21 天達到AlphaGo Master水平。在局面評估過程中,AlphaGo Zero 和AlphaGo Master 僅配備4 個TPU,而此前戰勝樊麾和李世乭的 AlphaGo 則分別配備176 個和48 個TPU。
雞精禮盒 2. 神經網絡架構優化大幅節省訓練時間、提升特征提取能力
AlphaGo Zero 表現的提升主要取決於新算法在神經網絡結構設計上的突破:首先,AlphaGo Zero 將價值(Value)網絡和策略(Policy)網絡整合為一個架構,新策略。價值網絡的輸入特征平面由48 個減少到瞭17 個,並且去掉瞭快速走子系統,從而大幅節省訓練時間。其次,AlphaGo Zero特征提取層采用20 或40 個殘差模塊,每個模塊包含2 個卷積層。殘差模塊的運用使網絡深度獲得瞭很大的提升,能夠更有效地直接從棋盤上提取特征,無需人工提取特征。
3. 從0 到1 訓練模型,擺脫人類知識束縛探尋最優解
AlphaGo Zero 從零開始,擺脫瞭對人類樣本的依賴,訓練過程從完全隨機開始。一方面,AlphaGo Zero 通過自我對弈獲得的樣本數據,訓練過程進行瞭 2900 萬次自我對弈,進行瞭 310 萬次參數升級。另一方面,在對弈過程中,神經網絡不斷調整、升級,預測每一步落子和最終的勝利者。這種從0 到1 的自我對弈增強學習機制的優勢在於能夠讓網絡自動嘗試各種可能性,打破基於人類知識的思維局限,獲得最優解。
4. 偉大與局限並存,AlphaGo Zero 技術短期難成為主流
AlphaGo Zero 證明瞭深度增強學習從無到有的強大學習能力,為解決監督學習缺少數據這一難題提供瞭一種可行的思路。但是AlphaGo Zero 本質上解決的仍然是啟發式搜索的問題,尚未展現出普遍適用的泛化性能。在視頻、遊戲、機器人等有既定規則並可以窮舉的領域更容易實現突破,未來也有可能應用於新材料開發、新藥的化學構造探索等前沿科學領域。而對於語音識別、圖像識別、自然語言理解、無人駕駛等沒有明確可窮舉規則的領域,AlphaGo Zero 技術很難推廣,監督學習仍將是AI 研究與AI 商業化的主流方向。
5. 投資建議:
燕窩功效 AlphaGo Zero 的成功,證明瞭通過算法升級減少甚至擺脫人類經驗數據依賴這一思路的可行性,對於人工智能的未來發展具有重要意義,但是在很多其他領域,比如語音識別、圖像識別、自然語言理解等,人類經驗數據仍不可缺少。推薦科大訊飛、華宇軟件、蘇州科達、東方網力、中科創達 、中科曙光、同花順、海康威視、大華股份、思創醫惠、恒生電子、千方科技、神州泰嶽、佳都科技;關註萬東醫療(醫藥團隊覆蓋)、遠方信息、工大高新、川大智勝、漢王科技、神思電子;新三板關註捷通華聲、海鑫科金;一級市場關註地平線機器人、深鑒科技、馭勢科技、圖靈機器人、三角獸、小視科技、奇點機智、理財魔方、藍海智投、商湯科技、波森數據、依圖科技、機器之心、思必馳等。
6. 風險提示:
人工智能政策支持不及預期;產業競爭燕窩推薦加劇的風險;人工智能應用落地低於預期
□ .兒童滴雞精推薦陳.寶.健 .華.創.證.券.有.限.責.任.公.司
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
文章標籤
全站熱搜
留言列表