昨天,程序DeepMind團隊又在arXiv上扔了個重磅炸彈,接級新一代AlphaZero在用了強勁的連擊計算資源(5000個一代TPU和64個二代TPU)之后,用不到24小時的世界時間自我對弈(tabula rasa,也叫白板)強化學習,冠軍接連擊敗了三個世界冠軍級的程序程序 (國際象棋、將棋、接級青島美女快餐外圍上門外圍女(微信189-4469-7302)提供1-2線熱門城市快速安排90分鐘到達圍棋)。連擊

△ AlphaZero和國際象棋冠軍程序對弈
其中包括上一代冠軍圍棋程序AlphaGo Zero,這個程序發(fā)布還不到兩個月,冠軍DeepMind就又把自己顛覆了(所以谷歌團隊自我進化速度的程序時間單位都是按天計,可怕)。
AlphaZero的百局戰(zhàn)績

對弈國際象棋程序Stockfish:28勝,72平;
對弈將棋程序 Elmo:90勝,2平,8負;
對弈圍棋程序AlphaGo Zero:60勝,40負。
AlphaZero自我對弈的訓練時間

訓練次數 | 訓練時間 | 對弈冠軍棋類程序
30萬,2小時,擊敗將棋Elmo
11萬,4小時,擊敗國際象棋Stockfish
16.5萬,8小時,擊敗圍棋AlphaGo
把Go去掉,意味著AlphaZero ,已經是比AlphaGo Zero更通用的程序。
一直以來,盡管眾多頂尖的AI的程序都超過了人類世界冠軍的水平,但它們都只能在單一的領域執(zhí)行單一的任務,并不能把這種擊敗人類的超能力泛化到其他任務中。
而DeepMind的野心可不僅僅是在棋類游戲上超越人類,這次他們研究出了這個更通用的程序AlphaZero,將會馬上投入到蛋白折疊的應用上。
官方稱,他們不久就會發(fā)表相關論文,通過檢測出蛋白錯誤折疊來快速診斷神經退行性疾病,比如阿爾茨海默癥,帕金森,囊狀纖維化。
期待AlphaZero在醫(yī)療健康領域的表現。