主頁(http://www.130131.com):華為200萬博士的學(xué)術(shù)研究淺析 我們來看看華為新招的200萬年薪的博士小哥究竟研究了些啥吧。 這個是他的所有論文:
世上的所有規(guī)律,如果用數(shù)學(xué)家的角度來看,就是一個方程,如果一個不夠,就兩個來表達。雖然表達是容易的,但是解出來這個方程的解就難了。令輸入的信息為X,輸出的結(jié)果為Y,則Y=Q(x)就是一個表達。但是這個Q究竟長什么樣子就復(fù)雜了,鐘博士研究的就是這個難題,讓Q長的好看又奈斯。用論文的話說是:elegant in topology with a fast inference speed。拓撲結(jié)構(gòu)學(xué)上優(yōu)美,前向傳播快。 今天抽空看了下他最新的這篇文章: IRLAS: Inverse Reinforcement Learning for Architecture Search 這篇文章是他18年文章Practical block-wise neural networkarchitecture generation的一個遞進。18年的文章沒有細看,用兩張圖大概總結(jié)下兩篇文章究竟干了啥。
18 左邊是谷歌的NASnet,學(xué)出來的模樣是有些亂,加上block,學(xué)出來的blockQNN就優(yōu)雅多了。
19 谷歌的NASNET是采用的暴力窮舉法搜索網(wǎng)絡(luò)結(jié)構(gòu),搜索到的網(wǎng)絡(luò)結(jié)構(gòu)長的千奇百怪,里面也有太多冗余,雖然精度很高。鐘博士18年做的工作是,在搜索的時候加入了block,這樣你不能隨意生長了,相當(dāng)于貨物往船上運輸,用集裝箱裝好貨物,貨物就不會亂跑了。集裝箱占地,因而精度要差些,但是如果集裝箱排列的好,精度也很高,而且拆裝都方便。 19年的時候,覺得集裝箱有些笨重傻乎乎的沒變化,就加了些變化,用了一個命名為相反強化學(xué)習(xí)的方法來做優(yōu)化。 來認真讀一下這篇文章吧。 首先講一下總體結(jié)構(gòu),然后重點說下Inverse Reinforcement Learning 究竟干了什么事情。 總體結(jié)構(gòu):
圖1 這個總體結(jié)構(gòu)圖是清晰的,文章后面的具體算法介紹感覺有些欠缺層次性。 我來幫大家理一下: 1、總loss函數(shù)長這個樣子。
第一項代表的是整個網(wǎng)絡(luò)的分類精度損失,這個很好理解,第二項你可以認為是正則化項,講的是網(wǎng)絡(luò)的拓撲結(jié)構(gòu)損失,這個損失講的是學(xué)習(xí)到的網(wǎng)絡(luò)和專家設(shè)計的精巧網(wǎng)絡(luò)結(jié)構(gòu)之間的差異。你理解為正則化比較合適:我不光要學(xué)習(xí)精度,我還要讓他結(jié)構(gòu)更合理,增加一個結(jié)構(gòu)拓撲的懲罰項。相當(dāng)于在精度和結(jié)構(gòu)優(yōu)美兩方面追求一個平衡,平衡點就由λ來協(xié)調(diào)。我們看到,圖片中兩項損失都有通過紅色虛線輸給智能體Agent?俵oss抓住了,那算法的主要枝干就清晰了。 2、我們在看下圖1,他這里乍一看只有一個拓撲結(jié)構(gòu)的loss,看起來是專家網(wǎng)絡(luò)和我們搜索得到的網(wǎng)絡(luò)之間的拓撲差,其實是圖缺了一塊,分類loss是搜索得到的網(wǎng)絡(luò)前向傳播后跟真實數(shù)據(jù)的差,他直接畫了一個紅虛線替代了。 重點講一下這個拓撲之差。拓撲差不好計算,他想了很多法子,首先,把每個小組件用編碼表示,例如Depthwise convolution with kernel size 1×1 給他標(biāo)為1,標(biāo)完后,就可以把一個網(wǎng)絡(luò)結(jié)構(gòu)層層用編碼表示了,然后求每一層的特征碼之間的不一致和連線的不一致就代表了整個網(wǎng)絡(luò)結(jié)構(gòu)之間的相似性。怎么求沒有去細嚼。 強化學(xué)習(xí)的狀態(tài)和動作:狀態(tài)就是每層現(xiàn)在的特征碼排序,動作就是這一層目前采用什么特征碼,以及跟相鄰層之間的特征碼怎么連線。 Inverse Reinforcement Learning就是用在求這個網(wǎng)絡(luò)結(jié)構(gòu)之間的相似性上的。
我的解說不能替代你看論文,但就像大學(xué)上課一樣,老師講一遍你再看課本,你就會更有思路和針對性。
題外話: 鐘博研究的比較底層的模型結(jié)構(gòu),這個東西不是5G,也不是物聯(lián)網(wǎng),華為直接拿來變現(xiàn)基本不現(xiàn)實,看來華為還是很有學(xué)術(shù)情懷的。
其實現(xiàn)在deeplearning研究領(lǐng)域還有一個更底層的,就是如何搞清楚模型這個黑盒子是怎么運轉(zhuǎn)的。這有兩個學(xué)術(shù)方向,一個是田淵棟的研究,認為模型結(jié)構(gòu)確定后,起作用的是一些關(guān)鍵參數(shù);另一個研究方向是谷歌大腦的人,他們發(fā)現(xiàn),確定一組參數(shù),我不斷變換網(wǎng)絡(luò)結(jié)構(gòu)后,也能讓模型收斂到比較高的精度。這些都是不斷往黑盒子里深挖了。也就是尋找文章開篇講的那個極具魔性的Q(x)的模樣。
(本文內(nèi)容來自微信公眾號:櫻園的玻爾茲曼機) (中國集群通信網(wǎng) | 責(zé)任編輯:李俊勇) |








