【深度學習】深度學習撩妹語錄解析

為你解析深度學習撩妹語錄裡面各個神經網路為何這麼說。

 

最近網路上一片各種版本撩妹語錄風,我在這也做了深度學習版,在此除了讓各位欣賞深度學習版撩妹語錄外,也順便做些解說,好讓沒有接觸過深度學習的人也能夠了解每個神經網路的基本概念。

LSTM

圖像裡可能有文字

上圖就是大名鼎鼎的LSTM(Long Short-Term Memory,長短記憶模型),也是遞迴神經網路(RNN)中最受歡迎的一種形式。它最早是由 Sepp Hochreiter於1991發表原型,然後Jürgen Schmidhuber於1997將理論基礎大功告成,沒錯! LSTM是個快要30歲的老演算法了,它也是被Hinton發展出的深度學習最佳化方法救活的一票演算法之一。
LSTM最大的好處在於它解決了遞迴神經網路容易發生的梯度爆炸以及梯度瀰散的問題,它使用了稱之為「門控(gate)」的機制,可以學習何時該開或關來控制上下文向量(context vector)的流動。LSTM總共有3個門控,分別是輸入門、遺忘門以及輸出門,分別管理新數據是否該納入、那些舊數據該遺忘、那些上下文該納入輸出。所以對妹說他的遺忘門總是關著,正是表達永不遺忘的最高禮遇。

 

Faster RCNN

圖像裡可能有文字

Faster RCNN是由被粉絲們暱稱為RGB的Ross B. Girshick自2013年起發表的RCNN三部曲(RCNN, Fast RCNN, Faster RCNN)中的最後版本,於2015發表,是精確率最高的物體檢測演算法之一(但可惜它是先定位,再分類的兩階段模型,所以速度不高)。物體檢測就是不但要知道照片裡有什麼(物體識別),還需要把它框出來(物體檢測)。Faster RCNN使用了Region proposal Network解決了過去算法中人工方式產生大量候選位置區域(proposal)的問題,而是改用預埋的不同尺寸anchor,來解決物體不確定尺寸大小與比例的問題。所以不管天涯海角,Faster RCNN都能把妹的位置給檢測出來。

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

 

Auto-Encoder

圖像裡可能有文字

Auto-Encoder是最古老的深度學習結構之一,它是一個漏斗型的結構,讓高維度數據逐步被降維,到了最窄處,再逐步升維,並且要求輸入必須等於輸出,這意味著最窄處被極致降維的結果必須包含了重建原始高維數據的一切必要信息,我們稱這樣的高度壓縮向量為表徵(representation)或者是嵌入(embedded),這也是深度學習壓縮演算法的核心網路結構,由於他沒有依賴任何外部標籤,因此被歸屬為標準的非監督式學習。所以只要看過妹的一顰一笑,它就能夠取得表徵,然後完整重現。

 

WaveNet

圖像裡可能有文字

WaveNet是來自於Deepmind的得意之作,它也是目前聲音生成模型的SOTA(state-of-the-art),它可以模仿人類或者是各種樂器的聲音,他的模仿能力甚至連人類講話時特有的換氣呼吸聲都可以模仿。它的本質是一個一維空洞卷積,一般我們用二維卷積處理二維的影像數據,那麼一維的聲音數據當然要用一維卷積。至於空洞卷積(dilation)則是一種特殊卷積型態,它可以有效地在不增加訓練參數的狀況下,擴大每個卷積的感知域,這樣就可以從細節到大趨勢的捕捉聲音特性。所以當然忘不了妹的聲音。

WaveNet: A Generative Model for Raw Audio

 

Deep Belief Network

圖像裡可能有文字

學深度學習的人千萬不能不知道什麼是深度信念網路,它是深度學習三大神之首Hinton發展深度學習理論時的第一個深度學習網路(還不膜拜),所以我也借用它作為我在大陸創業的名字(deepbelief.ai)。深度信念網路每一層都是受限波茲曼機( restricted Boltzmann machine, RBM),Hinton拿它來做語音識別以及人臉識別,在那時都獲得巨大的成功。這是神級的深度信念,妹怎能不感動。

A fast learning algorithm for deep belief nets

 

DenseNet

圖像裡可能有文字

DenseNet可以說是這類使用了跳轉連接(skip connection)的卷積神經網路中的超級進化版,每一個稠密單元(Dense Block)中,每一層卷積神經層除了來自上一層傳送的特徵外,在他之前的「每」一層都會透過跳轉連接將特徵直送,這樣保證重要特徵絕不丟失,所以超級珍惜與妹在一起的所有回憶。

Densely Connected Convolutional Networks

 

Attention

圖像裡可能有文字

深度學習三大神之一的Yoshua Bengio首次將注意力機制(attention)運用在機器翻譯中,它模仿人類閱讀文字的習慣,先逐字讀取後,會將注意力放在特定的詞彙以產生正確翻譯結果,注意力機制可以衡量特別詞彙的重要性。若是注意力一直在她身上,多麼深情的執著...。

Neural Machine Translation by Jointly Learning to Align and Translate

 

152 -Layers ResNet

沒有自動替代文字。

微軟亞洲研究院的兩大男神孫劍與何愷明聯手發表的ResNet,在2015年利用了152層前所未有的超深卷積神經網路獲得了該年ImageNet的冠軍,而且以僅有3.57%的物體識別錯誤率,終於在視覺領域上擊敗人類。152層殘差神經網路,沒有最深,只有更深.....

Deep Residual Learning for Image Recognition

ResNet

圖像裡可能有文字

殘差神經網路(ResNet)利用了跳轉連結傳遞梯度,逐層優化輸出值與實際值之間的差異(殘差),可以有效地傳遞梯度避免梯度瀰散,也成為現在最主流的卷積神經網路骨幹架構。
 

 

 

Allan Yiin

CTO, AsiaMiner