首先,除了 orthogonal initialization 和 uniform initialization,現(xiàn)在常用的還有 Gaussian initialization。不常用的還有 identity initialization 和現(xiàn)在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。個(gè)人感覺,比較復(fù)雜的 LSTM 用 orthogonal initialization 的人比較多,而在 research paper 討論一個(gè)小 task 時(shí),我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀的原因是后者的 layer 和 magnitude 比較少/小。
說(shuō)到 layer 比較少,其實(shí)我是想說(shuō),orthogonal initialization,個(gè)人認(rèn)為對(duì)于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是,(1)可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因?yàn)?orthogonal matrix 的所有 vectors 都是 orthonormal 的,也就是不僅 orthogonal,還 magnitude 為 1. 這樣,在計(jì)算時(shí)候,乘上這個(gè) matrix,就可以修正 vanishing 也可以重置 saturation。(2)這個(gè)問題應(yīng)該是和 saddle point 有關(guān)系,復(fù)雜的 LSTM 受 saddle point structures 帶來(lái)的各種問題更嚴(yán)重,而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴,消除 non-global minima。(3)當(dāng)然還有這幾種 initialization 都用來(lái)破壞 symmetry。
上面這是可被證實(shí)的,下面來(lái)點(diǎn)個(gè)人的猜測(cè):這和 weight variation 也有關(guān)系。
綜上,有些人覺得這幾種方法沒區(qū)別,有人覺得有,完全是 case-by-case。我個(gè)人在實(shí)踐過(guò)程中,即使是小網(wǎng)絡(luò),也覺得有區(qū)別。
有一個(gè)答案給的是一篇acl2016的論文,采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 cnn + lstm +crf的經(jīng)典架構(gòu),是一個(gè)很成熟的系統(tǒng)
目前來(lái)說(shuō),實(shí)體識(shí)別的應(yīng)用領(lǐng)域,lstm+crf是一種標(biāo)配了,短期內(nèi)我認(rèn)為只要在attention方面沒有很大的突破,這一框架都不會(huì)變化
要理解為什么lstm后面要接crf層,首先應(yīng)該理解的是crf的功能
題主問這個(gè)問題,想必是明白lstm的output,我們姑且不討論原理,lstm在序列標(biāo)注的問題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對(duì)每一個(gè)input的單詞,對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè),假設(shè)當(dāng)前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè),這應(yīng)該就是答主的疑惑,我們直接用一個(gè)分類器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?
那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注,其實(shí)crf也是接近的原理,crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征,然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練,可以使用那篇論文上的likehood函數(shù),當(dāng)然使用labelwise的也可以,這也屬于調(diào)參的一部分
總之我個(gè)人的理解,crf相當(dāng)于對(duì)lstm信息的再利用,利用效率高于一個(gè)簡(jiǎn)單的分類器,實(shí)際情況也適合這一點(diǎn),題主不妨找個(gè)實(shí)例測(cè)測(cè)玩玩,也就明白了
首先,除了 orthogonal initialization 和 uniform initialization,現(xiàn)在常用的還有 Gaussian initialization。
不常用的還有 identity initialization 和現(xiàn)在“已經(jīng)被時(shí)代拋棄”的 pretraining with autoencoder。這些方法在不同的場(chǎng)景下都被人選擇了。
個(gè)人感覺,比較復(fù)雜的 LSTM 用 orthogonal initialization 的人比較多,而在 research paper 討論一個(gè)小 task 時(shí),我看到的大部分還是說(shuō)用 uniform/Gaussian。這里可能的直觀的原因是后者的 layer 和 magnitude 比較少/小。
說(shuō)到 layer 比較少,其實(shí)我是想說(shuō),orthogonal initialization,個(gè)人認(rèn)為對(duì)于 LSTM (deep, high-dimensitional, non-convex)比較有效的原因是,(1)可以很方便地減緩 gradient vanishing/exploding problem 和 activation functions 的 saturation。因?yàn)?orthogonal matrix 的所有 vectors 都是 orthonormal 的,也就是不僅 orthogonal,還 magnitude 為 1. 這樣,在計(jì)算時(shí)候,乘上這個(gè) matrix,就可以修正 vanishing 也可以重置 saturation。
(2)這個(gè)問題應(yīng)該是和 saddle point 有關(guān)系,復(fù)雜的 LSTM 受 saddle point structures 帶來(lái)的各種問題更嚴(yán)重,而基于 SVD/QR 的 orthogonal initialization 可以 decouple networks 之間的依賴,消除 non-global minima。(3)當(dāng)然還有這幾種 initialization 都用來(lái)破壞 symmetry。
上面這是可被證實(shí)的,下面來(lái)點(diǎn)個(gè)人的猜測(cè):這和 weight variation 也有關(guān)系。綜上,有些人覺得這幾種方法沒區(qū)別,有人覺得有,完全是 case-by-case。
我個(gè)人在實(shí)踐過(guò)程中,即使是小網(wǎng)絡(luò),也覺得有區(qū)別。
有一個(gè)答案給的是一篇acl2016的論文,采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 cnn + lstm +crf的經(jīng)典架構(gòu),是一個(gè)很成熟的系統(tǒng)目前來(lái)說(shuō),實(shí)體識(shí)別的應(yīng)用領(lǐng)域,lstm+crf是一種標(biāo)配了,短期內(nèi)我認(rèn)為只要在attention方面沒有很大的突破,這一框架都不會(huì)變化要理解為什么lstm后面要接crf層,首先應(yīng)該理解的是crf的功能題主問這個(gè)問題,想必是明白lstm的output,我們姑且不討論原理,lstm在序列標(biāo)注的問題,落實(shí)到題主說(shuō)的ner,也就是一個(gè)seq2seq,在英文中,可以是對(duì)每一個(gè)input的單詞,對(duì)例如bieo的四個(gè)標(biāo)簽進(jìn)行預(yù)測(cè),假設(shè)當(dāng)前輸出的事100個(gè)words,那個(gè)輸出的就是100*4的一個(gè)概率預(yù)測(cè),這應(yīng)該就是答主的疑惑,我們直接用一個(gè)分類器,四個(gè)里面選一個(gè)就好了,為什么要再接crf呢?那么,我們首先考慮我們使用lstm的初衷,就是為了考慮上下文來(lái)分析當(dāng)前的tag標(biāo)注,其實(shí)crf也是接近的原理,crf意會(huì)一點(diǎn)的描述其實(shí)有點(diǎn)像一張概率圖,在single crf中,你需要做的是盡可能的對(duì)每個(gè)對(duì)象挖掘多的特征,然后學(xué)習(xí)他們之間的一種“銜接”關(guān)系,在lstm后面加上crf,相當(dāng)于對(duì)lstm抽象過(guò)的一種語(yǔ)言關(guān)系來(lái)進(jìn)行crf訓(xùn)練,可以使用那篇論文上的likehood函數(shù),當(dāng)然使用labelwise的也可以,這也屬于調(diào)參的一部分總之我個(gè)人的理解,crf相當(dāng)于對(duì)lstm信息的再利用,利用效率高于一個(gè)簡(jiǎn)單的分類器,實(shí)際情況也適合這一點(diǎn),題主不妨找個(gè)實(shí)例測(cè)測(cè)玩玩,也就明白了。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁(yè)面生成時(shí)間:2.998秒