免费看aⅴ,天天插天天干天天射,呦女网,入逼逼

智能制造網(wǎng)首頁【請(qǐng)登錄】【免費(fèi)注冊(cè)】

資訊-商城-企業(yè)-商機(jī)-期刊-品牌-訪談-專題-展會(huì)-技術(shù)-專家-培訓(xùn)-人才-樣本-視頻- 手機(jī)版

倉儲(chǔ)設(shè)備|金屬加工機(jī)械|智能農(nóng)機(jī)|食品加工設(shè)備|智能環(huán)保設(shè)備|制藥設(shè)備|智能包裝機(jī)械|印刷機(jī)械|造紙?jiān)O(shè)備
智能工程機(jī)械|紡織機(jī)械|新能源設(shè)備|建材機(jī)械|智能化工設(shè)備|礦治設(shè)備|電子加工設(shè)備|海洋水利設(shè)備|機(jī)械零部件

工控機(jī)|變頻器|傳感器|人機(jī)|RFID
電源|PLC|總線|電機(jī)|無人機(jī)


本站服務(wù)網(wǎng)站幫助會(huì)員服務(wù)

企業(yè)首頁|企業(yè)新聞|企業(yè)專題|企業(yè)視頻|會(huì)員報(bào)道|成功案例|行業(yè)精英|企業(yè)家風(fēng)采|最新加盟企業(yè)|品牌展示

精彩推薦:
您現(xiàn)在的位置:智能制造網(wǎng)>公司庫>獨(dú)家訪談
鄧力:以獨(dú)特視角詮釋語音識(shí)別領(lǐng)域新技術(shù)進(jìn)展
2016/8/10 13:23:29  來源: 微軟     作者:    瀏覽次數(shù):次
 
  【中國智能制造網(wǎng) 訪談】微軟人工智能科學(xué)家鄧力日前接受了記者專訪,以另外的視角詮釋了語音識(shí)別領(lǐng)域的新技術(shù)進(jìn)展,以及他的團(tuán)隊(duì)的一些不同的工作。
  
  鄧力:以獨(dú)特視角詮釋語音識(shí)別領(lǐng)域新技術(shù)進(jìn)展
  
  著眼于端到端建模和訓(xùn)練,鄧力介紹了輸出端和輸入端的進(jìn)展,遷移學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、非監(jiān)督學(xué)習(xí)在語音識(shí)別領(lǐng)域的應(yīng)用現(xiàn)狀和前景,并解釋了他對(duì)非監(jiān)督學(xué)習(xí)的獨(dú)特理解,重點(diǎn)總結(jié)了詞嵌入的利用和改善。他還展望了類腦機(jī)器智能突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)局限的方法。
  
  有感于有監(jiān)督學(xué)習(xí)的局限,鄧力目前將很大部分的精力用到了非監(jiān)督學(xué)習(xí)上,并且與微軟目前的自然語言理解、對(duì)話系統(tǒng)、聊天機(jī)器人等核心工作相結(jié)合??春梅潜O(jiān)督學(xué)習(xí)語音識(shí)別,是由于語音識(shí)別領(lǐng)域“先驗(yàn)”知識(shí)的逐漸成熟,包括輸出端非常強(qiáng)的語言模型和多年積累的從輸出端到輸入端映射的生成式知識(shí)。鄧力認(rèn)為,將各種先驗(yàn)知識(shí)整合到一個(gè)完整而能快速計(jì)算和優(yōu)化的非監(jiān)督深度學(xué)習(xí)框架,語音識(shí)別的問題將可以徹底解決。當(dāng)然,這需要新的深度非監(jiān)督學(xué)習(xí)算法和理論。
  
  鄧力認(rèn)為,詞嵌入或音素嵌入用到語音識(shí)別領(lǐng)域,一項(xiàng)有意思的工作是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。對(duì)抗式網(wǎng)絡(luò)的思路可以用來整合語音生成知識(shí)。不過,詞嵌入的本質(zhì)是利用鄰近詞的預(yù)測特性,只是所應(yīng)該用的先驗(yàn)知識(shí)的一小部分。更重要的先驗(yàn)知識(shí)應(yīng)該是關(guān)于輸出序列變量的更強(qiáng)并比現(xiàn)有詞嵌入具有更長距離的統(tǒng)計(jì)特性,以及從輸出到輸入的生成特性。
  
  以下為采訪實(shí)錄:
  
  非監(jiān)督學(xué)習(xí)語音識(shí)別將來會(huì)成功,但需要大量創(chuàng)新工作來鋪路
  
  記者:能否介紹當(dāng)前語音識(shí)別領(lǐng)域讓您興奮的一些進(jìn)展,以及您目前所做的一些有趣的工作?
  
  鄧力:從整個(gè)語音識(shí)別業(yè)界來講(包括中國和美國幾家主要大公司的工作),令人興奮的進(jìn)展涵蓋了輸出端和輸入端的端到端訓(xùn)練::
  
  端到端建模和訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)語音識(shí)別系統(tǒng)近期繼續(xù)降低識(shí)別錯(cuò)誤率,特別是成功用上CTC訓(xùn)練準(zhǔn)則使得端到端訓(xùn)練行之有效。CTC訓(xùn)練準(zhǔn)則忠實(shí)地代表了語音識(shí)別系統(tǒng)的訓(xùn)練目標(biāo),比我們?cè)贒NN時(shí)代之前用的MCE、MPE、MWE、MMI更合理,盡管CTC的優(yōu)化需要不少工程技巧。我在研究院的同事在這方面做了很多工作,包括對(duì)CTC的延伸并將CTC與傳統(tǒng)的MMI序列訓(xùn)練方法相結(jié)合。
  
  行之有效的端到端訓(xùn)練在輸入端已經(jīng)擴(kuò)張到多麥克風(fēng)陣列的語音波形。這使得抗噪音的語音識(shí)別系統(tǒng)部分也整合進(jìn)入端到端學(xué)習(xí)。
  
  我自己目前將不少時(shí)間用在關(guān)于讓非監(jiān)督學(xué)習(xí)用到離散序列輸出(比如自然語言)的應(yīng)用,包括語音識(shí)別、機(jī)器翻譯、看圖說話,等等。為什么注重像自然語言這樣的離散序列輸出?這是因?yàn)樽匀徽Z言模型包含了非常豐富的“先驗(yàn)”知識(shí),使得不需輸入輸出匹配的學(xué)習(xí)的成功機(jī)會(huì)大于其他在輸出端缺乏豐富“先驗(yàn)”知識(shí)的應(yīng)用和任務(wù)。
  
  靠輸入輸出匹配的學(xué)習(xí)是要花高代價(jià)準(zhǔn)備大訓(xùn)練數(shù)據(jù)的。這是目前很成功的有監(jiān)督深度學(xué)習(xí)的局限之一。相反,無需輸入輸出匹配的大數(shù)據(jù)成本要低得多,它遍地皆是,有取之不盡用之不竭的潛力。
  
  要有效地利用比現(xiàn)有輸入輸出相匹配的訓(xùn)練數(shù)據(jù)高出幾個(gè)數(shù)量級(jí)的無輸入輸出匹配的大數(shù)據(jù)來訓(xùn)練深度學(xué)習(xí)系統(tǒng),有待于開創(chuàng)全新的深度非監(jiān)督學(xué)習(xí)算法和理論。一旦成功,這會(huì)給深度學(xué)習(xí)建立一個(gè)新的里程碑。比如用在語音識(shí)別,任何人們之間的對(duì)話和個(gè)人演講都可以成為非監(jiān)督學(xué)習(xí)語音識(shí)別機(jī)的語料,而我們并不需要去標(biāo)注這些自然的到處都有的語料。
  
  為什么我認(rèn)為非監(jiān)督學(xué)習(xí)語音識(shí)別會(huì)成功?因?yàn)槲覀冊(cè)谳敵龆擞胸S富的“先驗(yàn)”知識(shí),就是非常強(qiáng)的語言模型,可以是嵌入式的,也可以是非嵌入式的。同時(shí)我們也有非常豐富的從輸出端到輸入端映射的生成式的“先驗(yàn)”知識(shí)。這就是語音科學(xué)家?guī)资攴e累下來的人類從概念到波形的語音motorcontrol和語音生成的知識(shí)。語音生成的motorcontrol要比機(jī)械人對(duì)手指的精細(xì)運(yùn)動(dòng)控制還復(fù)雜。
  
  我當(dāng)年在MIT、ATR和在加拿大滑鐵盧大學(xué)任教時(shí)做了很多這方面的研究。當(dāng)時(shí)用的是動(dòng)態(tài)深度貝葉斯網(wǎng)絡(luò)來表達(dá)和實(shí)現(xiàn)這些知識(shí),模型中的一部分也用上multilayerperception。我和我的學(xué)生們?cè)?997-2003年發(fā)表了一系列論文。到微軟之后還寫了兩本關(guān)于這方面的書。記得當(dāng)年GeoffHinton教授同我就如何將這些動(dòng)態(tài)語音生成知識(shí)和模型用到有監(jiān)督深度學(xué)習(xí)討論了很長時(shí)間。當(dāng)時(shí)得到的識(shí)別率結(jié)果跟丟開這些生成知識(shí)的DNN-HMM差不多,但計(jì)算上卻難以得益于用GPU訓(xùn)練,而且解碼要用很多近似,也很慢。所以我把動(dòng)態(tài)語音生成模型放棄了很長時(shí)間專攻DNN,后者沒有這些弱點(diǎn)。見文末一些文獻(xiàn),回顧了以上講的這些古老的工作。
  
  現(xiàn)在到了大家開始注重非監(jiān)督深度學(xué)習(xí)的時(shí)代。過去積累的研究經(jīng)驗(yàn)和有計(jì)算價(jià)值的語音生成知識(shí)真是可以派上用場。將多種類(輸入輸出端統(tǒng)計(jì)特性以及它們的關(guān)聯(lián)性)的先驗(yàn)知識(shí)整合到一個(gè)嶄新的非監(jiān)督深度學(xué)習(xí)框架,我相信語音識(shí)別的問題可以徹底解決。
  
  深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干
  
  記者:概括地說,除了特征提取,深度學(xué)習(xí)在語音識(shí)別領(lǐng)域主要還發(fā)揮哪些作用?
  
  鄧力:端到端訓(xùn)練高層動(dòng)態(tài)網(wǎng)絡(luò)是有監(jiān)督深度學(xué)習(xí)在語音識(shí)別領(lǐng)域應(yīng)用的精華。特征提取只是它的自然結(jié)果之一。
  
  直到現(xiàn)在,單靠特征提取在非監(jiān)督深度學(xué)習(xí)上從未成功過。
  
  記者:您與俞棟博士合著的新書《解析深度學(xué)習(xí)-語音識(shí)別實(shí)踐》系統(tǒng)地介紹了基于DNN的語音識(shí)別技術(shù),哪些人應(yīng)該讀這本書?他們會(huì)收獲些什么?這本書適合入門嗎?需要讀者具備什么知識(shí)基礎(chǔ)?
  
  鄧力:我們?cè)谛蜓岳镏v到這本書的對(duì)象主要是語音處理及機(jī)器學(xué)習(xí)領(lǐng)域的在讀研究生、研究者、實(shí)踐者、工程師以及科學(xué)家的學(xué)習(xí)研究工作。但注意由于我們寫書時(shí)間緊迫,有些內(nèi)容沒有加上,包括CNN、CTC、麥克風(fēng)陣列、語音分離,等等。
  
  閱讀本書的知識(shí)基礎(chǔ)包括微積分、矩陣代數(shù)和基本的概率統(tǒng)計(jì)等。
  
  對(duì)于入門讀者,我們同年出版的英文版《深度學(xué)習(xí):方法和應(yīng)用》(由謝磊教授翻譯成中文)可能更適合。只是材料有點(diǎn)過時(shí)了。
  
  記者:您介紹了很多魯棒性的方法,有哪一種是您喜歡的嗎?
  
  鄧力:對(duì)speaker魯棒性的方法,我很喜歡KL-divergenceregularization,不但管用,而且方法巧妙,實(shí)現(xiàn)起來也簡單。是subspace方法中的一種。
  
  對(duì)抗環(huán)境噪音的魯棒性的方法,我在全力攻DNN之前很喜歡VTS的方法,也發(fā)明了整合語音-噪音相位的VTS方法,不但方法巧妙,在某些條件下也挺管用。但因?yàn)樗玫氖巧墒降母拍睿瑤啄昵昂茈y用DNN方法來實(shí)現(xiàn)?,F(xiàn)在我們知道怎樣整合生成式模型和神經(jīng)網(wǎng)絡(luò)(見書中第6章和文末一些文獻(xiàn)),大家做這方面的研究可能就有成功希望了。
  
  記者:書中專門談到了遷移學(xué)習(xí),舉了一些例子,如歐洲語言到中文普通話的成功遷移,那么哪些因素決定共享DNN隱層架構(gòu)在當(dāng)前語音識(shí)別領(lǐng)域的邊界和局限?遷移學(xué)習(xí)在語音識(shí)別領(lǐng)域推廣應(yīng)用的挑戰(zhàn)是什么?
  
[MTpage]

  鄧力:我們?cè)诘?2章講了遷移學(xué)習(xí),并舉了用其他語言的語料幫助一個(gè)特定語言的語音識(shí)別的例子。跨語言能共享DNN隱層架構(gòu)有很強(qiáng)的物理和認(rèn)知的基礎(chǔ)。不論什么語言,其發(fā)音器官(主要包括聲道和聲門)大體相似。人類語音感知機(jī)制是同生成機(jī)制緊密相連的。所以DNN作為語音感知層的模型在高層上共享隱層是很自然的思想。
  
  12章講的所有例子都是基于音素及其左右context作為基本語音單元。我覺得如果能把喬姆斯基的生成式音韻結(jié)構(gòu)用上來定義基本語音單元做遷移學(xué)習(xí),至少理論意義會(huì)更大。共享隱層的基礎(chǔ)會(huì)更扎實(shí)些,因?yàn)橛靡繇嵔Y(jié)構(gòu)定義的語音感知單元就是按照人類發(fā)音器官跨語言共享的總體特性來決定的。
  
  從更廣闊的意義上講,遷移學(xué)習(xí)可以成為完成非監(jiān)督學(xué)習(xí)的重要“知識(shí)源”之一,特別當(dāng)數(shù)據(jù)和問題本身有組合特性的時(shí)候。上月開完的CVPR有一篇很好的關(guān)于“DeepCompositionNet”的論文,用到的遷移學(xué)習(xí)很巧妙很有趣。語音領(lǐng)域里的這種組合特性更豐富,特別在于怎樣將音素(類比為分子)分解為phonologicalfeatures(類比為原子)。而且這種分解組合與“features”之間非同步的時(shí)程演化有關(guān)。這是語音很有趣的特性。
  
  記者:當(dāng)前熱門的LSTMRNN被高估了嗎?
  
  鄧力:熱門而古老的LSTMRNN確實(shí)很有效。GRU簡化了LSTM不少,也類似有效。但要注意,把它們用到語音識(shí)別時(shí)必須用HMM的動(dòng)態(tài)規(guī)劃或者CTC來處理LSTMRNN的輸出。手寫體字的識(shí)別也一樣。但用到自然語言處理就不需要這樣多此一舉,因?yàn)檩斎胼敵龅男蛄袥]有像語音和手寫體識(shí)別那樣的segmental特性。
  
  LSTMRNN的之一Schmidhuber教授近日正好來到西雅圖。我們又一次在一起討論,也談起LSTMRNN在語音識(shí)別和其他領(lǐng)域(包括增強(qiáng)學(xué)習(xí)方面)的重要應(yīng)用。我不覺得有被高估。
  
  記者:書中介紹了一系列的未來技術(shù)方向,其中哪些是您的團(tuán)隊(duì)所關(guān)注的?您如何確定一個(gè)技術(shù)研究的方向?
  
  鄧力:英文版的書是在2014年中完稿的。近兩年來深度學(xué)習(xí)發(fā)展很快。15章后一節(jié)提到的一系列的未來技術(shù)方向,不少方面至今已經(jīng)有很大的進(jìn)展。書完稿之后又很快出現(xiàn)新的技術(shù)研究的方向。
  
  我領(lǐng)導(dǎo)的團(tuán)隊(duì)現(xiàn)在主要聚焦在自然語言語義理解及其在對(duì)話系統(tǒng)(包括聊天機(jī)器人)上的應(yīng)用。語音的進(jìn)一步進(jìn)展目前相對(duì)是次要,因?yàn)樽R(shí)別率已經(jīng)高到在對(duì)話系統(tǒng)上可以使用的地步了。
  
  確定技術(shù)研究的方向有幾個(gè)因素要結(jié)合,包括其潛在的對(duì)工業(yè)界和學(xué)術(shù)界的影響力,實(shí)際應(yīng)用的可能性和廣泛性,創(chuàng)新價(jià)值和新穎性,能否利用現(xiàn)有技術(shù)積累比較快速地實(shí)現(xiàn),等等。當(dāng)然也包括團(tuán)隊(duì)有無激情和能力把它做成。所以團(tuán)隊(duì)的質(zhì)量重要。我領(lǐng)導(dǎo)的團(tuán)隊(duì)近年來靠公司內(nèi)部富有激情和高度能力的強(qiáng)手隊(duì)員做了幾項(xiàng)很有影響力的深度學(xué)習(xí)大項(xiàng)目,但因涉及商業(yè)應(yīng)用尚未對(duì)外發(fā)表,這在一定程度上對(duì)吸引公司外部的強(qiáng)手起了負(fù)面作用。我們正在設(shè)法改變這種狀況,使我們的團(tuán)隊(duì)更加強(qiáng)壯。
  
  記者:訓(xùn)練關(guān)鍵的發(fā)音特征并泛化,目前有什么樣的進(jìn)展?您認(rèn)為技術(shù)成熟還需要什么條件?
  
  鄧力:剛才提到我們目前的精力主要在自然語言理解,我近來沒有跟蹤這方面的進(jìn)展。但我認(rèn)為有效利用語音composition特性來做基于遷移學(xué)習(xí)的泛化是一個(gè)方向,因?yàn)榘l(fā)音特征的變化往往是源于個(gè)別發(fā)音器工作的微小變化,并非某個(gè)音素整體的變化。
  
  記者:未來三五年的ASR領(lǐng)域,是否還有一些非深度學(xué)習(xí)方法具有挖掘的潛力(或者可以和深度學(xué)習(xí)進(jìn)行結(jié)合實(shí)現(xiàn)更好的效果)?
  
  鄧力:像英文和普通話中文已有比較大量的有標(biāo)注的訓(xùn)練數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干以達(dá)到識(shí)別效果。整合深度生成模型有助于進(jìn)一步提高識(shí)別效果。
  
  對(duì)于低資源的語言或中文的很多方言,有標(biāo)注的訓(xùn)練數(shù)據(jù)不多?;谪惾~斯網(wǎng)絡(luò)的生成模型可能更有效。同時(shí),Kernel非線性方法(非深度模型)也就不受大數(shù)據(jù)scalability的限制。
  
  在所有以上情形里,在非監(jiān)督深度學(xué)習(xí)成功之后,它們的識(shí)別效果都會(huì)有很大的提升,因?yàn)楦酂o標(biāo)注的語音數(shù)據(jù)可以被有效地加以應(yīng)用。
  
  增強(qiáng)學(xué)習(xí)的作用
  
  記者:AlphaGo的進(jìn)展讓世界注意到了增強(qiáng)學(xué)習(xí),您認(rèn)為(深度)增強(qiáng)學(xué)習(xí)在語音識(shí)別領(lǐng)域能發(fā)揮什么樣的作用?
  
  鄧力:增強(qiáng)學(xué)習(xí)的本質(zhì)是階段性的優(yōu)化過程,同時(shí)增強(qiáng)信號(hào)或有“標(biāo)注”的信號(hào)只是到終點(diǎn)階段才清楚(好比AlphaGo下的圍棋后誰贏誰輸),或者對(duì)在每階段都有的增強(qiáng)信號(hào)不值得過于介意(不像有監(jiān)督學(xué)習(xí)的標(biāo)注那樣介意到把它直接當(dāng)作目標(biāo)去優(yōu)化逼近)因?yàn)檫@種增強(qiáng)信號(hào)只起局部性的參考估值(evaluative)作用。這些例子是我們團(tuán)隊(duì)正在做的不同類型的聊天和對(duì)話機(jī)器人的場景。
  
  對(duì)語音識(shí)別,每個(gè)句子標(biāo)注的信號(hào)價(jià)值都很高,而且我們真把它當(dāng)作目標(biāo)去優(yōu)化逼近來訓(xùn)練系統(tǒng)參數(shù)。所以這是一個(gè)典型的有監(jiān)督學(xué)習(xí)問題(或者在不久將來會(huì)成為非監(jiān)督學(xué)習(xí)問題),并不是增強(qiáng)學(xué)習(xí)問題。但如果把語音識(shí)別作為整個(gè)語音對(duì)話系統(tǒng)的一部分,而且用端到端深度增強(qiáng)學(xué)習(xí)方法來優(yōu)化整個(gè)系統(tǒng),那么語音識(shí)別器的參數(shù)會(huì)跟有監(jiān)督學(xué)習(xí)得到的結(jié)果略有不同,因?yàn)檎Z音識(shí)別器的參數(shù)會(huì)受端到端深度增強(qiáng)學(xué)習(xí)影響,盡管增強(qiáng)學(xué)習(xí)主要是用到整個(gè)語音對(duì)話系統(tǒng)系統(tǒng)優(yōu)化的后端。
  
  所以,初看起來好像以序列結(jié)構(gòu)為輸出的語音識(shí)別和增強(qiáng)學(xué)習(xí)都用到動(dòng)態(tài)規(guī)劃來做訓(xùn)練和測試,但它們的目的是很不一樣的。
  
  非監(jiān)督學(xué)習(xí)語音識(shí)別的關(guān)鍵
  
  記者:您多次表示看好語音的非監(jiān)督學(xué)習(xí),并且書中還談到了詞嵌入,未來詞嵌入的引入會(huì)是語音領(lǐng)域非監(jiān)督學(xué)習(xí)的大殺器嗎?
  
  鄧力:兩年前我們?cè)趯戇@本書后一章后一節(jié)時(shí),我們將詞嵌入的利用和改善作為一個(gè)未來方向。之后我對(duì)這個(gè)問題有更多的思考。下面利用這個(gè)采訪機(jī)會(huì)小結(jié)一下。
  
  非監(jiān)督深度學(xué)習(xí)的本質(zhì)是在無標(biāo)注數(shù)據(jù)的條件下要能夠有效地將各類相關(guān)的“先驗(yàn)”知識(shí)整合到一個(gè)完整而能快速計(jì)算和優(yōu)化的深度學(xué)習(xí)框架。我的這個(gè)觀念同其他說非監(jiān)督深度學(xué)習(xí)的專家很不同??赡芩麄冞€沒想得那么清楚和深入。我常對(duì)新加入我團(tuán)隊(duì)和做機(jī)器學(xué)習(xí)理論的同事說,我的這個(gè)觀念可以又稱為“有無限實(shí)際價(jià)值的非監(jiān)督深度學(xué)習(xí)”,而不是大家在機(jī)器學(xué)習(xí)書本、wikipedia和文獻(xiàn)上看到的幾乎是沒多少實(shí)際價(jià)值的非監(jiān)督學(xué)習(xí)。
  
  說到先驗(yàn)知識(shí),我們就看到貝葉斯方法很重要,不能單用神經(jīng)網(wǎng)絡(luò)。一定要做到有原則性的整合。
  
  詞嵌入的本質(zhì)是利用了詞在句子中分配特性,也就是鄰近詞的預(yù)測特性(近見到一些深度學(xué)習(xí)專家談到用類似的預(yù)測特性做有關(guān)視頻的非監(jiān)督深度學(xué)習(xí))。但這只是所應(yīng)該用的先驗(yàn)知識(shí)的一小部分。更重要的先驗(yàn)知識(shí)應(yīng)該是關(guān)于輸出序列變量的強(qiáng)統(tǒng)計(jì)特性,也就是如何把大型且高質(zhì)量的語言模型用到全系統(tǒng)學(xué)習(xí),并且同時(shí)有效地用上極大量無標(biāo)注的語音數(shù)據(jù)。
  
  說到詞嵌入或音素嵌入用到語音識(shí)別領(lǐng)域,我覺得更有意思的是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。我在MIT時(shí)(1992-1993)同我的學(xué)生孫曉東把喬姆斯基的生成式音韻結(jié)構(gòu)用到GMM-HMM的輸出層上得到很有意思的結(jié)果,1994年在JASA發(fā)表了很長的論文。記得當(dāng)年Hinton教授從多倫多到MIT訪問我時(shí),討論到是否能把這種生成式音韻結(jié)構(gòu)知識(shí)用到神經(jīng)網(wǎng)絡(luò)架構(gòu)上。當(dāng)時(shí)沒繼續(xù)進(jìn)展,也許現(xiàn)在可以在這方面開展一些工作。
  
  同樣重要的是關(guān)于語音生成的先驗(yàn)知識(shí)加上從其他任務(wù)中學(xué)來的知識(shí)。對(duì)抗式網(wǎng)絡(luò)的思路是可以用來整合語音生成知識(shí)到動(dòng)態(tài)深度神經(jīng)網(wǎng)絡(luò)的方法之一。這里有很多好的研究可以做。
  
  當(dāng)然關(guān)于輸入變量的統(tǒng)計(jì)特性對(duì)非監(jiān)督深度學(xué)習(xí)也很重要,比如在傳統(tǒng)意義上講的非監(jiān)督學(xué)習(xí)的自動(dòng)分類。我同伯克利大學(xué)的BinYu教授有很多這方面的討論。但對(duì)語音領(lǐng)域這后者不是那么容易用得好,因?yàn)檎Z音有很特殊的動(dòng)態(tài)特性。
  
  很多這些想法都還沒寫到我們的書里。在第2、3、6和15章里,只是略提了一些。
  
  類腦機(jī)器智能突破現(xiàn)有神經(jīng)網(wǎng)絡(luò)的局限
  
  記者:您關(guān)注的類腦機(jī)器智能是否局限于神經(jīng)網(wǎng)絡(luò)?如果不是,能否介紹您在這方面的新研究及其在語音方面的應(yīng)用?
  
  鄧力:類腦機(jī)器智能同神經(jīng)網(wǎng)絡(luò)關(guān)系大。直接有關(guān)的是如何利用神經(jīng)脈沖特性,包括用STDP來改善現(xiàn)有的神經(jīng)網(wǎng)絡(luò)和算法。早在2013年溫哥華的ICASSP大會(huì)期間,Hinton教授是我請(qǐng)來做主題演講的,我們當(dāng)時(shí)開會(huì)期間就談了很多關(guān)于STDP的問題,包括STDP同BackProp的緊密關(guān)系以及可能的BackProp改善使它更相符人腦的運(yùn)行機(jī)制。還有很多相似的類腦機(jī)制很可能將來會(huì)對(duì)現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)算法和機(jī)器智能產(chǎn)生顯著的影響。
  
  至于神經(jīng)網(wǎng)絡(luò)以外的,這要看你怎樣定義神經(jīng)網(wǎng)絡(luò)——深層生成式模型可以屬于神經(jīng)網(wǎng)絡(luò),也可以屬于非神經(jīng)網(wǎng)絡(luò)的圖模型或貝葉斯網(wǎng)絡(luò)。后者著重于將應(yīng)用領(lǐng)域的知識(shí)(比如語音識(shí)別中的從發(fā)音器官的控制到發(fā)音器官的運(yùn)動(dòng)再到聲音的產(chǎn)生的一系列因果關(guān)系)用疏散的矩陣把隨機(jī)變量“節(jié)點(diǎn)”連接起來。并著重于用統(tǒng)計(jì)分布來描述非確定性,因?yàn)楝F(xiàn)實(shí)應(yīng)用領(lǐng)域的知識(shí)很少是確定無暇的。這類深層生成式模型比較難用類腦的機(jī)制和算法來改善。如果能用GPU加速運(yùn)算就不錯(cuò)了。事實(shí)上就連這也沒那么簡單。
  
  對(duì)可以當(dāng)成神經(jīng)網(wǎng)絡(luò)看待的深層生成式模型,類腦機(jī)器智能的潛力很大。這種模型撇開應(yīng)用領(lǐng)域的知識(shí)而用統(tǒng)一的密集矩陣來參數(shù)化整個(gè)模型。不但用GPU加速運(yùn)算就像DNN一樣容易,不少類腦機(jī)制和認(rèn)知科學(xué)理論也可以比較直接用上。
  
  說到認(rèn)知科學(xué)理論用于類腦機(jī)器智能,我領(lǐng)導(dǎo)的團(tuán)隊(duì)正在同美國一所大學(xué)的教授合作開發(fā)一個(gè)新型的基于高維張量的結(jié)構(gòu)表征和知識(shí)庫。這個(gè)項(xiàng)目由我親手抓,它直接受啟發(fā)于人腦對(duì)純符號(hào)樹狀或圖狀結(jié)構(gòu)的表征。這對(duì)于自然語言和知識(shí)的組織利用和增長都非常關(guān)鍵。
  
  長遠(yuǎn)看來,類腦機(jī)器智能一定會(huì)突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)存在的許多局限。我的團(tuán)隊(duì)在以上方面的工作目前大部分用在自然語言語義理解、對(duì)話系統(tǒng)和知識(shí)整合諸方面的利用。語音識(shí)別方面的問題相對(duì)簡單一點(diǎn)。
更多相關(guān)信息
專題新聞
更多
產(chǎn)品更新列表 企業(yè)名錄 動(dòng)態(tài)更新列表 報(bào)價(jià)更新列表 資料更新列表 技術(shù)文獻(xiàn)更新 產(chǎn)品分類瀏覽

智能制造網(wǎng) - 工業(yè)4.0時(shí)代智能制造領(lǐng)域“互聯(lián)網(wǎng)+”服務(wù)平臺(tái)

關(guān)于我們|本站服務(wù)|企業(yè)建站|會(huì)員服務(wù)|廣告服務(wù)|商站通服務(wù)|旗下網(wǎng)站|友情鏈接|意見反饋

Copyright gkzhan.com All Rights Reserved法律顧問:浙江天冊(cè)律師事務(wù)所 賈熙明律師

客服熱線:0571-87756395加盟熱線:0571-87759904網(wǎng)站客服: