#物聯網IoT #人機介面HMI #人工智慧AI #語音交互 #智慧音箱 #人工神經網路ANN #深度神經網路DNN #深度置信網路DBN #遞歸神經網路RNN #卷積神經網路CNN
【語音辨識的沿革】
一直以來,通過語言與機器直接溝通,是很多技術人員追求的目標,可看似簡單的語音交互,卻經歷了長達半個多世紀的技術探索。這期間不管文學還是影視作品,都一次次描繪了人機語音交互的美好場景。但直到 21 世紀初,人與機器的語音交互仍然是令人抓狂的一種操作,遠遠沒有鍵盤和滑鼠來得方便。
在 1952 年,貝爾實驗室研發出了 10 個孤立數位語音的識別系統,為人類的語音辨識開啟了篇章;20 世紀 80 年代開始,以「隱藏式馬可夫模型」(hidden Markov model, HMM) 方法為代表的基於統計模型方法逐漸在語音辨識研究佔據主導地位,能很好地描述語音訊號短時平穩特性,將聲學、語言學、句法等知識集成到統一框架中。此後,HMM 的研究和應用逐漸成為了主流。
李開復在 HMM 模型的基礎上研發出 SPHINX 系統,這是技術人員首次嘗試「非特定人連續語音辨識系統」,其核心框架就是 GMM-HMM 框架,其中 GMM 是指 (Gaussian mixture model,高斯混合模型) 用來對語音的觀察概率進行建模,HMM 則對語音的時序進行建模。同時期發展出的技術,還有 20 世紀 80 年代後期人工神經網路 (ANN) 也成為語音辨識的一個方向。
直至 ANN 後來進化為深度神經網路 (DNN),語音辨識技術才有了本質的突破。到了 20 世紀 90 年代,隨著電腦技術的快速發展,包括個人電腦在內的一大批設備開始嘗試使用語音辨識技術。這一時期劍橋發佈的 HTK 開源工具包大幅降低了語音辨識研究的門檻。然而在接下來的一段時間,GMM-HMM 框架的技術局限性使得其應用效果差強人意。
在語音辨識技術方向中,具有更強的長時建模能力的遞歸神經網路 (又稱:迴圈神經網路,RNN)、卷積神經網路 (CNN),以及在語音辨識領域獨樹一幟的科大訊飛公司提出的 DFCNN 技術相繼出現,進而使得人機語音交互的體驗越來越好,以智慧音箱為代表的語音交互設備受到越來越多的消費者歡迎,比傳統 GMM-HMM 框架性能提升 30~60%,並與 Google 在語音辨識展開深度合作。
延伸閱讀:
《艱難中前行的語音交互技術》
http://www.compotechasia.com/a/feature/2019/0111/40859.html…
(點擊內文標題即可閱讀全文)
#科大訊飛Iflytek #DFCNN
Search
深度置信網路dbn 在 5 5 其他常见神经网络(一)Boltzmann机 - YouTube 的八卦
5 5 其他常见神经网络(一)Boltzmann机、 深度置信 神经网络 DBN. 2 views · 13 hours ago ...more. technology information. 3.94K. Subscribe. ... <看更多>