智能語音系統(tǒng)的核心在于其能夠理解和生成自然語言的能力,這依賴于一系列復雜的技術,包括語音識別、語音合成和自然語言處理技術。
一、語音識別技術
聲學模型技術:傳統(tǒng)聲學模型有隱馬爾可夫模型(HMM),如今深度神經(jīng)網(wǎng)絡(DNN)及其變體如卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)中的長短期記憶網(wǎng)絡(LSTM)和門控循環(huán)單元(GRU)應用廣泛,可自動學習語音復雜特征提升準確率。
語言模型技術:n - 元語法(n - gram)模型基于單詞序列概率預測,神經(jīng)網(wǎng)絡語言模型如 Transformer 架構能更好捕捉語義語法信息。
特征提取技術:梅爾頻率倒譜系數(shù)(MFCC)模擬人耳感知提取語音關鍵特征,線性預測倒譜系數(shù)(LPCC)也較常用。
二、語音合成技術
基于規(guī)則合成法:早期依語音音素、音節(jié)等規(guī)則合成,自然度低。
拼接合成技術:按規(guī)則拼接預錄語音片段成完整語音,需大量語音數(shù)據(jù)建庫。
參數(shù)合成技術:提取語音參數(shù)如基頻、幅度等合成,統(tǒng)計參數(shù)語音合成(SPSS)和深度學習語音合成(如 Tacotron 系列模型)較先進,合成語音自然度高。
三、自然語言處理技術
詞法分析技術:分詞將文本按規(guī)則分單詞,詞性標注給單詞標詞性助于理解語法結構。
句法分析技術:依存句法分析構建依存樹確定句子成分關系理解語義。
語義理解技術:語義角色標注確定句子成分在事件角色,命名實體識別文本中人名、地名等實體理解主題內(nèi)容。
對話管理技術:對話狀態(tài)跟蹤確定對話當前狀態(tài),對話策略學習依狀態(tài)決定下一步對話策略。