知名百科  > 所屬分類  >  百科詞條   

語音輸入

語音輸入(Voice input)是一種簡便易用的輸入法,指用戶將語音(“說話”)信號通過麥克風輸入計算機,計算機將語音信號識別為文字的計算機輸入方式。語音識別技術是一個典型的多學科交叉的前沿技術,涉及聲學、生理學、心理學、信號處理、模式識別、人工智能、信息理論、語言學以及計算機科學等眾多學科。語音輸入有廣泛的應用領域,如:語音聽寫機、聲控系統等。

目錄

系統組成 編輯本段

大詞匯量語音識別系統多采用統計模式識別技術,典型的基于統計模式識別方法的語音識別系統由以下幾個基本模塊構成:
(1)信號處理及特征提取模塊,主要任務是從輸入信號中提取特征,供聲學模型處理。目前常用語音聲學特征參數有Mel倒譜系數(Mel-frequency cepstral coefficients,MFCC)和感知線性預測(perceptual linear predictive,PLP)等。同時,該模塊一般還采用一些信號處理技術,以盡可能降低環境噪聲、信道、說話人等因素對特征造成的影響。
(2)統計聲學模型,典型系統多采用基于隱馬爾科夫模型(HMM)進行建模。語音識別中使用HMM通常是用從左向右單向、帶自環、帶跨越的拓撲結構來對識別基元建模。一個音素就是一個三至五狀態的HMM,一個詞就是構成詞的多個音素的HMM串行起來構成的HMM,而連續語音識別的整個模型就是詞和靜音組合起來的HMM。
(3)發音詞典,包含系統所能處理的詞匯集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。
(4)語言模型,對語音識別系統所針對的語言進行建模。語言模型主要分為規則模型和統計模型兩種,語言模型性能通常用交叉熵和復雜度(perplexity)來衡量。理論上,包括正則語言和上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍采用的還是基于統計的N元文法及其變體。
(5)解碼器,語音識別系統的核心之一。其任務是對輸入的信號,根據聲學、語言模型及詞典,搜索能夠以最大概率輸出該信號的詞串。

系統原理 編輯本段

語音識別系統的識別基元通常采用上下文相關的音素,漢語語音識別基元也經常選擇聲韻母或者音節。語音識別系統所需的訓練數據大小與模型復雜度有關,大詞匯量和非特定人的連續語音識別系統通常又稱為聽寫機。
其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構,訓練時對每個語音識別基元用前向后向算法獲得HMM模型參數。識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼針對漢語易于分割的特點,先進行分割再對每一段進行解碼,可以有效地提高解碼的效率。

系統性能 編輯本段

語音識別系統的性能受許多因素的影響,包括不同的說話人、說話方式、環境噪聲和傳輸信道等。提高系統強健性,就是使系統在不同的應用環境和條件下保持性能的穩定性。語音識別系統自適應的目的,就是根據不同的影響,自動的、有針對性的對系統進行調整,在使用中逐步提高語音識別系統性能。

附件列表


0

詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 竹膠板    下一篇 航空插頭

同義詞

暫無同義詞
主站蜘蛛池模板: 国产91乱剧情全集| 青青草国产精品视频| 一级做a爱视频| 久久精品夜色国产亚洲av| 亚洲色国产欧美日韩| 国产丰满麻豆videossexhd| 国产综合视频在线观看一区| 我把护士日出水了| 日韩精品无码一区二区视频| 欧美高清在线精品一区二区不卡| yy6080影院| 伊人色综合一区二区三区| 国产伦精品一区二区三区免费迷| 国产成人片无码视频在线观看| 国产女人18毛片水真多1| 国产区图片区小说区亚洲区| 国产dvd毛片在线视频| 国产一级二级三级在线观看| 日韩欧美精品综合一区二区三区| 美女把腿扒开让男人桶爽了| 色综合久久天天综线观看| 老阿姨哔哩哔哩b站肉片茄子芒果| 色噜噜成人综合网站| 美女扒开腿让男生桶爽网站| 精品久久国产字幕高潮| 第一福利官方导航| 熟妇人妻VA精品中文字幕| 欧美精品v国产精品v日韩精品| 欧美怡红院成免费人忱友;| 最近中文字幕大全高清视频| 日产精品卡一卡2卡三卡乱码工厂| 成人欧美1314www色视频| 大香伊人久久精品一区二区| 国产综合免费视频| 国产成人av大片大片在线播放| 国产一级视频播放| 伊人色综合久久天天人手人婷| 亚洲国产成人精品无码区在线网站| 久精品国产欧美亚洲色aⅴ大片| 中文字幕精品视频在线| 人人人妻人人澡人人爽欧美一区|