詳細資訊
AI語音辨識:用Kaldi實作應用全集 ISBN13:9789865501525 出版社:深智數位 作者:陳果果;都家宇;那興宇;張俊博 裝訂/頁數:平裝/384頁 規格:23cm*17cm*1.9cm (高/寬/厚) 出版日:2020/09/21 中國圖書分類:特殊電腦方法 內容簡介 從Hey、Siri、OK Google開始,我們早已習慣用語音來控制設備,語音輸入法取代鍵盤,Google幫你朗讀文章,你一定很好奇這些語音系統是如何建造出來的。 本書以Kaldi為主,完整介紹Librispeech等資料處理,並且完整說明了三音素架構。 語音模型方面:完整介紹語言模型、n元模型。 特徵工程方面:完整介紹包括對齊、Transition模型、GMM模型等。 構圖及解碼方面:完整介紹OpenFST、WFST等技術。 深度學習建模方面:完整介紹nnet、nnet2、nnet3。 大家最常用的語音搜尋、語音喚醒也有完整的實作介紹。類似人臉辨識的「人聲」辨識,也用PLDA、i-vector、x-vector等技術實作,最近當紅的語言辨識也沒錯過,可說是深入語音工程的最佳手冊。 目錄 01 語音辨識技術基礎 1.1 語音辨識極史 1.2 語音辨識系統架構 1.3 一些其他細節 02 Kaldi 概要介紹 2.1 發展歷史 2.2 設計思想 2.3 安裝 2.4 一個簡單的範例 2.5 範例介紹 03 資料整理 3.1 資料分集 3.2 資料前置處理 3.3 輸入和輸出機制 3.4 常用資料表單與處理指令稿 3.5 語言模型相關檔案 04 經典聲學建模技術 4.1 特徵分析 4.2 單音素模型的訓練 4.3 三音素模型訓練 4.4 特徵轉換技術 4.5 區分性訓練 05 構圖和解碼 5.1 N 元文法語言模型 5.2 加權有限狀態轉換器 5.3 用WFST 表示語言模型 5.4 狀態圖的建置 5.5 圖的結構最佳化 5.6 最後狀態圖的產生 5.7 以權杖傳遞為基礎的維特比搜尋 5.8 SimpleDecoder 原始程式分析 5.9 Kaldi 解碼器家族 5.10 帶詞網格產生的解碼 5.11 用語言模型重評分提升辨識率 06 深度學習聲學建模技術 6.1 以神經網路為基礎的聲學模型 6.2 神經網路在Kaldi 中的實現 6.3 神經網路模型訓練 6.4 神經網路的區分性訓練 6.5 與其他深度學習架構的結合 07 關鍵字搜尋與語音喚醒 7.1 關鍵字搜尋技術介紹 7.2 語音檢索 7.3 語音喚醒 08 說話者辨識 8.1 概述 8.2 以i-vector 和PLDA 為基礎的說話者辨識技術 8.3 以深度學習為基礎的說話者辨識技術 8.4 語言辨識 09 語音辨識應用實作 9.1 語音辨識基本應用 9.2 話音檢測模組 9.3 模型的適應 9.4 解碼器的選擇及擴充 A 術語列表 B 常見問題解答