音声処理（AI）のバックアップ(No.1) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
音声処理（AI）へ行く。
- 1 (2023-06-23 (金) 15:24:55)
- 2 (2023-06-23 (金) 17:30:04)
- 3 (2023-07-04 (火) 13:55:50)
- 4 (2023-07-04 (火) 15:05:05)
- 5 (2023-07-05 (水) 15:38:00)
- 6 (2023-10-05 (木) 16:08:06)
- 7 (2024-01-23 (火) 23:44:42)

AIの活用 †

音声データを解析して、何を発音しているのかを判別

音声合成 †

音声認識の逆プロセス。

音声認識 †

精度測定 †

文字誤り率(CER)
単語誤り率(WER)：コチラが一般的な評価尺度

プロセス †

音声 → 音素 → 文字列 → 単語 → 単語列

プロセス1
- 雑音・残響抑圧 (入力：音声　出力：音声）
- 音声を認識したい対象以外の雑音を分離する

プロセス2
- 音素状態認識 (入力：音声　出力：音素）
- 音声の周波数スペクトル,すなわち音響特徴量を
  インプットとして,音素状態のカテゴリに分類する

プロセス3
- 音素モデル (入力：音素　出力：文字列）
- 音素がどの文字であるかを推定する

プロセス4
- 単語辞書 (入力：文字列　出力：単語）
- 認識した文字列から単語を特定し認識する

プロセス5
- 言語モデル (入力：単語　出力：単語列）
- 単語系列仮説の尤度を評価する

プロセス1～5 プロセス1～5を纏めて,すなわち,

入力：音声
出力：単語列

とする学習手法のことをEnd-to-End音声認識と呼ぶ。

体系 †

HMM → DNNで、音声合成、音声認識の性能向上。

HMM（隠れマルコフモデル） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

単語音声認識

１つの単語クラスに１つの音響モデル（HMM）を与える。

単語クラスが未知であるデータXが与えられた場合、
単語クラスに与えられた音響モデル（HMM）から、
データXがどれぐらいの確率で出ててくるか？求める。

確率が一番大きいものをデータXの単語クラスとして選ぶ（認識）

連続音声認識
- 音響モデルではなく言語モデルを考える。
- 前述の「単語」でやったことを「単語列」でやる。
- 音素レベルの誤りを認めた上で、文として成立する単語列に変換する。

観測データに対し、音響モデルと言語モデルの積を
最大化する単語系列を組み合わせ最適化によって求める。
- 音響モデル：Left-to-Right HMM（隠れマルコフモデル）
- 言語モデル：N-gram（マルコフモデル）

以下の組合せ最適化（一体化したサーチの問題）

↓ ↓ ↓ 音声パターン ↓ ↓ ↓
音響モデル	←	音声コーパス
辞書	←	音声規則＋テキスト・コーパス
↓ ↓ ↓ 単語、連続音声 ↓ ↓ ↓
言語モデル	←	テキスト・コーパス
↓ ↓ ↓ 単語列（文） ↓ ↓ ↓

サブワードモデル
- サブワード：単語より短い音素、音節
- 単語はサブワードの連結により構成する。

DNN（ディープ・ニューラルネットワーク） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。

系列データを処理できるニューラルネットワーク（CNN、RNN、LSTM）

言語処理で開発された系列変換処理技術（エンコーダ・デコーダ構造、自己アテンション）を使う。

CTC、LAS、Speech Transformer、Conformer、CMLM（？）

活用例 †

自動音声口述筆記 †

会話音声書面記録
コミュニケーション支援（問診など

エンリッチメント系 †

音声アノテーション

音そのものに対するタグ付け
音声が示す意味に対するタグ付け

ライブラリ †

オープンソース †

プロダクト †

サービス †

Google Cloud Speech API †

Speech API - 音声認識 | Google Cloud Platform
https://cloud.google.com/speech/

Bing Speech API †

Bing Speech API — 音声認識 | Microsoft Azure
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech/

Speech to Text †

IBM - Speech to Text 音声認識 | Watson Developer Cloud - Japan
https://www.ibm.com/watson/jp-ja/developercloud/speech-to-text.html

ソリューション †

AmiVoice? †

製品・サービストップ｜音声認識の株式会社アドバンスト・メディア
https://www.advanced-media.co.jp/products

音声認識ソフト『AmiVoice? SP2』を半年間使ってみた所感（辛口レビュー） - Webライターとして生きる
http://writer.hateblo.jp/entry/2016/12/01/155944

Voice-Series †

音声ソリューションVoice-Series｜NTTアイティ
http://www.ntt-it.co.jp/product/v-series/index.html

音声自動応答(IVR)プラットフォーム VoiceMall?
http://www.ntt-it.co.jp/product/v-series/voicemall/index.html
高精度音声認識(ASR)ソリューション SpeechRec?
http://www.ntt-it.co.jp/product/v-series/speechrec/index.html
音声合成(TTS)ソリューション FutureVoice?
http://www.ntt-it.co.jp/product/v-series/futurevoice/index.html

参考 †

音声認識 - Wikipedia
https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98

音声（ジェスチャ）によるスライド、ビデオの操作
Open Source RT-Components selected by AIST
http://openrtc.org/OpenHRI/systems/AppControl.html

音声処理で参考になったサイトまとめ - Qiita
http://qiita.com/eve_yk/items/07bc094538f2d50841f4

Google、音声認識APIを公開。Nuanceと直接対決へ | TechCrunch? Japan
http://jp.techcrunch.com/2016/03/24/20160323google-opens-access-to-its-speech-recognition-api-going-head-to-head-with-nuance/