音声処理のバックアップ(No.18) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（要素技術 > 非構造化データ処理 / 人工知能（AI）、データ分析 > 非構造化データ処理）
- 言語処理
- 音声処理
- 画像処理

目次 †

概要 †

音声処理について纏める。

音声認識とは？ †

音声 †

音声は、波形・スペクトルの系列データ。

正弦波の加算で合成が可能 → 分解も可能（高速フーリエ変換）。
- フォルマント：音声の複数の周波数のピーク
- ケプストラム：周波数スペクトルをフーリエ変換して得る。

特徴量
- 音声信号スペクトル：
  声の高さを表す（使用しない特徴量）。
- スペクトル包絡：
  音声の音色の違いを表す（音声認識で使用する特徴量）。
- メル周波数ケプストラム係数（MFCC）：
  音色・楽器音の音色の違いを表す（音声認識、音楽ジャンル認識で使用する特徴量）。

尺度
- メル尺度：音高の知覚尺度
- バーク尺度：音域の知覚尺度

A/D変換
- 標本化（サンプリング
- 量子化（加工
- 符号化（2進数

音韻・音素
- 音韻：言語として認識される音の体系
- 音素：ある言語の音声を音韻論的に考察して得た単位（音韻論で仮定された言語音の単位

認識 †

ウィンドウをズラして行って特徴ベクトル列を求める。

コレを計算機で処理
音素 → 音韻 → かな → 単語 → 文 → コマンド
- 音声認識：音素 → 音韻 → かな → 単語
- バックエンドシステム：単語 → 文 → コマンド

Connectionist Temporal Classification (CTC)：
入力（Heello、Helloo）が音素数と一致しない問題を解決して出力（Hello）

音声認識の難しさ †

系列の対応付け †

複雑な長さが異なる系列の対応付け
（フレーム、音素、音節、単語）

系列長が極端に異なる。
非線形な時間短縮
セグメント境界が曖昧

音響的特徴 †

時間分散して埋め込まれる。
文脈依存（音響的特徴と聞こえの関係が多対多）
- 同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
- 違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
- 物理的にない音を与えたり、物理的にある音を削ったり。

処理方法 †

新・旧、２つの方法があるが根幹をなす考え方は普遍的。

生成モデル（旧） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

識別モデル（新） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。

ライブラリ †

以下の様なものが発見できた。

オープンソース †

Julius †

Julius
http://julius.osdn.jp/
音声認識システムの開発・研究のためのオープンソースエンジン。

プロダクト †

Nuance †

Nuance
http://japan.nuance.com/index.htm

メディアドライブ †

ライブラリ > SDK

音声認識
https://mediadrive.jp/products/library/voice-recognition/index.html
確率モデルの一種である自適応化HMM（Hidden Markov Model）学習による高精度連続音声認識システム。

CrossMediator? Basic v.3.0
https://mediadrive.jp/products/library/crossmediatorbasic/index.html
- ビデオデータから発言／セリフの検索（音声検索）
- 曲名は判らないけど曲を見つけたい（ハミング検索）
- ビデオデータから好きなCMの検索（動画検索）
- ビデオクリップで本編の頭出し（動画検索）

電話・会議用音声検索(CrossMediator? Basicの拡張オプション)
https://mediadrive.jp/products/library/tel-voice-search/index.html
電話・会議等の低品質音声に対応した音声検索ライブラリ

サービス †

ソリューション †

AIの活用 †

音声データを解析して、何を発音しているのかを判別

音声合成 †

音声認識の逆プロセス。

音声認識 †

精度測定 †

文字誤り率(CER)
単語誤り率(WER)：コチラが一般的な評価尺度

プロセス †

音声 → 音素 → 文字列 → 単語 → 単語列

プロセス1
- 雑音・残響抑圧 (入力：音声　出力：音声）
- 音声を認識したい対象以外の雑音を分離する

プロセス2
- 音素状態認識 (入力：音声　出力：音素）
- 音声の周波数スペクトル,すなわち音響特徴量を
  インプットとして,音素状態のカテゴリに分類する

プロセス3
- 音素モデル (入力：音素　出力：文字列）
- 音素がどの文字であるかを推定する

プロセス4
- 単語辞書 (入力：文字列　出力：単語）
- 認識した文字列から単語を特定し認識する

プロセス5
- 言語モデル (入力：単語　出力：単語列）
- 単語系列仮説の尤度を評価する

プロセス1～5 プロセス1～5を纏めて,すなわち,

入力：音声
出力：単語列

とする学習手法のことをEnd-to-End音声認識と呼ぶ。

体系 †

HMM → DNNで、音声合成、音声認識の性能向上。

HMM（隠れマルコフモデル） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

単語音声認識

１つの単語クラスに１つの音響モデル（HMM）を与える。

単語クラスが未知であるデータXが与えられた場合、
単語クラスに与えられた音響モデル（HMM）から、
データXがどれぐらいの確率で出ててくるか？求める。

確率が一番大きいものをデータXの単語クラスとして選ぶ（認識）

連続音声認識
- 音響モデルではなく言語モデルを考える。
- 前述の「単語」でやったことを「単語列」でやる。
- 音素レベルの誤りを認めた上で、文として成立する単語列に変換する。

観測データに対し、音響モデルと言語モデルの積を
最大化する単語系列を組み合わせ最適化によって求める。
- 音響モデル：Left-to-Right HMM（隠れマルコフモデル）
- 言語モデル：N-gram（マルコフモデル）

以下の組合せ最適化（一体化したサーチの問題）

↓ ↓ ↓ 音声パターン ↓ ↓ ↓
音響モデル	←	音声コーパス
辞書	←	音声規則＋テキスト・コーパス
↓ ↓ ↓ 単語、連続音声 ↓ ↓ ↓
言語モデル	←	テキスト・コーパス
↓ ↓ ↓ 単語列（文） ↓ ↓ ↓

サブワードモデル
- サブワード：単語より短い音素、音節
- 単語はサブワードの連結により構成する。

DNN（ディープ・ニューラルネットワーク） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。

系列データを処理できるニューラルネットワーク（CNN、RNN、LSTM）

言語処理で開発された系列変換処理技術（エンコーダ・デコーダ構造、自己アテンション）を使う。

CTC、LAS、Speech Transformer、Conformer、CMLM（？）

活用例 †

自動音声口述筆記 †

会話音声書面記録
コミュニケーション支援（問診など

エンリッチメント系 †

音声アノテーション

音そのものに対するタグ付け
音声が示す意味に対するタグ付け

ライブラリ †

オープンソース †

プロダクト †

サービス †

Google Cloud Speech API †

Speech API - 音声認識 | Google Cloud Platform
https://cloud.google.com/speech/

Bing Speech API †

Bing Speech API — 音声認識 | Microsoft Azure
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech/

Speech to Text †

IBM - Speech to Text 音声認識 | Watson Developer Cloud - Japan
https://www.ibm.com/watson/jp-ja/developercloud/speech-to-text.html

ソリューション †

AmiVoice? †

製品・サービストップ｜音声認識の株式会社アドバンスト・メディア
https://www.advanced-media.co.jp/products

音声認識ソフト『AmiVoice? SP2』を半年間使ってみた所感（辛口レビュー） - Webライターとして生きる
http://writer.hateblo.jp/entry/2016/12/01/155944

Voice-Series †

音声ソリューションVoice-Series｜NTTアイティ
http://www.ntt-it.co.jp/product/v-series/index.html

音声自動応答(IVR)プラットフォーム VoiceMall?
http://www.ntt-it.co.jp/product/v-series/voicemall/index.html
高精度音声認識(ASR)ソリューション SpeechRec?
http://www.ntt-it.co.jp/product/v-series/speechrec/index.html
音声合成(TTS)ソリューション FutureVoice?
http://www.ntt-it.co.jp/product/v-series/futurevoice/index.html

参考 †

音声認識 - Wikipedia
https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98

音声（ジェスチャ）によるスライド、ビデオの操作
Open Source RT-Components selected by AIST
http://openrtc.org/OpenHRI/systems/AppControl.html

音声処理で参考になったサイトまとめ - Qiita
http://qiita.com/eve_yk/items/07bc094538f2d50841f4

Google、音声認識APIを公開。Nuanceと直接対決へ | TechCrunch? Japan
http://jp.techcrunch.com/2016/03/24/20160323google-opens-access-to-its-speech-recognition-api-going-head-to-head-with-nuance/