音声処理のバックアップ(No.10) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る（要素技術 > 非構造化データ処理 / 人工知能（AI）、データサイエンス力 > データ分析）
- 言語処理
- 音声処理
- 画像処理

目次 †

目次
概要
詳細
ライブラリ
- オープンソース
  - Julius
- プロダクト
  - Nuance
  - メディアドライブ
サービス
ソリューション
AIの活用
参考

概要 †

音声処理について纏める。

音声認識とは？ †

音声は、波形・スペクトルの系列データ。
ウィンドウをズラして行って特徴ベクトル列を求める。
コレを計算機で処理して、
音素 → かな → 単語 → 文 → コマンドと処理。
- 音声認識は「かな」→「単語」まで。
- 文コマンドはバックエンドシステム。

音声認識の難しさ †

系列の対応付け †

複雑な長さが異なる系列の対応付け
（フレーム、音素、音節、単語）

系列長が極端に異なる。
非線形な時間短縮
セグメント境界が曖昧

音響的特徴 †

時間分散して埋め込まれる。
文脈依存（音響的特徴と聞こえの関係が多対多）
- 同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
- 違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
- 物理的にない音を与えたり、物理的にある音を削ったり。

処理方法 †

新・旧、２つの方法があるが根幹をなす考え方は普遍的。

生成モデル（旧） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

識別モデル（新） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。

詳細 †

ライブラリ †

以下の様なものが発見できた。

オープンソース †

Julius †

Julius
http://julius.osdn.jp/
音声認識システムの開発・研究のためのオープンソースエンジン。

プロダクト †

Nuance †

Nuance
http://japan.nuance.com/index.htm

メディアドライブ †

ライブラリ > SDK

音声認識
https://mediadrive.jp/products/library/voice-recognition/index.html
確率モデルの一種である自適応化HMM（Hidden Markov Model）学習による高精度連続音声認識システム。

CrossMediator? Basic v.3.0
https://mediadrive.jp/products/library/crossmediatorbasic/index.html
- ビデオデータから発言／セリフの検索（音声検索）
- 曲名は判らないけど曲を見つけたい（ハミング検索）
- ビデオデータから好きなCMの検索（動画検索）
- ビデオクリップで本編の頭出し（動画検索）

電話・会議用音声検索(CrossMediator? Basicの拡張オプション)
https://mediadrive.jp/products/library/tel-voice-search/index.html
電話・会議等の低品質音声に対応した音声検索ライブラリ

サービス †

ソリューション †

AIの活用 †

音声データを解析して、何を発音しているのかを判別

体系 †

HMM（隠れマルコフモデル） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

単語音声認識

１つの単語クラスに１つの音響モデル（HMM）を与える。

単語クラスが未知であるデータXが与えられた場合、
単語クラスに与えられた音響モデル（HMM）から、
データXがどれぐらいの確率で出ててくるか？求める。

確率が一番大きいものをデータXの単語クラスとして選ぶ（認識）

連続音声認識
- 音響モデルではなく言語モデルを考える。
- 前述の「単語」でやったことを「単語列」でやる。
- 音素レベルの誤りを認めた上で、文として成立する単語列に変換する。

観測データに対し、音響モデルと言語モデルの積を
最大化する単語系列を組み合わせ最適化によって求める。
- 音響モデル：Left-to-Right HMM（隠れマルコフモデル）
- 言語モデル：N-gram（マルコフモデル）

以下の組合せ最適化（一体化したサーチの問題）

↓ ↓ ↓ 音声パターン ↓ ↓ ↓
音響モデル	←	音声コーパス
辞書	←	音声規則＋テキスト・コーパス
↓ ↓ ↓ 単語、連続音声 ↓ ↓ ↓
言語モデル	←	テキスト・コーパス
↓ ↓ ↓ 単語列（文） ↓ ↓ ↓

サブワードモデル
- サブワード：単語より短い音素、音節
- 単語はサブワードの連結により構成する。

DNN（ディープ・ニューラルネットワーク） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。

系列データを処理できるニューラルネットワーク（CNN、RNN、LSTM）

言語処理の自己アテンションを使う。

手順 †

元データの獲得 †

時系列データとして処理 †

自然言語処理・音響情報処理 †

自然言語処理
音響情報処理

目的データの生成 †

アルゴリズム †

... †

活用例 †

自動音声口述筆記 †

会話音声書面記録
コミュニケーション支援（問診など

エンリッチメント系 †

音声アノテーション

音そのものに対するタグ付け
音声が示す意味に対するタグ付け

ライブラリ †

オープンソース †

プロダクト †

サービス †

Google Cloud Speech API †

Speech API - 音声認識 | Google Cloud Platform
https://cloud.google.com/speech/

Bing Speech API †

Bing Speech API — 音声認識 | Microsoft Azure
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech/

Speech to Text †

IBM - Speech to Text 音声認識 | Watson Developer Cloud - Japan
https://www.ibm.com/watson/jp-ja/developercloud/speech-to-text.html

ソリューション †

AmiVoice? †

製品・サービストップ｜音声認識の株式会社アドバンスト・メディア
https://www.advanced-media.co.jp/products

音声認識ソフト『AmiVoice? SP2』を半年間使ってみた所感（辛口レビュー） - Webライターとして生きる
http://writer.hateblo.jp/entry/2016/12/01/155944

Voice-Series †

音声ソリューションVoice-Series｜NTTアイティ
http://www.ntt-it.co.jp/product/v-series/index.html

音声自動応答(IVR)プラットフォーム VoiceMall?
http://www.ntt-it.co.jp/product/v-series/voicemall/index.html
高精度音声認識(ASR)ソリューション SpeechRec?
http://www.ntt-it.co.jp/product/v-series/speechrec/index.html
音声合成(TTS)ソリューション FutureVoice?
http://www.ntt-it.co.jp/product/v-series/futurevoice/index.html

参考 †

音声認識 - Wikipedia
https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98

音声（ジェスチャ）によるスライド、ビデオの操作
Open Source RT-Components selected by AIST
http://openrtc.org/OpenHRI/systems/AppControl.html

音声処理で参考になったサイトまとめ - Qiita
http://qiita.com/eve_yk/items/07bc094538f2d50841f4

Google、音声認識APIを公開。Nuanceと直接対決へ | TechCrunch? Japan
http://jp.techcrunch.com/2016/03/24/20160323google-opens-access-to-its-speech-recognition-api-going-head-to-head-with-nuance/