「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
音声処理について纏める。
音声認識とは? †
音声 †
音声は、波形・スペクトルの系列データ。
- 正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換)。
- フォルマント:音声の複数の周波数のピーク
- ケプストラム:周波数スペクトルをフーリエ変換して得る。
- 特徴量
- 音声信号スペクトル:
声の高さを表す(使用しない特徴量)。
- スペクトル包絡:
音声の音色の違いを表す(音声認識で使用する特徴量)。
- メル周波数ケプストラム係数(MFCC):
音色・楽器音の音色の違いを表す(音声認識、音楽ジャンル認識で使用する特徴量)。
- 尺度
- メル尺度:音高の知覚尺度
- バーク尺度:音域の知覚尺度
- A/D変換
- 標本化(サンプリング
- 量子化(加工
- 符号化(2進数
- 音韻・音素
- 音韻:言語として認識される音の体系
- 音素:ある言語の音声を音韻論的に考察して得た単位(音韻論で仮定された言語音の単位
認識 †
- ウィンドウをズラして行って特徴ベクトル列を求める。
- コレを計算機で処理
音素 → 音韻 → かな → 単語 → 文 → コマンド
- 音声認識:音素 → 音韻 → かな → 単語
- バックエンドシステム:単語 → 文 → コマンド
- Connectionist Temporal Classification (CTC):
入力(Heello、Helloo)が音素数と一致しない問題を解決して出力(Hello)
音声認識の難しさ †
系列の対応付け †
複雑な長さが異なる系列の対応付け
(フレーム、音素、音節、単語)
- 系列長が極端に異なる。
- 非線形な時間短縮
- セグメント境界が曖昧
音響的特徴 †
- 時間分散して埋め込まれる。
- 文脈依存(音響的特徴と聞こえの関係が多対多)
- 同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
- 違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
- 物理的にない音を与えたり、物理的にある音を削ったり。
処理方法 †
新・旧、2つの方法があるが根幹をなす考え方は普遍的。
生成モデル(旧) †
ベイズ統計のHMM(隠れマルコフモデル)を使う。
識別モデル(新) †
深層学習のDNN(ディープ・ニューラルネットワーク)を使う。