音声処理のバックアップ(No.20) - .NET 開発基盤部会 Wiki

[ トップ ] [ 新規 | 一覧 | 単語検索 | 最終更新 | ヘルプ ]

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- 言語処理
- 音声処理
  - 言語処理（AI）
- 画像処理

目次 †

目次
概要

概要 †

音声処理について纏める。

音声認識とは？ †

音声 †

音声は、波形・スペクトルの系列データ。

正弦波の加算で合成が可能 → 分解も可能（高速フーリエ変換）。
- フォルマント：音声の複数の周波数のピーク
- ケプストラム：周波数スペクトルをフーリエ変換して得る。

特徴量
- 音声信号スペクトル：
  声の高さを表す（使用しない特徴量）。
- スペクトル包絡：
  音声の音色の違いを表す（音声認識で使用する特徴量）。
- メル周波数ケプストラム係数（MFCC）：
  音色・楽器音の音色の違いを表す（音声認識、音楽ジャンル認識で使用する特徴量）。

尺度
- メル尺度：音高の知覚尺度
- バーク尺度：音域の知覚尺度

A/D変換
- 標本化（サンプリング
- 量子化（加工
- 符号化（2進数

音韻・音素
- 音韻：言語として認識される音の体系
- 音素：ある言語の音声を音韻論的に考察して得た単位（音韻論で仮定された言語音の単位

認識 †

ウィンドウをズラして行って特徴ベクトル列を求める。

コレを計算機で処理
音素 → 音韻 → かな → 単語 → 文 → コマンド
- 音声認識：音素 → 音韻 → かな → 単語
- バックエンドシステム：単語 → 文 → コマンド

Connectionist Temporal Classification (CTC)：
入力（Heello、Helloo）が音素数と一致しない問題を解決して出力（Hello）

音声認識の難しさ †

系列の対応付け †

複雑な長さが異なる系列の対応付け
（フレーム、音素、音節、単語）

系列長が極端に異なる。
非線形な時間短縮
セグメント境界が曖昧

音響的特徴 †

時間分散して埋め込まれる。
文脈依存（音響的特徴と聞こえの関係が多対多）
- 同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
- 違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
- 物理的にない音を与えたり、物理的にある音を削ったり。

処理方法 †

新・旧、２つの方法があるが根幹をなす考え方は普遍的。

生成モデル（旧） †

ベイズ統計のHMM（隠れマルコフモデル）を使う。

識別モデル（新） †

深層学習のDNN（ディープ・ニューラルネットワーク）を使う。