.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

音声処理について纏める。

音声合成

...

音声認識

音声認識とは?

音声

  • 音声は、波形・スペクトルの系列データ。
  • 正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換)。
  • A/D変換
    • 標本化(サンプリング
    • 量子化(加工
    • 符号化(2進数
  • 音韻・音素
    • 音韻:言語として認識される音の体系
    • 音素:ある言語の音声を音韻論的に考察して得た単位(音韻論で仮定された言語音の単位

認識

  • 音声分析
    ウィンドウをズラして行って特徴ベクトル列を求める。
  • コレを計算機で処理
    音素 → 音韻 → かな → 単語 → 文 → コマンド
  • バックエンドシステム:単語 → 文 → コマンド

音声認識の難しさ

系列の対応付け

複雑な長さが異なる系列の対応付け
(フレーム、音素、音節、単語)

  • 系列長が極端に異なる。
  • 非線形な時間短縮
  • セグメント境界が曖昧

音響的特徴

  • 時間分散して埋め込まれる。
  • 文脈依存(音響的特徴と聞こえの関係が多対多)
    • 同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
    • 違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
    • 物理的にない音を与えたり、物理的にある音を削ったり。

処理方法

新・旧、2つの方法があるが根幹をなす考え方は普遍的。

生成モデル(旧)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

識別モデル(新)

深層学習のDNN(ディープ・ニューラルネットワーク)を使う。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-07-05 (水) 14:27:28 (286d)