「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>要素技術]] --[[言語処理]] --音声処理 ---[[音声処理(AI)]] --[[画像処理>画像処理とコンピュータビジョン]] *目次 [#r0fe7899] #contents *概要 [#o8c44f13] 音声処理について纏める。 *音声合成 [#edc5d4ea] ... *音声認識 [#tae5aabb] **音声認識とは? [#e7315500] ***音声 [#q70f4868] 音声は、波形・スペクトルの系列データ。 -音声は、波形・スペクトルの系列データ。 -正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換)。 --フォルマント:音声の複数の周波数のピーク --ケプストラム:周波数スペクトルをフーリエ変換して得る。 --特徴量 ---音声信号スペクトル:~ 声の高さを表す(使用しない特徴量)。 ---スペクトル包絡:~ 音声の音色の違いを表す(音声認識で使用する特徴量)。 ---メル周波数ケプストラム係数(MFCC):~ 音色・楽器音の音色の違いを表す(音声認識、音楽ジャンル認識で使用する特徴量)。 --尺度 ---メル尺度:音高の知覚尺度~ ・周波数による音の変化は低い場合に敏感で高い場合に鈍感~ ・定義にはファントの式がよく用いられる(グラフ参照)~ ・低い周波数域では分解能が高く、高い分解能が低い。~ ・1000melの音高の上昇は低周波では2000Hz、高周波では4000Hzの上昇で知覚される。 ---バーク尺度:音域の知覚尺度 -A/D変換 --標本化(サンプリング --量子化(加工 --符号化(2進数 -音韻・音素 --音韻:言語として認識される音の体系 --音素:ある言語の音声を音韻論的に考察して得た単位(音韻論で仮定された言語音の単位 ***認識 [#v5bb848d] -[[音声分析>音声処理(AI)#n856b454]]~ ウィンドウをズラして行って特徴ベクトル列を求める。 -コレを計算機で処理~ 音素 → 音韻 → かな → 単語 → 文 → コマンド --音声認識:音素 → 音韻 → かな → 単語 ---[[HMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]] ---[[DNN(ディープ・ニューラルネットワーク)>音声処理(AI)#na46b5f8]] --バックエンドシステム:単語 → 文 → コマンド **音声認識の難しさ [#c0d08628] ***系列の対応付け [#m78d0d74] 複雑な長さが異なる系列の対応付け~ (フレーム、音素、音節、単語) -系列長が極端に異なる。 -非線形な時間短縮 -セグメント境界が曖昧 ***音響的特徴 [#o3d06d0a] -時間分散して埋め込まれる。 -文脈依存(音響的特徴と聞こえの関係が多対多) --同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。 --違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。 --物理的にない音を与えたり、物理的にある音を削ったり。 **処理方法 [#t415886b] 新・旧、2つの方法があるが根幹をなす考え方は普遍的。 ***生成モデル(旧) [#eb402b8f] [[ベイズ統計のHMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]]を使う。 ***識別モデル(新) [#sa4dd3e4] [[深層学習のDNN(ディープ・ニューラルネットワーク)>音声処理(AI)#na46b5f8]]を使う。