「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>要素技術]]
--[[言語処理]]
--音声処理
---[[音声処理(AI)]]
--[[画像処理>画像処理とコンピュータビジョン]]

*目次 [#r0fe7899]
#contents

*概要 [#o8c44f13]
音声処理について纏める。

*音声合成 [#edc5d4ea]
...

*音声認識 [#tae5aabb]

**音声認識とは? [#e7315500]

***音声 [#q70f4868]
音声は、波形・スペクトルの系列データ。
-音声は、波形・スペクトルの系列データ。

-正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換)。
--フォルマント:音声の複数の周波数のピーク
--ケプストラム:周波数スペクトルをフーリエ変換して得る。

--特徴量
---音声信号スペクトル:~
声の高さを表す(使用しない特徴量)。
---スペクトル包絡:~
音声の音色の違いを表す(音声認識で使用する特徴量)。
---メル周波数ケプストラム係数(MFCC):~
音色・楽器音の音色の違いを表す(音声認識、音楽ジャンル認識で使用する特徴量)。

--尺度

---メル尺度:音高の知覚尺度~
・周波数による音の変化は低い場合に敏感で高い場合に鈍感~
・定義にはファントの式がよく用いられる(グラフ参照)~
・低い周波数域では分解能が高く、高い分解能が低い。~
・1000melの音高の上昇は低周波では2000Hz、高周波では4000Hzの上昇で知覚される。

---バーク尺度:音域の知覚尺度

-A/D変換
--標本化(サンプリング
--量子化(加工
--符号化(2進数

-音韻・音素
--音韻:言語として認識される音の体系
--音素:ある言語の音声を音韻論的に考察して得た単位(音韻論で仮定された言語音の単位

***認識 [#v5bb848d]
-[[音声分析>音声処理(AI)#n856b454]]~
ウィンドウをズラして行って特徴ベクトル列を求める。

-コレを計算機で処理~
音素 → 音韻 → かな → 単語 → 文 → コマンド

--音声認識:音素 → 音韻 → かな → 単語
---[[HMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]]
---[[DNN(ディープ・ニューラルネットワーク)>音声処理(AI)#na46b5f8]]

--バックエンドシステム:単語 → 文 → コマンド

**音声認識の難しさ [#c0d08628]

***系列の対応付け [#m78d0d74]
複雑な長さが異なる系列の対応付け~
(フレーム、音素、音節、単語)

-系列長が極端に異なる。
-非線形な時間短縮
-セグメント境界が曖昧

***音響的特徴 [#o3d06d0a]
-時間分散して埋め込まれる。
-文脈依存(音響的特徴と聞こえの関係が多対多)
--同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
--違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
--物理的にない音を与えたり、物理的にある音を削ったり。

**処理方法 [#t415886b]
新・旧、2つの方法があるが根幹をなす考え方は普遍的。

***生成モデル(旧) [#eb402b8f]
[[ベイズ統計のHMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]]を使う。

***識別モデル(新) [#sa4dd3e4]
[[深層学習のDNN(ディープ・ニューラルネットワーク)>音声処理(AI)#na46b5f8]]を使う。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS