音声処理
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>要素技術]]
--[[言語処理]]
--音声処理
---[[音声処理(AI)]]
--[[画像処理>画像処理とコンピュータビジョン]]
*目次 [#r0fe7899]
#contents
*概要 [#o8c44f13]
音声処理について纏める。
*音声合成 [#edc5d4ea]
...
*音声認識 [#tae5aabb]
**音声認識とは? [#e7315500]
***音声 [#q70f4868]
-音声は、波形・スペクトルの系列データ。
-正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換...
-A/D変換
--標本化(サンプリング
--量子化(加工
--符号化(2進数
-音韻・音素
--音韻:言語として認識される音の体系
--音素:ある言語の音声を音韻論的に考察して得た単位(音韻...
***認識 [#v5bb848d]
-[[音声分析>音声処理(AI)#n856b454]]~
ウィンドウをズラして行って特徴ベクトル列を求める。
-コレを計算機で処理~
音素 → 音韻 → かな → 単語 → 文 → コマンド
--音声認識:音素 → 音韻 → かな → 単語
---[[HMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]]
---[[DNN(ディープ・ニューラルネットワーク)>音声処理(AI...
--バックエンドシステム:単語 → 文 → コマンド
**音声認識の難しさ [#c0d08628]
***系列の対応付け [#m78d0d74]
複雑な長さが異なる系列の対応付け~
(フレーム、音素、音節、単語)
-系列長が極端に異なる。
-非線形な時間短縮
-セグメント境界が曖昧
***音響的特徴 [#o3d06d0a]
-時間分散して埋め込まれる。
-文脈依存(音響的特徴と聞こえの関係が多対多)
--同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
--違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
--物理的にない音を与えたり、物理的にある音を削ったり。
**処理方法 [#t415886b]
新・旧、2つの方法があるが根幹をなす考え方は普遍的。
***生成モデル(旧) [#eb402b8f]
[[ベイズ統計のHMM(隠れマルコフモデル)>音声処理(AI)#xa...
***識別モデル(新) [#sa4dd3e4]
[[深層学習のDNN(ディープ・ニューラルネットワーク)>音声...
終了行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>要素技術]]
--[[言語処理]]
--音声処理
---[[音声処理(AI)]]
--[[画像処理>画像処理とコンピュータビジョン]]
*目次 [#r0fe7899]
#contents
*概要 [#o8c44f13]
音声処理について纏める。
*音声合成 [#edc5d4ea]
...
*音声認識 [#tae5aabb]
**音声認識とは? [#e7315500]
***音声 [#q70f4868]
-音声は、波形・スペクトルの系列データ。
-正弦波の加算で合成が可能 → 分解も可能(高速フーリエ変換...
-A/D変換
--標本化(サンプリング
--量子化(加工
--符号化(2進数
-音韻・音素
--音韻:言語として認識される音の体系
--音素:ある言語の音声を音韻論的に考察して得た単位(音韻...
***認識 [#v5bb848d]
-[[音声分析>音声処理(AI)#n856b454]]~
ウィンドウをズラして行って特徴ベクトル列を求める。
-コレを計算機で処理~
音素 → 音韻 → かな → 単語 → 文 → コマンド
--音声認識:音素 → 音韻 → かな → 単語
---[[HMM(隠れマルコフモデル)>音声処理(AI)#xa24bf6a]]
---[[DNN(ディープ・ニューラルネットワーク)>音声処理(AI...
--バックエンドシステム:単語 → 文 → コマンド
**音声認識の難しさ [#c0d08628]
***系列の対応付け [#m78d0d74]
複雑な長さが異なる系列の対応付け~
(フレーム、音素、音節、単語)
-系列長が極端に異なる。
-非線形な時間短縮
-セグメント境界が曖昧
***音響的特徴 [#o3d06d0a]
-時間分散して埋め込まれる。
-文脈依存(音響的特徴と聞こえの関係が多対多)
--同じ音響的特徴の音が、文脈に応じて違う音に聞こえる。
--違う音響的特徴の音が、文脈に応じて同じ音に聞こえる。
--物理的にない音を与えたり、物理的にある音を削ったり。
**処理方法 [#t415886b]
新・旧、2つの方法があるが根幹をなす考え方は普遍的。
***生成モデル(旧) [#eb402b8f]
[[ベイズ統計のHMM(隠れマルコフモデル)>音声処理(AI)#xa...
***識別モデル(新) [#sa4dd3e4]
[[深層学習のDNN(ディープ・ニューラルネットワーク)>音声...
ページ名: