.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

音声処理について纏める。

音声認識とは?

音声

音声は、波形・スペクトルの系列データ。

認識

音声認識の難しさ

系列の対応付け

複雑な長さが異なる系列の対応付け
(フレーム、音素、音節、単語)

音響的特徴

処理方法

新・旧、2つの方法があるが根幹をなす考え方は普遍的。

生成モデル(旧)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

識別モデル(新)

深層学習のDNN(ディープ・ニューラルネットワーク)を使う。

ライブラリ

以下の様なものが発見できた。

オープンソース

Julius

プロダクト

Nuance

メディアドライブ

ライブラリ > SDK

サービス

ソリューション

AIの活用

音声データを解析して、何を発音しているのかを判別

音声合成

音声認識の逆プロセス。

音声認識

精度測定

プロセス

音声 → 音素 → 文字列 → 単語 → 単語列

とする学習手法のことをEnd-to-End音声認識と呼ぶ。

体系

HMMDNNで、音声合成音声認識の性能向上。

HMM(隠れマルコフモデル)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

DNN(ディープ・ニューラルネットワーク

活用例

自動音声口述筆記

エンリッチメント系

音声アノテーション

ライブラリ

オープンソース

プロダクト

サービス

Google Cloud Speech API

Bing Speech API

Speech to Text

ソリューション

AmiVoice?

Voice-Series

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS