.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

音声処理について纏める。

音声合成

音声認識

音声データを解析して、何を発音しているのかを判別

精度測定

プロセス

音声 → 音素 → 文字列 → 単語 → 単語列

とする学習手法のことをEnd-to-End音声認識と呼ぶ。

詳細(音声合成)

体系

波形接続型音声合成

統計的パラメトリック音声合成

深層学習を用いた音声合成(WaveNet?

Residual BlockResidual Net
イメージ
イメージ
イメージ
https://qiita.com/kshina76/items/910ab0b863cb9d13c2ca

活用例

アナウンス、ナレーション

ナビゲーション / トレーニング・システム

詳細(音声認識)

体系

HMMDNNで、音声認識の性能向上。

音声分析

HMM(隠れマルコフモデル)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

DNN(ディープ・ニューラルネットワーク

活用例

自動音声口述筆記

エンリッチメント系

音声アノテーション

参考

Qiita

ライブラリ

オープンソース

プロダクト

サービス

Google Cloud Speech API

Bing Speech API

Speech to Text

ソリューション

AmiVoice?

Voice-Series


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS