.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

音声処理について纏める。

音声認識とは?

音声認識の難しさ

系列の対応付け

複雑な長さが異なる系列の対応付け
(フレーム、音素、音節、単語)

音響的特徴

処理方法

新・旧、2つの方法があるが根幹をなす考え方は普遍的。

生成モデル(旧)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

識別モデル(新)

深層学習のDNN(ディープ・ニューラルネットワーク)を使う。

詳細

ライブラリ

以下の様なものが発見できた。

オープンソース

Julius

プロダクト

Nuance

メディアドライブ

ライブラリ > SDK

サービス

ソリューション

AIの活用

音声データを解析して、何を発音しているのかを判別

体系

HMM(隠れマルコフモデル)

ベイズ統計のHMM(隠れマルコフモデル)を使う。

DNN(ディープ・ニューラルネットワーク

手順

元データの獲得

時系列データとして処理

自然言語処理・音響情報処理

目的データの生成

アルゴリズム

...

活用例

自動音声口述筆記

エンリッチメント系

音声アノテーション

ライブラリ

オープンソース

プロダクト

サービス

Google Cloud Speech API

Bing Speech API

Speech to Text

ソリューション

AmiVoice?

Voice-Series

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS