.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

言語処理 ≒ 自然言語処理は、AI(機械学習・深層学習)最大の金脈と言われる。

自然言語処理

分野ごとにマチマチ

目的と学習のズレ

詳細

体系

N-gram LM

RNN LM

自然言語処理に革命を起こしたRNN LM。

言語学的に工夫したLMRNN LM備考
PPL221121単語予測ではこんなモノ
WLR13.5( - 9.5 = 4.0)11.1( - 9.5 = 1.6)9.5%は音声認識のエラー

手順

(特徴抽出とタグ推定)

クリーニング

括弧、カンマ、ピリオドの削除

単語の分割と正規化

形態素解析、小文字などに統一するなど

ストップワードの除去

英語のa, the, of、日本語の「は」「の」「です」など。

テキストのベクトル化表現

活用例

変換

テキストマイニング

エンリッチメント系

テキスト・アノテーション

文書検索チャットボットで利用される。

文書検索

チャットボット

(質問応答システム)

質問を特徴量に変換しパターン化された応答を提示する。

機械翻訳

その他

文の構成性

統語的階層構造(句構造)

系列の並び(現在主流)

テキスト・コーパス

自然言語の文章を構造化し大規模に集積したもの。

ベクトル化

単語のベクトル化

単語の意味

TF-IDF

(単語埋込(Word Embedding)モデルではない)

BM25

単語の分散表現

分布仮説と分散表現

共起頻度アプローチ

文脈予測アプローチ

word2vec

One-Hotベクトル分散表現
イメージ
イメージ
https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

fastText

ELMo

文のベクトル化

BOWモデル

(Bag of Words)

単語の出現回数(学習は不要)で、
語順に依る意味の違いを表現しないが、
類似文書検索タスクでは十分精度が出る。

文の分散表現の構成法

doc2vec

NLPモデル

自然言語処理(NLP)モデル

Attention

過渡期。

Transformer

Transformer

GPT-n

BERT

T5、Switch、Meena

Transformerの上に構築された自然言語処理(NLP)モデル

GLUEデータセット

GPTやBERTなどのマルチタスク自然言語処理モデルの性能評価目的で開発された。

参考

Wikipedia

Qiita

YouTube?

AIcia Solid Project

ライブラリ

オープンソース

Python系

プロダクト

Python系

サービス、ソリューション

Google翻訳

ChatGPT


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS