.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

言語処理 ≒ 自然言語処理は、AI(機械学習・深層学習)最大の金脈と言われる。

自然言語処理

分野ごとにマチマチ

目的と学習のズレ

詳細

体系

N-gram LM

RNN LM

自然言語処理に革命を起こしたRNN LM。

言語学的に工夫したLMRNN LM備考
PPL221121単語予測ではこんなモノ
WLR13.5( - 9.5 = 4.0)11.1( - 9.5 = 1.6)9.5%は音声認識のエラー

手順

(特徴抽出とタグ推定)

クリーニング

括弧、カンマ、ピリオドの削除

単語の分割と正規化

形態素解析、小文字などに統一するなど

ストップワードの除去

英語のa, the, of、日本語の「は」「の」「です」など。

テキストのベクトル化表現

活用例

変換

テキストマイニング

エンリッチメント系

テキスト・アノテーション

文書検索チャットボットで利用される。

文書検索

チャットボット

(質問応答システム)

質問を特徴量に変換しパターン化された応答を提示する。

機械翻訳

その他

文の構成性

統語的階層構造(句構造)

系列の並び(現在主流)

テキスト・コーパス

自然言語の文章を構造化し大規模に集積したもの。

ベクトル化

単語のベクトル化

単語の意味

TF-IDF

(単語埋込(Word Embedding)モデルではない)

BM25

分散表現でベクトル化

分布仮説と分散表現

共起頻度アプローチ

コーパスの共起関係を行列として表し行列分解の手法を適用。

文脈予測アプローチ

コーパスの文脈から単語、単語から文脈を予測するような学習を行う。

word2vec

One-Hotベクトル分散表現
イメージ
イメージ
https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html
イメージ
https://take-tech-engineer.com/zero-deep-learning/
イメージ
イメージ
https://qiita.com/jun40vn/items/04a9adc2857f2a403cab

fastText

ELMo

文のベクトル化

BOWモデル

(Bag of Words)

単語の出現回数(学習は不要)で、
語順に依る意味の違いを表現しないが、
類似文書検索タスクでは十分精度が出る。

文の分散表現の構成法

doc2vec

NLPモデル

自然言語処理(NLP)モデル

Attention

過渡期。

Transformer

Transformer

GPT-n

BERT

T5、Switch、Meena

Transformerの上に構築された自然言語処理(NLP)モデル

GLUEデータセット

GPTやBERTなどのマルチタスク自然言語処理モデルの性能評価目的で開発された。

LLMの特徴

GPTやBERTなどがLLMに該当する。

ポイント

超大規模化

コンテキスト内学習

順問題を学習できる。

ポランニーのパラドックス

人間は言葉で表せる以上のことを知っている。

汎用性と用途

エージェント

サポート

様々な文書生成

プログラミング

プログラムを生成する。

検索エンジンの代替

人間が参照しきれないテキストから意図する情報を抽出

インターフェイス

特に、音声インターフェースなど。

人間の言語理解能力の理解

LLMとの対比で人間の言語理解能力を理解する。

問題点

幻覚

誤った「解釈」が(存在しない)新事実を創出してしまう。

故障

記憶の機能がなく、破滅的忘却で壊れる可能性がある。

学習効率

リスク

セキュリティ

コレはChatGPTなどのシステム・アプリの問題。

偽情報の拡散

何を持って偽情報なのか?

機密情報の拡散

コレは、≒ セキュリティ。

倫理・道徳

何を持って倫理・道徳なのか?

ポリコレ

目的駆動学習(人間のフィードバックによる強化学習)でポリコレにフィットさせたりする。

仕事の変化

Web検索で仕事が変化したように、LLMでも変化するものと考えられる。

参考

Wikipedia

Qiita

YouTube?

AIcia Solid Project

ライブラリ

オープンソース

Python系

プロダクト

Python系

サービス、ソリューション

Google翻訳

ChatGPT

ゼロから作るDeep Learning

自然言語処理編
https://www.oreilly.co.jp/books/9784873118369/

サンプル

https://github.com/oreilly-japan/deep-learning-from-scratch-2

その他、参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS