.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

言語処理 ≒ 自然言語処理

自然言語処理

分野ごとにマチマチ

目的とやってることのズレ

詳細

難しさ

多義性

ある言語表現が伝える意味は一通りではない。

同犠牲

ある意味を伝える言語表現が一通りではない。

文脈依存性

言語表現の意味もコンテキスト次第

言外の意味

アプローチ

理性主義

経験主義

歴史

基礎技術

形態素解析

構文解析

など、独特の難しさがある。

意味解析

単語の意味という語彙の関連を見る

文脈解析

複数の文の繋がりをチェックする

日本語処理

語義の曖昧性解消

照応解析

その他

単語と単語の分かれ目が解り難い。

処理の例

形態素解析

構文構造の曖昧性

意味解析、文脈解析

意味の曖昧性

ライブラリ

オープンソース

ココにはAIではない言語処理のライブラリについて書く

プロダクト

ココにはAIではない言語処理のライブラリについて書く

AIの活用

AI(機械学習・深層学習)最大の金脈と言われる。

体系

N-gram LM

RNN LM

自然言語処理に革命を起こしたRNN LM。

言語学的に工夫したLMRNN LM
PPL221121
WLR13.5( - 9.5 = 4.0)11.1( - 9.5 = 1.6)

手順

(特徴抽出とタグ推定)

クリーニング

括弧、カンマ、ピリオドの削除

単語の分割と正規化

形態素解析、小文字などに統一するなど

ストップワードの除去

英語のa, the, of、日本語の「は」「の」「です」など。

テキストのベクトル化表現

活用例

変換

テキストマイニング

エンリッチメント系

テキスト・アノテーション

文書検索チャットボットで利用される。

文書検索

文書を特徴量に変換し類似度の順に並べて提示する。

チャットボット

(質問応答システム)

質問を特徴量に変換しパターン化された応答を提示する。

機械翻訳

その他

ライブラリ

オープンソース

Python系

プロダクト

Python系

サービス、ソリューション

Google翻訳

ChatGPT

ベクトル化

文の構成性

統語的階層構造(句構造)

系列の並び(現在主流)

テキスト・コーパス

自然言語の文章を構造化し大規模に集積したもの。

単語のベクトル化

単語の意味

TF-IDF

(単語埋め込みモデルではない)

BM25

分布仮説と分散表現

共起頻度アプローチ

文脈予測アプローチ

word2vec

One-Hotベクトル分散表現

#ref(): File not found: "one-hot_vector.jpg" at page "言語処理"

#ref(): File not found: "distributed_representation.jpg" at page "言語処理"

https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

文のベクトル化

文の分散表現の構成法

doc2vec

word2vecのdoc版で、

Transformer / BERT

Attention

上記をRNNで処理?

上記(ベクトル化された文)を、タスク毎のRNN(Seq2Seq)で処理?

参考

Wikipedia

YouTube?

AIcia Solid Project


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS