「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
自然言語処理
ある言語表現が伝える意味は一通りではない。
ある意味を伝える言語表現が一通りではない。
言語表現の意味もコンテキスト次第
など、独特の難しさがある。
単語の意味という語彙の関連を見る
複数の文の繋がりをチェックする
単語と単語の分かれ目が解り難い。
He saw that gasoline can explode.
The chickens are ready to eat.
Stay away from bank.
ココにはAIではない言語処理のライブラリについて書く
ココにはAIではない言語処理のライブラリについて書く
AI(機械学習・深層学習)最大の金脈と言われる。
単語の数が多いためデータが高次元かつスパースだが、
深層学習の登場によって、処理が可能になってきている。
(特徴抽出とタグ推定)
括弧、カンマ、ピリオドの削除
形態素解析、小文字などに統一するなど
英語のa, the, of、日本語の「は」「の」「です」など。
文書を特徴量に変換し類似度の順に並べて提示する。
(質問応答システム)
質問を特徴量に変換しパターン化された応答を提示する。
テキスト・アノテーション
※ チャットボットで利用される。
自然言語の文章を構造化し大規模に集積したもの。
#ref(): File not found: "image.png" at page "言語処理"
... | 単語A | ... | 単語B | ... | 単語C | |
単語X | ... | 10 | ... | 150 | ... | 50 |
単語Y | ... | 100 | ... | 80 | ... | 40 |
単語Z | ... | 1 | ... | 20 | ... | 100 |
I | waited | for | a | while | . | |
I | 0 | 1 | 0 | 0 | 0 | 0 |
waited | 1 | 0 | 1 | 0 | 0 | 0 |
for | 0 | 1 | 0 | 1 | 0 | 0 |
a | 0 | 0 | 1 | 0 | 1 | 0 |
while | 0 | 0 | 0 | 1 | 0 | 1 |
. | 0 | 0 | 0 | 0 | 1 | 0 |
膨大な量のテキストデータからテキストの単語の連なりの「言語らしさ」を学習
上記(ベクトル化された文)を、タスク毎のRNN(Seq2Seq)で処理?