「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
自然言語処理
ある言語表現が伝える意味は一通りではない。
ある意味を伝える言語表現が一通りではない。
言語表現の意味もコンテキスト次第
など、独特の難しさがある。
単語の意味という語彙の関連を見る
複数の文の繋がりをチェックする
He saw that gasoline can explode.
The chickens are ready to eat.
Stay away from bank.
(特徴抽出とタグ推定)
括弧、カンマ、ピリオドの削除
形態素解析、小文字などに統一するなど
英語のa, the, of、日本語の「は」「の」「です」など。
通常の文章からなるデータを単語や文節で区切り、
それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析
することで有用な情報を取り出す、テキストデータの分析方法。
文書を特徴量に変換し類似度の順に並べて提示する。
(質問応答システム)
質問を特徴量に変換しパターン化された応答を提示する。
テキスト・アノテーション
※ チャットボットで利用される。
自然言語の文章を構造化し大規模に集積したもの。
... | 単語A | ... | 単語B | ... | 単語C | |
単語X | ... | 10 | ... | 150 | ... | 50 |
単語Y | ... | 100 | ... | 80 | ... | 40 |
単語Z | ... | 1 | ... | 20 | ... | 100 |
I | waited | for | a | while | . | |
I | 0 | 1 | 0 | 0 | 0 | 0 |
waited | 1 | 0 | 1 | 0 | 0 | 0 |
for | 0 | 1 | 0 | 1 | 0 | 0 |
a | 0 | 0 | 1 | 0 | 1 | 0 |
while | 0 | 0 | 0 | 1 | 0 | 1 |
. | 0 | 0 | 0 | 0 | 1 | 0 |
翻訳を行う場合、