「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
自然言語処理
- 歴史は機械翻訳の歴史
- AI完全問題と言われる
- MMIとしては非常に魅力的
詳細 †
- 単語を高次元のベクトルに置き換える分散表現という技術を用いる。
- 単語データの並びのことをシーケンスと言い、これが文章にあたる。
基礎技術 †
形態素解析 †
- 文法や、辞書と呼ばれる単語の品詞等の情報に基づき、
形態素(≒言語で意味を持つ最小単位)の列に分割し、
それぞれの形態素の品詞等を判別する作業。
構文解析 †
- 基本的にはプログラミング言語などの形式言語の場合と同様
- どこが主語で、どこが述語か?係り受け(言葉と言葉の関係性)を解析
- ただし、自然言語の構文には
- 多くの言語で曖昧さ
- アドホックな変形が多いという複雑さ
- 意味を考えなければ構文が決定できない
など、独特の難しさがある。
意味解析 †
単語の意味という語彙の関連を見る
- 十分に上手く行えるシステムはまだ完成していない。
- 「意味素」という意味の基本となる情報を持たせることにより、
ある程度、意味解析ができる事が解っている。
文脈解析 †
複数の文の繋がりをチェックする
- 背景知識とか今のシチュエーションの関連性を見る
- 照応解析などを含む。
日本語処理で主に研究 †
語義の曖昧性解消 †
- 語義識別、語義判別、語義確定などともいう。
- 文中のある単語に出会ったとき、その単語が、
どの語義を表しているのかを判断する過程
照応解析 †
- 省略された名詞句(ゼロ代名詞)を補完する処理
- 意味に踏み込まない処理には限界がある
言語処理の例 †
形態素解析 †
- 「くるまでまつ」の形態素解析
- 「車で待つ」、「来るまで待つ」
- 最適な組み合わせを判定
形態素解析の後 †
- 「僕は鰻だ」
- 形態素解析、構文解析はできる。
- 意味解析、文脈解析が難しい。
構文構造の曖昧性 †
意味の曖昧性 †
- 意味論的曖昧性
bankが土手なのか?銀行なのか?
Stay away from bank.
その他 †
テキストマイニング †
概要 †
- 文章の統計のようなもので、
文章から有益な情報を抽出できる。
通常の文章からなるデータを単語や文節で区切り、
それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析
することで有用な情報を取り出す、テキストデータの分析方法。
事例 †
- お客様の声の分析
口語調は処理が難しい
- 略語や言葉の間違い
- 口語調の言い回し
- 顔文字の調整
- 口コミサイトの文章からの知識発見
- 口コミサイトの評価点が当てにならない。
- 話題(評価項目)の頻度でカテゴリが解ってくる。
- カテゴリ毎に評価項目のポジティブ・ネガティブを集計
機械翻訳 †
歴史 †
- 1947年に英仏機械翻訳
- 英語とフランス語は同じ文法体系
- 単語だけ置き換える単語置換のロジック
- セマンティックストラクチャー
- 1957年、Chomsky
- 文法を解析して翻訳
現在まで脈々と続いている言葉の解析の初め
- Google翻訳
用例統計処理という形のものが行われている。
事例 †
...
ライブラリ †
オープンソース †
プロダクト †
サービス †
ソリューション †
参考 †
Wikipedia †