「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
自然言語処理
- 歴史は機械翻訳の歴史
- まだまだ未熟な分野
- AI完全問題と言われる
- MMIとしては非常に魅力的
詳細 †
- 単語を高次元のベクトルに置き換える分散表現という技術を用いる。
- 単語データの並びのことをシーケンスと言い、これが文章にあたる。
基礎技術 †
形態素解析 †
- 文法や、辞書と呼ばれる単語の品詞等の情報に基づき、
形態素(≒言語で意味を持つ最小単位)の列に分割し、
それぞれの形態素の品詞等を判別する作業。
構文解析 †
- 基本的にはプログラミング言語などの形式言語の場合と同様
- どこが主語で、どこが述語か?係り受け(言葉と言葉の関係性)を解析
- ただし、自然言語の構文には
- 多くの言語で曖昧さ
- アドホックな変形が多いという複雑さ
- 意味を考えなければ構文が決定できない
など、独特の難しさがある。
意味解析 †
単語の意味という語彙の関連を見る
- 十分に上手く行えるシステムはまだ完成していない。
- 「意味素」という意味の基本となる情報を持たせることにより、
ある程度、意味解析ができる事が解っている。
文脈解析 †
複数の文の繋がりをチェックする
- 背景知識とか今のシチュエーションの関連性を見る
- 照応解析などを含む。
日本語処理 †
語義の曖昧性解消 †
- 語義識別、語義判別、語義確定などともいう。
- 文中のある単語に出会ったとき、その単語が、
どの語義を表しているのかを判断する過程
照応解析 †
- 省略された名詞句(ゼロ代名詞)を補完する処理
- 意味に踏み込まない処理には限界がある
言語処理の例 †
形態素解析 †
- 「くるまでまつ」の形態素解析
- 「車で待つ」、「来るまで待つ」
- 最適な組み合わせを判定
構文構造の曖昧性 †
意味解析、文脈解析 †
- 「僕は鰻だ」
- 形態素解析、構文解析はできる。
- 意味解析、文脈解析が難しい。
意味の曖昧性 †
- 意味論的曖昧性
bankが土手なのか?銀行なのか?
Stay away from bank.
AIの活用 †
特徴抽出とタグ推定 †
- 単語の分割と正規化
形態素解析、小文字などに統一するなど
- ストップワードの除去
英語のa, the, of、日本語の「は」「の」「です」など。
- TF-IDF
- 複数の文書に横断的に使用している単語は重要ではない
- 対象する文章内で頻度が高く出てくる単語は特徴的
- word2vec
単語の意味は周囲の単語によって形成される
- BERT
- ニューラルネットを用いて単語や文を数値化する技術
- 長く複雑な文章を読み取ることができ文脈を読むことが可能になった
- 双方向(文頭と文末)から学習することによって「文脈を読むこと」が実現された。
活用例 †
テキストマイニング †
概要 †
- 文章の統計のようなもので、
文章から有益な情報を抽出できる。
通常の文章からなるデータを単語や文節で区切り、
それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析
することで有用な情報を取り出す、テキストデータの分析方法。
- 難しい、意味解析、文脈解析などより、
結果が出ている(役立っている)技術。
事例 †
- お客様の声の分析
口語調は処理が難しい
- 略語や言葉の間違い
- 口語調の言い回し
- 顔文字の調整
- 口コミサイトの文章からの知識発見
- 口コミサイトの評価点が当てにならない。
- 話題(評価項目)の頻度でカテゴリが解ってくる。
- カテゴリ毎に評価項目のポジティブ・ネガティブを集計
- アナリスト・レポート分析(株価分析
- 輸出産業のデータベース化
- レポートのキーワードを抽出(円高・円安)
- レポートの属性情報を付与(誰が書いたか?上がる予測か?下がる予測か?)
- 上がるか下がるか属性で分類して実際の株価の推移と比較して集計した結果
アナリストのレポートを分析すれば、おおむね株価の予測できる事が解った。
・東証一部:正解値を出している。
・中企業:まぁまぁ当たり、上げ下げの幅が大きい(賭博性が強い)
・小企業:正解値を出していない。
- 銀行・金融業のデータベース化
アナリストレポートはあまり当たらない事が解った。
- 曖昧な動詞をつかっている計画の成功率は低い。
「やる」にどの様な表現を使っているか?
(行う、図る、実施する、整備する, etc.)
- 動詞の曖昧性や明確性を定義する。
- どの程度成功しているのかの成功率で並べる。
- 明確な動詞は成功率が高く、曖昧な動詞では成功率が低い。
- 「等」をつかている計画の成功率は低い。
等の出現率と成功率を表でまとめる。
- 後払い通信販売の未払い検知
- 未払い実績があると特定されたくない≒住所を偽る。
- 住所をゆらして記入してきた場合、未払いになる可能性が高い。
翻訳 †
概要 †
- 1947年に英仏機械翻訳
- 英語とフランス語は同じ文法体系
- 単語だけ置き換える単語置換のロジック
- セマンティックストラクチャー
- 1957年、Chomsky
- 文法を解析して翻訳
現在まで脈々と続いている言葉の解析の初め
事例 †
- Google翻訳
統計的機械翻訳(深層学習を用いた用例統計処理)が行われている。
変換 †
ライブラリ †
オープンソース †
プロダクト †
サービス †
ソリューション †
参考 †
Wikipedia †