言語処理（AI）のバックアップ(No.29)

深層学習以降は、RNNを言語モデル（LM）に適用し、次の単語を予測する。
特に主要な問題として過生成と生成不足が指摘されている。
音声データ → 文章候補 → 文書（Rescoring N-Best）で性能を大きく改善したのが始め。
- PPL : 迷い度、1/x の確率で正解できる
- WLR : 誤認識率（音声段階の間違いを含む）

	言語学的に工夫したLM	RNN LM	備考
PPL	221	121	単語予測ではこんなモノ
WLR	13.5( - 9.5 = 4.0)	11.1( - 9.5 = 1.6)	9.5％は音声認識のエラー

初期のモデルの構造

RNNはSimple RNN

inputは単語でOne-Hotエンコーディングしたベクトル。
（単語の数だけになるので数万から数十万次元になる）

ht ≠ yt で、
- hidden の htは数十から数百次元のベクトル
- output の ytはinputと同じ数万から数十万次元のベクトル

↑

手順 †

（特徴抽出とタグ推定）

↑

クリーニング †

括弧、カンマ、ピリオドの削除

↑

単語の分割と正規化 †

形態素解析、小文字などに統一するなど

↑

ストップワードの除去 †

英語のa, the, of、日本語の「は」「の」「です」など。

↑

テキストのベクトル化表現 †

↑

活用例 †

↑

変換 †

概要
入力された文字列を理解、推論、また学習して、効率的に変換を行なう。

事例
- かな漢字変換
- 予測変換機能

↑

テキストマイニング †

お客様の声の分析
口語調は処理が難しい
- 略語や言葉の間違い
- 口語調の言い回し
- 顔文字の調整

口コミサイトの文章からの知識発見
- 口コミサイトの評価点が当てにならない。
- 話題（評価項目）の頻度でカテゴリが解ってくる。
- カテゴリ毎に評価項目のポジティブ・ネガティブを集計

コールセンターのコンタクト履歴からの知識発見
- 問い合わせの増加内容の分析
- 共起による製品の問題の分析
- 問い合わせパターンの分析

アナリスト・レポート分析（株価分析
- 輸出産業のデータベース化
  - レポートのキーワードを抽出（円高・円安）
  - レポートの属性情報を付与（誰が書いたか？上がる予測か？下がる予測か？）
  - 上がるか下がるか属性で分類して実際の株価の推移と比較して集計した結果
    アナリストのレポートを分析すれば、おおむね株価の予測できる事が解った。
    ・東証一部：正解値を出している。
    ・中企業：まぁまぁ当たり、上げ下げの幅が大きい（賭博性が強い）
    ・小企業：正解値を出していない。

銀行・金融業のデータベース化
アナリストレポートはあまり当たらない事が解った。

行政文書の分析（政策計画書の玉虫色表現

曖昧な動詞をつかっている計画の成功率は低い。
「やる」にどの様な表現を使っているか？
（行う、図る、実施する、整備する, etc.）
- 動詞の曖昧性や明確性を定義する。
- どの程度成功しているのかの成功率で並べる。
- 明確な動詞は成功率が高く、曖昧な動詞では成功率が低い。

「等」をつかている計画の成功率は低い。
等の出現率と成功率を表でまとめる。

後払い通信販売の未払い検知
- 未払い実績があると特定されたくない≒住所を偽る。
- 住所をゆらして記入してきた場合、未払いになる可能性が高い。

↑

エンリッチメント系 †

テキスト・アノテーション

エンティティ・アノテーション（情報ユニットに分解し、構造化）
エンティティ・リンキング（エンティティアノテーション後、KBに結び付ける）
文節チャンキング（名詞や動詞、形容詞といった品詞にタグ付けを行う）
意図抽出（質問・要望などの情報をテキストから抽出）
意味的（セマンティック）アノテーション（文脈から判断できる情報の付加）
分類アノテーション（分類もアノテーション）
センチメント・アノテーション（感情分析）

※ 文書検索、チャットボットで利用される。

↑

文書検索 †

文書を特徴量に変換し類似度の順に並べて提示する。
TF-IDF、BM25

↑

チャットボット †

（質問応答システム）

質問を特徴量に変換しパターン化された応答を提示する。

プリセールス
コールセンター
スマートスピーカー
バーチャルアシスタント

↑

機械翻訳 †

↑

その他 †

テキスト要約
文書作成支援（文章校正）

↑

テキスト・コーパス †

自然言語の文章を構造化し大規模に集積したもの。

定義
- 機械可読なテキスト・データを収集したもの。
- ある目的のため
  （現実の分布を考慮しサンプリングした）
  テキスト・データを収集したもの。

分類

生コーパス
自己教師あり学習における情報源

注釈付きコーパス
人手 or 機械的にアノテーションが付与されたテキスト・データ
- 教師あり学習の学習データ
- 伝統的NLPシステムの評価データ

↑

ベクトル化 †

エンコード、エンコーディングとも言う。
分布仮説から分散（意味）表現とも言う。

↑

単語のベクトル化 †

↑

単語の意味 †

初期のRNN LMなどで、単語に意味付けしない場合は、
単語でOne-Hotエンコーディングしたベクトルを使用していた（高次元統計の問題）。

シソーラスによる手法
言語資源（辞書）を作成する。
- 言語のクラス図のようなネットワークを作成
- 単語感の類似度の算出などができる。
- 最も有名なシソーラスはWordNet?（NLTKライブラリ）

問題点
- 人手によって作成するので作成コストが高い
- 時代によって変化する意味を負うことが難しい。
- ニュアンスを表現できない（シチュエーション毎の使い分けができない）。

テキスト・コーパスから知識を抽出、構造化する手法。
- TF-IDF、BM25（カウントベースの手法）
- 分布仮説
  - カウントベースの手法 > 共起頻度アプローチ
  - 推論ベースの手法 > 文脈予測アプローチ

↑

TF-IDF †

（単語埋込（Word Embedding）モデルではない）

概要
文書中の単語を頻度と希少性を加味して評価
- 複数の文書に横断的に使用している単語は重要ではない
- 対象する文章内で頻度が高く出てくる単語は特徴的

用途
- 文書検索
- レコメンド
- 自然言語処理
  文書の特徴をベクトル化

意味・定義

意味
文書と単語の「マッチ度」（頻度と希少性を加味して評価した値）を測定

tf
文書中の単語の頻度
・文書中の単語の割合
・頻出単語 → 高ポイント

idf
文書中の単語の希少性
・情報量（情報の珍しさ）
・希少単語（idf） → 高ポイント

定義

idf(t) = log (#D) / (#{d∈D|t∈d}) = log（全文書数）/（単語tを含む文書数）

t : 単語
d : 文章（単語の集合
#D : 全文章

#d : 文章中の単語数

t∈d
d={t1, t2, ... tn}
tf-idf(t, d) = tf(t, d) * idf(t)
tf(t, d) = (#of t in d) / (#d) = （単語tの登場回数）/（文書dの単語数）

文書検索の例
Elasticsearchで使われているらしい。

何を表示させるか？
- 単語をバラして検索単語が含まれていたら対象とする。
- → 頻出する単語では、どの文書も対象になる。

表示順序をどうするか？
- 単語が多く登場する。
- → 長文が有利になる。

↑

BM25 †

概要
- tf-idfの進化系でtfの部分が進化している。
- 検索クエリに特化している。

用途
文書検索

意味・定義

意味
検索クエリに出てきた単語のスコアの合計。
- 文章の長さが平均の場合、単語１で１ポイント
- 単調増加で最大スコアのk+1に漸近する。
- 罰則項で短い文書の方がスコアが高くなる。

定義
https://blog.foresta.me/posts/bm25-fomula/
https://qiita.com/KokiSakano/items/2a0f4c45caaa09cf1ab9
```
φ = score(q,d) = ∑ (idf(qi) * ((k1+1)f(qi,d)) / (f(qi,d) + k1(1−b+b(#d/avgdl))))
```

検索クエリ : g = {g1, g2, ...gn}
idf : tf-idfのidfと同じ。
f(qi,d) : 文書中の当該検索ワードのカウント（的なモノ、tf説もあるが違うっぽい）
k : パラメタ、1.2
b : 文章の長さの罰則パラメタ、0.75
φ : f=0で0、f=1で1、2≦fでφ＜fで最大値のk1+1に漸近していく曲線
avgdl : 単語数の平均
(#d/avgdl) : 文書の相対的な長さ

(1−b+b(#d/avgdl)) : 平均で0、文が平均より長いほど大きくなる罰則項。

φ = (k1+1)f / f+k1 ※ 文書の長さが平均（#d = avgdl）の場合
φ = (k1+1) * (f / f+k1) ※ 0 ≦ (f / f+k1) ＜ 1なので φ ＜ k1+1

↑

分散表現でベクトル化 †

↑

分布仮説と分散表現 †

分布仮説：単語の意味は、周囲の単語によって形成
分散表現：単語の分散表現、単語埋込（Word Embedding）ベクトル表現

計算の効率化・精度の向上を図る。

局所表現・分散表現
- （局所表現：ベクトル＝単語）
- 分散表現：ベクトル空間上の点＝単語

単語にベクトルを割り当てる。
- 単語の数だけの次元からはるかに低い次元へと数学的な埋込が行われる。
- 類似する単語同士はベクトル空間上で近くなり、異なる単語同士は遠くなる。

この（意味をベクトルで表現する）モデルを
「単語埋込（Word Embedding）モデル」と言うらしい。
- word2vec
- fastText
- ELMo
- BERT

ベクトル化のアプローチ

カウントベースの手法 > 共起頻度アプローチ
コーパスの共起関係を行列として表し行列分解の手法を適用。

推論ベースの手法 > 文脈予測アプローチ
コーパスの文脈から単語、単語から文脈を予測するような学習を行う。

問題点

多義語
- 同じ単語の複数の意味が1つのベクトルに混じる。
- 与えられた文脈における単語の分散表現を動的に作る。

反義語
- 反対の単語が似たベクトルになる。
- モダリティの情報を統合する研究。

↑

共起頻度アプローチ †

コーパスの共起関係を行列として表し行列分解の手法を適用。

共起行列
- 縦軸：ベクトルを与えたい単語の集合
- 横軸：縦軸の単語の属性として用いる単語群
- 数字：ｎ単語（文脈窓、周辺文脈）に何回出現するか？
  ... 単語A ... 単語B ... 単語C
  単語X ... 10 ... 150 ... 50
  単語Y ... 100 ... 80 ... 40
  単語Z ... 1 ... 20 ... 100

	...	単語A	...	単語B	...	単語C
単語X	...	10	...	150	...	50
単語Y	...	100	...	80	...	40
単語Z	...	1	...	20	...	100

例
I waited for a while.
I waited for a while .
I 0 1 0 0 0 0
waited 1 0 1 0 0 0
for 0 1 0 1 0 0
a 0 0 1 0 1 0
while 0 0 0 1 0 1
. 0 0 0 0 1 0

	I	waited	for	a	while	.
I	0	1	0	0	0	0
waited	1	0	1	0	0	0
for	0	1	0	1	0	0
a	0	0	1	0	1	0
while	0	0	0	1	0	1
.	0	0	0	0	1	0

問題と対策

相互情報量（PMI）で正規化
単語と文脈語（the）など、重要で無いが共起し易い（不適切）
- carと関係が深い単語はtheか？driveか？
- 1000単語中でcarが20、theが1000、driveが10
- carとの共起がtheが10、driveが5の場合
  theのPMI:
```
= log2 (10*10,000) / (1,000 * 20) ≒ 2.32
```
  driveのPMI:
```
= log2 (5 * 10,000) / (10 * 20) ≒ 7.97
```
- PPMI（Positive PMI）はPMIの正の値
```
PPMI = max(0, PMI)
```

SVD(特異値分解)で低次元化
- SVDでスパース（疎）な大規模行列をデンス（密）な大規模行列に変換
- Uの先頭の次元が重要度が高いのでスライシングで切り捨てる。
- 𝑋=𝑈𝑆𝑉𝑇
  ・Sの中の特異値が小さいものは重要度が低い。
  ・小さい特異値を削除することでSの行方向と列方向を削減し、
  ・Uを列方向に削減したU'、Vを行方向に削減したV'が作成できる

LSA(潜在意味解析)で低次元化
- LSAはTruncated SVDとも言う、SVDを使った次元削減法
- 特異値の大きなものに限定して計算することで高速化する。

↑

文脈予測アプローチ †

コーパスの文脈から単語、単語から文脈を予測するような学習を行う。

各単語はベクトルで構成され、意味、文法上の活用形など関係を学習する。

ベクトルのユークリッド距離や？コサイン類似度の計算で
意味的類似度・関連度を計量化できる（類似度・関連度は異なる）。

意味関係がベクトルの差分で表される（加法構成性）。

単語の意味合成（類推）がベクトルの加算により行える。

有名な例
・king - man + woman = queen
・queen - woman + man = king

ちなみに、共起頻度アプローチの分散表現は、コサイン類似度などの類似性尺度を使用することが一般的で
ベクトル同士を加算することで、2つの単語の意味的な結合を得ることは難しく加法構成性は持たない。

word2vec

ELMo

↑

word2vec †

2013年に登場した技術

文脈予測アプローチの代表例だがモデルの総称
- 元は（数万から数十万次元とか）スパース（疎）な単語のOne-Hotベクトル（V次元）
- これを比較的低次元（300次元とか）のデンス（密）なベクトル（h次元）に変換する。

自己教師あり学習の深層学習（2層のNN）により分散表現（ベクトル表現）を獲得する代表的な手法。
- 単語予測（分類）の2層DNNで分散表現（ベクトル表現）は重みとして学習される。
- 入力Iは単語数V中の単語でOne-HotエンコーディングしたV次元のベクトル
- このWiIの重みWiの各行（or 列）が各単語をV→hに次元圧縮した分散表現になっている。
- 単語予測（分類）DNNの性能は低くて（まともに機能しないレベルで）も分散表現（ベクトル表現）が獲得できればOK。

One-Hotベクトル	分散表現

https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html

https://take-tech-engineer.com/zero-deep-learning/

以下の学習手法の総称（2 * 3 = 6）

モデル（２種類）
I have a big dream for future.

CBOWモデル
文中の単語穴埋め問題タスクを解くモデル
・データ：I have (a) → [big] ← (dream) for future
・入力Iは単語のOne-Hotベクトルになっている。
・入力Iは１文章中のc個の単語の前後の＝2c個の単語
・WiでV次元をh次元に圧縮（全結合）して、
・圧縮した後、ベクトルの平均を取る（前後の圧縮後のベクトルを足して1/2にする）。
・Woで再び、h次元をV次元に復元（全結合）。
・入力が行ベクトルか列ベクトルかは資料によって任意（Wの行と列が入れ替わる）。
・復元したベクトルをSoftmax関数で分類。
※ この学習の結果、重みWi、Woの行 or 列ベクトルが各単語を次元圧縮した分散表現になっている。

Skip-gramモデル
単語から周辺の単語予測の問題タスクを解くモデル（CBOWの逆）
・データ：I have [a] ← (big) → [dream] for future
・入力Iは単語のOne-Hotベクトルになっている。
・入力Iは１文章中のc個の単語で、前後の単語を予測する。
・WiでV次元をh次元に圧縮（全結合）して、
・Woで再び、h次元をV次元に復元（全結合）。
・入力が行ベクトルか列ベクトルかは資料によって任意（Wの行と列が入れ替わる）。
・復元したベクトルをSoftmax関数で分類。
※ 複製でWoが共用なので単語が同じなら前後は全部同じ答えになる（が、Wiが計算できれば、それで良い）。
※ この学習の結果、重みWi、Woの行 or 列ベクトルが各単語を次元圧縮した分散表現になっている。

高速化（３パターン）
最小化スべきコードパス全体に対する損失関数

高速化なしモデル
重すぎて動かない（単語数≒分類が多過ぎるため）

hierarchical softmax
・100万分類を100分類*3=300に落とし込む。300/100万≒3000倍以上の性能向上
・実際には2分類をlog2 V 回行う。

Negative Sampling
・100万分類を[正例1, 負例10] (負例サンプリング)の2値分類に落とし込む。
・Softmax関数をSigmoid関数にしてロジスティック回帰する。１つの正例のロジスティック回帰と複数の負例のロジスティック回帰

Gensimのデフォルトは、
- CBOW＆Negative Samplingとのこと。
- 追加で、MatMul?レイヤ（厳密にはnp.dot, np.matmulは違うらしい）をEmbeddingレイヤ（ベクトル指定）に変更している。
  ちなみに、Embeddingレイヤの逆伝播は前から伝えられるデータで該当する行に加算で更新（データが重なって戻って来る場合にも対応可）
- また、Negative Samplingの部分では、Embedding＋dot積のEmbeddingDot?レイヤを使用している。
  下図を見ると、順伝播に教師データ必要じゃないか。となるが、学習で分散表現を獲得する訳で、実際に推論する訳ではないのでOKか。

https://qiita.com/jun40vn/items/04a9adc2857f2a403cab

Wi、Woのどちらを使うか？
- 基本的にWiだが、Woや、WiとWoの平均を使うなどのケースもある。
- CBOWのWo側のベクトルで加法構成性を説明するコンテンツもあるのでCBOWはWoも使う。
  ・Woの単語に対応したベクトルは「コンテキストのベクトル」（≒関連する意味を含むベクトル）の内積の値を大きくする。
  ・AIcia Solid Projectでは、「He is a man.」「He is a King.」「She is a woman.」「She is a Queen.」が例に上がっていた。
  ・これは、man、KingでHeを予測、woman、QueenでSheを予測、みたいな話。
  ・内積は、二つのベクトルがどれだけ同じ方向を向いているかの指標になる。
  ・同じベクトルの内積は大きくなり（+1）、反対のベクトルの内積は小さくなる（-1）。
  ・V(He) - V(She) = V(man) - V(woman) = V(King) - V(Queen)みたいな話。
  ・従って、Woの単語に対応したベクトルは加法構成性を獲得する。

特に、Skip-gramモデルでは、Wiの有効性が実証されているとのこと。

↑

fastText †

word2vecがベースの進化形で、Skip-gramモデル * Negative Sampling

発想

文脈予測アプローチではなく単語の内部構造に注目してベクトル化。

ワードをサブワード（tri-gram）に分割し
ワードをサブワードのベクトルの足し算でベクトル化する。

例えば、WhereはWhenと似たベクトルになり、未知語もベクトル化できる。
- 単語のベクトル表現の生成も高速化され、
- テキストの分類も高速で行える。
- 活用系をまとめることができる。

モデル

入力Iはワードと対応するサブワードが複数個
- Where
- <Where>
- <Wh, Whe, her, ere, re>

WiIで列ベクトルに圧縮（全結合）
ベクトルを足して
Negative Samplingで分類（？）。

成果

意味の類推
- CBOW < fastText
- 複合語・合成語のあるドイツ語で大きく改善

文法理解
- 加法構成性：longer - long + tall = taller
- 格変化、活用の多いドイツ語・チェコ語で大きく改善

未知語に強い
kindness = kind + ness

少データでOK
Wikipedia100%をCBOWで学習 < Wikipedia1%をfastTextで学習

↑

ELMo †

単語埋込（Word Embedding）表現が可能な2層のLSTMを用いた言語モデル
文脈に応じた単語の意味を演算して表すことが可能

↑

文のベクトル化 †

↑

BOWモデル †

（Bag of Words）

単語の出現回数（学習は不要）で、
語順に依る意味の違いを表現しないが、
類似文書検索タスクでは十分精度が出る。

日本語は英語のように単語が空白で分かれていない場合、形態素解析で単語単位に分割
文章毎に各単語が何回出現したかを数え上げ、長さが語彙数、値が出現回数となるベクトルにする。
出現回数そのものでなく、TF-IDFといった手法を用いて単語の重みを調整する方法もある。

↑

文の分散表現の構成法 †

doc2vec

系列変換モデル
- 文を系列として文を見る（文の構成性）。
- 何らかのタスクのRNNやLSTMに学習させる。
  - 翻訳タスク
  - 自然言語推論タスク

副作用的に文の分散表現を獲得
転移可能性の問題がある。

↑

doc2vec †

2012年に登場した技術（word2vecの一年前）

従来手法の問題
- BOWモデル：語順に依る意味の違いを表現しない。
- Parse tree：文１つならOKだが文章になるとNG

word2vecのdoc版で、
- Document（文書）をWord（単語）の集合として見て
  文書間の類似度やベクトル計算などを実現できる。

モデルは以下の2つのモデルから構成されている。

PV-DM（Distributed Memory Model of Paragraph Vector）
文章中の次の単語予測のタスクを解くモデル
・データ：ドキュメントID＋ドキュメント（単語列）
・word2vecのCBOWモデル的な2層のNN
　・1層目では重みDI、WIでドキュメントID、単語のOne-Hotベクトルを次元圧縮
　・2層目の前に次元圧縮したドキュメントIDベクトルと単語ベクトルの平均とを連結し
・それぞれ重みが分散表現を獲得する。
　・WIの列ベクトルが単語の分散表現
　・DIの列ベクトルが文の分散表現（フレーズ・ベクトル）

PV-DBOW（Distributed Bag of Words version of Paragraph Vector）
文章中の単語予測のタスクを解くモデル
・データ：ドキュメントID＋ドキュメント（単語列）
・word2vecのSkip-gramモデル的な2層のNN
・入力は単語ではなくドキュメントIDベクトルで重みDIで次元圧縮
・最終的にDIの列ベクトルが文の分散表現（フレーズ・ベクトル）

PV-DM・PV-DBOW
・２つのフレーズ・ベクトルを縦に繋げる（400 + 400次元 = 800次元）。
・PV-DBOW単体では精度はそれほど良くないらしい（タスク的にも）。

gensimのデフォルトは、
・PV-DMとのこと（単体で精度十分のため）。
・PV-DMは「Nが大きいN-gram」だから精度が良い？

タスクと結果

感情分析
レビュー・コメント → フレーズ・ベクトル → レーティング

短文
Stanford Sentiment Treebank（高低2択）
ErrorRate?
今までのBEST（？） 14.6%
doc2vec 12.2%

	ErrorRate?
今までのBEST（？）	14.6%
doc2vec	12.2%

長文
Large Movie Review Dataset - Imdb dataset（★1-5）
ErrorRate?
BOW（長文なら使える） 12.2%
今までのBEST（ボルツマン・マシン） 10.8%
doc2vec 8.8%

	ErrorRate?
BOW（長文なら使える）	12.2%
今までのBEST（ボルツマン・マシン）	10.8%
doc2vec	8.8%

情報抽出
（多分、Googleの）同じ検索クエリの結果から2件、異なる検索クエリの結果から1件抽出
→ フレーズ・ベクトル → レーティング（同じクエリで近く異なるクエリで遠い）
ErrorRate?
BOW（長文なら使える） 5.7%
doc2vec 3.8%

	ErrorRate?
BOW（長文なら使える）	5.7%
doc2vec	3.8%

↑

NLPモデル †

自然言語処理（NLP）モデル

↑

Attention †

2014年に登場した技術で、Transformerの元ネタ

機械翻訳の分野で、
- 統計的機械翻訳（SMT）から
- ニューラル機械翻訳（NMT）への

過渡期。

翻訳にRNNの発展形のEnc-Dec、Seq2Seqを使用する。

翻訳タスクの結果
- 英 → 仏
  - The agreement on the European Economic Area was signed in August 1992.
  - L’accord sur la zone économique européenne a été signé en août 1992.
- 精度（BLEU）
  - 未知語無しで従来手法に勝利。
  - 長文では単語数が増えても精度が落ちないを事を確認。
    モデル全語未知語無し
    統計的機械翻訳（SMT） Moses 33.3 35.6
    ニューラル機械翻訳（NMT） RNN encdec 21.5 31.4
    ニューラル機械翻訳（NMT） RNN search 28.5 36.2

モデル	全語	未知語無し
統計的機械翻訳（SMT） Moses	33.3	35.6
ニューラル機械翻訳（NMT） RNN encdec	21.5	31.4
ニューラル機械翻訳（NMT） RNN search	28.5	36.2