E資格：試験対策のバックアップ(No.37)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- G検定：試験対策
- E資格：試験対策

目次 †

目次
概要
詳細
対策
参考

↑

概要 †

↑

実施概要 †

↑

試験対策 †

↑

G検定と異なる点 †

試験はCBTでありググれないので暗記が必要な所は暗記が必要になる。
数学的なバックグラウンド（理解）を持っていないと、学習に時間がかかる。
（が、高校数学までの数学知識の一部とされ、駅弁工学部化学科レベルでも理解可能ではある、一説によると文系でもなんとなかる）

範囲はG検定より狭いが深い。
- 故に体積的にはE資格の方が大きく、且つ、難易度は高い印象。
- 実務で使用しない数学的理解やライブラリ内部の実装も問われる。
- 更に高難易度の問が多いので、対策以前の勉強自体も想定問題が中心になる。
- そもそも、シラバスの体系を網羅的に解説している講座や書籍が存在しない。
- 著名な対策業者書籍の黒本は問題提示後に各問題の解説を行うスタイルになっている。
- （黒本より認定プログラムの方がシラバスに沿った内容になっている）

↑

認定プログラム †

について思う事。

認定プログラムによっては内容が異なると思われ、不安がある。
認定プログラム中の「試験対策」は黒本より内容が圧倒的に薄い。
試験に出ないプログラム実習も長時間あり足切り的な意味もありそう。
（ただし、実務的にはプログラム実習の方が圧倒的に役に立つが）

以下の様な感想がWeb上にあり、所詮は足切り用と言う感もある。
- 値段相応なのか、資料は統一性が無く、突貫でかき集めたような内容。
- 認定プログラムの修了と試験対策は別物と考えた方が良い。
- 認定プログラム終了試験では初見で解ける問題が3割程度という感触だった。
- 認定プログラム修了後に黒本をやったら正答率は5割に届かない壊滅的な理解度だった。
- 認定プログラムは修了できたものの、E資格の黒本をやった結果、
  正答率が4割程度かつ、回答を見ても理解に時間がかかるといった絶望的な状況。

ただし、最近は、黒本からの出題が減り、認定プログラムからの出題が増えているらしい。

↑

黒本 †

について

3・4周やれば十分合格できる。7周で100%に到達するらしい。
1周、20時間程度、後半は3時間程度で1周できるらしい。
その状態で正解率は80-90%弱で合格（合格ライン65%）。

↑

Python †

について

行列演算がキーとなる。axisの方向など。
...

↑

数学には †

ビビらなくて良い。

↑

基礎 †

↑

数式 †

先ず、計算方法を示す数式もあるが、そうでないモノも多い。

また、高校数学では解かないといけないが、解くものでないモノも多い。

数式は自然言語で数行に渡る説明を一目で示したもの。
（リメディアル教育コンテンツでも方程式＝説明）

多くは、プログラム実装の土台となっている数学的な
理論を図示したグランド・デザイン的なモノになっている。

数式の意味が理解できる ≒ 設計を理解できる。
数式の意味が理解できる ≒ プログラムを実装できる。

全体の理解には数式（理論）⇔ 設計図（組立）⇔ プログラム（実装）が必要。
- ただし、それぞれの要素自体の説明には自然言語が必要になる。
- また、それぞれの要素の関連の説明にも自然言語が必要になる。

例えば、im2colで空間的なイメージや実装の理解が困難な場合、
（例えば高次元配列の次元の入換や計算量を減らすためのトリッキーな実装）
自然言語の脚注で対応することになる。

数式の場合は、正則化項、誤差逆伝播法、RNN、LSTMなどの例が解り易い。

...と言う事は、即ち自然言語の説明を読めってことだが、

行間なく自然言語での説明が記述されているコンテンツも少ない。
- （今の所、）数式については認定プログラムの説明は全然ダメ。
- ググって動画やブログを掘り当ててナントカ理解するような状況。

説明が不十分だと試験問題が四択なので暗記＆選択になる感
（役立つのは試験上でダケになるのでオススメしない）
- 計算ができる（その計算、ヤることある？）
- 実装が書ける（その実装、書くことある？）

なお、自分で解読するには以下で行うようだが難易度が高い。
- 特別な値を代入してみる。
- 増減を考える。
- 極限を考える。

↑

知識 or 実装 †

理論やアルゴリズムなどに関する知識であり、
実装スキルはそれほど無くても合格できる。

実装に関する問題も四択なので対策可能。

↑

注意事項 †

AIの分野は技術進歩が活発でシラバスは頻繁に変更されている（言い訳）。

以下は、1.0-1.1で出題範囲から削除された項目だが、
認定プログラムによっては教材から削除していない。

【応用数学】
　◆線形代数
　　◇特異値分解
【機械学習】
　◆機械学習の基礎
　　◇教師あり学習アルゴリズム
　　◇教師なし学習アルゴリズム
　　◇確率的勾配降下法
【深層学習】
　◆順伝播型ネットワーク
　　◇アーキテクチャの設計
　　◇誤差逆伝搬法およびその他の微分アルゴリズム　※以下のみ
　　　・全結合 MLP での誤差逆伝搬法
　◆深層モデルのための最適化
　　◇基本的なアルゴリズム　※以下のみ
　　　・ネステロフのモメンタム
　◆畳み込みネットワーク
　　◇構造出力
　　◇データの種類
　　◇効率的な畳み込みアルゴリズム
　◆回帰結合型ニューラルネットワークと再帰的ネットワーク
　　◇回帰結合型のニューラルネットワーク　※以下のみ
　　　・教師強制と出力回帰のあるネットワーク
　　　・有向グラフィカルモデルとしての回帰結合型のネットワーク
　　　・RNNを使った文脈で条件付けされた系列モデリング
　　◇深層回帰結合型のネットワーク
　　◇再帰型ニューラルネットワーク
　　◇複数時間スケールのための Leaky ユニットとその他の手法　※以下のみ
　　　・時間方向にスキップ接続を追加
　　　・接続の削除
　◆深層学習の適応方法
　　◇画像認識
　　　・VGG

※ 個人的には、以下の理由で数学的項目は今後も減って行くと思う。

上位スタックも膨らんできているので下位スタックに時間を割けなくなっている。
説明が成立していないこと。行間があり過ぎて説明しきれていないモノが多い。
実務、業務と繋がりが少ない。下位スタック開発に対する諦め。

↑

詳細 †

↑

数学的基礎 †

シラバスにはない。

↑

応用数学 †

出題量内訳 10%
約9割正解が目標

シラバス2022では以下のみ。

確率・統計
- 一般的な確率分布
  ・ベルヌーイ分布
  ・多項分布
  ・ガウス分布

ベイズ則

情報理論
- 情報理論
  ・情報量

↑

特異値分解 †

線形代数からの唯一の項も削除されたので線形代数の出題はナシ。

↑

確率統計・ベイズ則 †

確率統計（ベイズ統計）
同時確率と条件付き確率、ベイズの定理

↑

一般的な確率分布 †

期待値（連続、離散）、分散、共分散

↑

機械学習・情報理論 †

自己情報量
エントロピー、平均情報量、シャノン・エントロピー
ダイバージェンス、相対エントロピー、KLダイバージェンス、KL情報量

↑

機械学習 †

出題量内訳 35%
約9割正解が目標

↑

機械学習の概観 †

↑

機械学習の最適化 †

機械学習の最適化とは「経験損失最小化」で純粋な最適化とは異なる。

本来は訓練データではなくデータ集合全体
真のデータ分布を訓練データ集合の分布に置き換え損失関数の最小化にすり替える。
実用的な損失関数は簡単に最適化できないものもある。
このため最適化が容易な代理損失関数を最適化する。
早期終了があるという点でも一般的な最適化と異なる。

↑

学習上の課題点 †

↑

深層学習（DNN） †

深層学習（DNN、CNN、RNN）合わせて

出題量内訳 50%
約5割正解が目標

↑

活性化関数 †

↑

損失関数（誤差関数） †

cross_entropyの実装にパターンあるけどコレ同じなの？

パターン１
```
return -np.sum(tk * np.log(yk + 1e-7))
```

パターン２
上記を平均にしている。

return - np.sum(t * np.log(y + 1e-8)) / y.shape[0]

パターン３
調べるとsigmoidの場合はコレらしい。なおmeanは平均。
```
return np.mean(-y*np.log(p)-(1-y)*np.log(1-p))
```

↑

誤差逆伝播法 †

↑

バッチサイズの影響 †

適切なバッチサイズを選ぶことが、学習を上手く行うために必要になる。

ミニバッチの概要
- 平均を取って誤差逆伝播する。
- ミニバッチがランダムにサンプリングされている限り、
  ミニバッチから平均として算出された損失の勾配が真の勾配に従う。

ミニバッチの影響
- 大きくした場合
  - 大まかな特徴を捉えるため精度は下がる。
  - パラメータの更新が少ないため計算コストは下がる。

小さくした場合
- 精度は上がる。小さすぎると学習が終了しない可能性がある。
- １件毎に誤差逆伝播処理するため計算回数＝コストは上がる。

その他注意点
- GPU を用いて計算する際は、2 のべき乗にバッチサイズを設定する。
- バイアスがかからないようにミニバッチはランダムに選ぶ。

CNNでの学習例
バッチサイズ500のままエポック数を増やせばより良い精度が出ると考えられる。

バッチサイズ5
- そもそも学習が上手くできていない。
- 1つ1つのデータに敏感に反応し過ぎて学習が難しい。

バッチサイズ50
- 初めは順調に学習が進む。
- 途中から過学習を起こす。

バッチサイズ500
- 過学習を起こすことなく順調に学習が進むが、
- パラメタ更新回数が少ないため、学習は途中

※loss（損失）とacc（正解率）の進捗を確認する。

↑

損失関数上の地形 †

ほとんどの最適化アルゴリズムは、
正確な勾配やヘッセ行列を前提としている

ヘッセ行列の悪条件

ヘッセ行列
関数の二階偏導関数全体が作る正方行列で対称行列
・固有値の符号をみることにより極小点や凸性の判定を行える。
・固有値が全て正であれば、凸関数になるので大域解が求まることを保証できる。

悪条件
（どういう状況？視覚的に解り難いが？）
・学習毎に勾配は大きくなるが誤差は下がる。
・パラメタの小さな更新が、損失コストの値を大きく増やす。

鞍点
- ある方向から見ると極小値であるが、別の方向から見ると極大値になる点。
- 鞍点の数はパラメタの数に対して指数関数的に増加するのでディープラーニングの場合は非常に多く存在する｡

平地
ほぼ水平な領域
- 勾配が0となるような平地領域ではSGDで学習が進まなくなる｡
- MomentumSGDなどの慣性を用いた最適化アルゴリズムで解決を図る｡

崖
ほぼ垂直な領域
- 勾配が急すぎて（勾配爆発を起こし）、パラメタが遠くに吹っ飛ぶ。
- 同じ値の掛け算が繰り返し行われる場合に発生
- RNNなどで多く現れ、長期依存性が現れるのもこの地形が原因｡
- 勾配の大きさに上限を設ける勾配クリッピングが有効｡

ノイズやバイアス
- ノイズやバイアスが加わった場合、勾配が滑らかにならずギザギザした形になる｡
- これを回避するためには､損失関数をより平坦な代理損失関数で代用する｡

見せかけの最適化を防ぐアルゴリズム
- SGD (MomentumSGD, NAG)
- AdaGrad?
- Rmsprop
- AdaDelta?
- Adam

勾配降下のプログラム実装
- 重み更新は勾配の引き算：Θ = Θ - 勾配
- ミニバッチでは損失をΣしたものをサイズで割って平均を取る。
- この値に学習率（0.01などの値）を掛ける。
- 個別のアルゴリズムの実装は数式より想像できる。

↑

重みの初期値戦略 †

学習結果はこの初期値に大きく影響される。
収束する・しないや、収束の質に影響する。

すべての重みを同じ値で初期化すると、学習が進行しない。
- 「対称性の破れ」問題と言う。
- すべてのノードが同じ出力を生成し同じ勾配で更新されるため（？）。
- ランダムな初期値を設定することで、各ノードが異なる特徴を学習する。

初期値の大小

初期の重みが大きいほど
・「対称性の破れ」は大きくなる。
・逆伝播の際に信号がうまく伝達する。
・大きすぎると値が爆発する恐れがある。

初期の重みが小さいほど
・「対称性の破れ」は小さくなる。
・逆伝播の際に信号が消失する恐れがある。
・正則化の観点からは重みは小さい方が望ましい。

一般的には
- 重み：ガウス分布や一様分布に従うランダムな初期化
- バイアス：経験則に選択された定数

経験則に基づく重みの決め方
入出力層の数で標準偏差を決めてサンプリング
m 個の入力に対してn個の出力があるような全結合層の重みを初期化するとき、

Xavierの初期値、HEの初期値
一様分布 (−√(1/m),√(1/m))からサンプリング
正規化を施した一様分布 (−√(6/(m+n)),1√(6/(m+n)))からサンプリング

その他の重みの決め方
- スパース初期化
- スケーリング係数gを用いてランダムに直交行列を初期化

重みの初期化の抱える課題
- 最適な重みの初期化基準を採択してもモデル性能の最適に繋がらない事が多い。
  - そもそも採択している基準が間違っている可能性
  - 初期化の時に導入された性質が学習の過程で消えてしまう可能性
  - 最適化は速くなっても汎化誤差が意図せずに大きくなってしまう可能性
- そのため、初期化はモデルの性質をよく見極めた上で戦略的に行うのが有効。

↑

過学習対策＝汎化性能向上 †

データ正規化
機械学習と同様の正則化
早期終了（early stopping）
ドロップアウト（Dropout）

バッチ正規化
重みの初期値戦略より汎用的で内部共変量シフトを防ぐ。
- ミニバッチにまたがって平均・分散を求める。
- バッチサイズが小さいとバラつきが大きくなり学習が不安定になる。

↑

Few / One / Zero-Shot †

一般的なFew / One / Zero-Shot learningの説明

Few / One-Shot Learning
転移学習の際には、1つのラベル付き事例があれば、
特徴空間上で周辺のラベルを推論するのに十分

Zero-Shot Learning
- 画像を学習していなくてもテキストの知識があれば認識可能。
- 例えば猫は4本の足と尖った耳を持つというテキストから画像が猫であると推測。

GPT-3におけるFew / One / Zero-Shotの説明

↑

その他 †

（特徴）表現学習
タスクの実行に有用な特徴表現を自動で学ぶ手法、DNN等の機能の事。

学習済みモデルに手を加える。
- 転移学習
- ファイン・チューニング

スパース表現
- L1正則化
- ドロップアウト（Dropout）

距離学習
- Contrastive loss
  L = 1/2(yd^2 + (1−y) max(m−d, 0)^2)
- Triplet Loss
  L = max{0, m + dp − dn}

Grad-CAM
- 入力画像のどのような場所に注目しているかを可視化する技術
- モデルがある画像においてどのピクセルに着目してクラス分類したのか調べる

解釈可能なAI、eXplainable AI、XAI（LIME、SHAP）

↑

深層学習（CNN） †

↑

畳み込み †

↑

プーリング †

↑

データ集合の拡張 †

TensorFlow・KerasではOpenCVで実装
PyTorchではtorchvisionで実装

↑

CNNにおける正規化 †

画像データの正規化

バッチサイズに依存しないバッチ正規化手法

レイヤー正規化
- 複数ニューロン（CNNではチャネル）に跨って平均・分散を取る。
- オンライン学習やRNNへの拡張が可能

インスタンス正規化
- 各チャネル独立に画像の縦or横方向についてのみ平均・分散を取る。
- 元画像のコントラストに依存しないで学習できるためスタイル変換などの画像認識分野で使われる。

グループ正規化
チャネルをG個にグルーピングしレイヤー・インスタンス正規化の中間的な処理を行う。

↑

ライブラリ実装 †

画像の変換

im2col

def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """
    Parameters
    ----------
    input_data : (データ数, チャンネル, 高さ, 幅)の4次元配列からなる入力データ
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド
    pad : パディング
    
    Returns
    -------
    col : 2次元配列
    """
    
    N, C, H, W = input_data.shape
    
    # 何気に割り算は[//]なんだな。
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1
    # 画像をパティングして取り出す、
    # 第1引数には元データ、第2引数には前・後の文字詰め量、第2引数のconstantは0埋め
    # ちなみに、第2引数はinput_dataの[高さ, 幅]の(上or前, 下or後)の部分以外を0指定。
    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    # 2次元配列の意味だろうか？
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))
    # フィルターに対応する入力データの要素を抽出
    for y in range(filter_h):
        # 最大値はOHを使って逆算
        y_max = y + stride*out_h
        for x in range(filter_w):
            # 最大値はOWを使って逆算
            x_max = x + stride*out_w
            # N, CH, H, F
            # ↓
            # N, CH, FH, FW, OH, OW
            # a:b:c の指定はa～b-1までcステップずつと言う実装で、
            # フィルターの[y, x要素]に対応する入力データの要素を抽出
            # 各フィルタが適用される要素、1回目は左上...右上...左下...n回目は右下で、
            # 1回のステップで取得される要素数は特徴マップのサイズと等しくなる。
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]
            
    # 絵的にイメージ困難だが並びを替えて
    # N, CH, FH, FW, OH, OW
    # ↓
    # N, OH, OW, CH, FH, FW
    # 行数を指定して、行列に展開すれば意図した出力になる。
    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

col2im（逆伝播で使うらしい
```
...
```

フィルタの変換

順伝播

# Wは  (フィルタ数, チャンネル, 高さ, 幅)の4次元配列からなるデータ
# フィルタ毎、「チャンネル, 高さ, 幅」の行ベクトルに展開後に列ベクトルに転置する。
col_W = self.W.reshape(FN, -1).T

逆伝播？
```
...
```

↑

深層学習（RNN） †

↑

RNNの内容 †

↑

長期依存性の課題 †

↑

Sequence-to-Sequence †

↑

RNNの実装 †

↑

双方向 RNN †

↑

Encoder-Decoder †

↑

ゲート付きRNN(LSTM) †

↑

ゲート付きRNN(GRU) †

↑

分野別 †

↑

画像処理 †

↑

言語処理 †

ベクトル化 NLPモデル

↑

音声処理 †

↑

開発・運用環境 †

出題量内訳 5%
約9割正解が目標

↑

MobileNet? †

スマホ用CNNで、ボトルネックの畳み込みの分割で計算量を減らす。

CNNはパラメタ数が多過ぎるのでパラメタ数削減を考える。

空間方向とチャネル方向の畳み込みを別々に行いパラメタの数を減らす。
- 各チャネルを独立に畳み込み、チャネル方向を大きさ1のカーネルを用いて畳み込み。
- パラメタ数 = FH*FW*FN*CH → = FH*FW*CH + 1*1*CH*FN = FH*FW*CH + CH*FN

↑

モデルの軽量化 †

プルーニング

計算を高速化する手法

学習後、ニューラルネットワークの
- レイヤー間の繋がりを切り、
- （重要度の低い重みの一部を0にする（疎行列化する）ことでノードを削減し）
- パラメタ（エッジとノード）数を削減

パラメタ削減後、再学習して精度を保つ。

2種類のアプローチ

ニューロン単位でニューロン毎の重要度に基づきニューロンを削減
・L2正則化を加えて学習後に、絶対値が小さい重みを0にする。
・CNNでは難しい（ニューロン削減後も構造保持が必要）。

チャネル単位でチャネルを生成するフィルタ単位で削減
・各層のフィルタの重みの絶対値の総和が小さいものから各層の削減率分、削減
・以下にチャネル単位のプルーニングの代表的な２つのモデル
　・Network Slimming：各チャネルの出力を scaling する変数γを導入し、学習後、γ値が小さいチャネルを削減
　・Channel Pruning と ThiNet?：特徴マップの誤差が最小となるチャネルを削除。

蒸留

概要
- 計算リソースを軽量化し精度も向上するモデル圧縮の1つ。
- 一度訓練した大規模なモデルが得た知識を別の軽量なモデルに継承する。

詳細
- 教師モデルの推論結果を生徒モデルの訓練データに使用することで汎化した性能を示す。
  ・soft target loss（教師モデルの推論結果との差）
  ・soft target loss（教師モデルの推論結果との差）＆ hard target loss（教師データとの差）

敵対的攻撃に対して頑健なモデルが得られるという性質がある。

データ拡張して教師モデルに入力、アンサンブル（平均）した結果を
生徒モデルの訓練データに使用すれば、精度向上を図る事ができる。
（半教師あり学習と異なりラベルなしデータ活用の意図はない。）

量子化
例えばLLMのBERTでは、600MBぐらいがパラメタになる…モバイルやIoTでは難しい。

概要

パラメタの精度に落とすことでモデルサイズを削減
・浮動小数点を64 bit → 32 bit
・深層学習用のBf16（符号：1、指数：8、仮数：7）

量子化すると、
・計算の高速化
・省メモリ化
・精度が下がる。

対象
数値表現されるモノが対象となる。
・パラメタ（重みとバイアス）
・アクティベーション（活性化関数の出力）
・その他、入力値、勾配、エラーなど

代表的な手法

二値化
・BinaryConnect?：パラメタを二値化
・BinaryNet?：パラメタとアクティベーションを二値化
・XNOR-Nets：パラメタとアクティベーション、入力値も二値化

三値化
Ternary Weight Networksなどがあり、-1, 0, 1と0を含んだ値を使える。

それ以外
・DoReFa?-Net
　・ビット長のみハイパー・パラメタ
　・パラメタとアクティベーション、勾配も量子化
・Quantized Neural Networks
　勾配計算も量子化する手法

↑

分散処理 †

GPUを複数用いてより高速な計算を可能にする。

ただ、GPUを2つ用意すれば2倍で計算が可能と言う事ではない。

以下のような工夫が必要になる。
- 同じ精度を出すためのアルゴリズム上の工夫
- ハードウェアと高速にやりとりができるようなシステム構築

分散深層学習の並列化び二つの代表的な手法

データ並列（Data parallel）
- 同じモデル計算の機構を複数のGPU上に構築し、データを分散させて計算し、統合を図る。
- 各GPUにおいて異なるパラメタが訓練されるので、結果を合わせて最終的な学習済みモデルを得る。
- 結果を合わせるモデルの統合方法については、以下の２つが有名。
  ・非同期型更新
  　・勾配計算後、勾配をパラメタ・サーバに送信し平均などの補正済み勾配を受けパラメタ更新。
  　・最後に計算が終わったGPUだけが正しいバッチ・サイズで計算でき全体の精度が落ちる。
  　・新しいモデルのパラメタが古い勾配情報で計算されてしまう恐れがある。
  ・同期型更新
  　・勾配計算後、全ノードの結果を共有し平均などの補正済み勾配を受けパラメタ更新。
  　・バッチ・サイズが一律になるが、待ち時間や、ボトルネックが発生し得る。

モデル並列（Model parallel）
- アーキテクチャ
  ・モデルを幅で分割して、別々のGPUを割り当てる。
  ・モデルを深さで分割して、別々のGPUを割り当てる。
  ・一般的に幅で分割した場合の方が境界超え回数＝通信回数が増える。
- トレードオフ
  ・メリット：正しいバッチ・サイズで計算できる。
  ・デメリット：分割した境界を超える度に通信が発生。

↑

GPU †

↑

Docker †

↑

対策 †

↑

基礎数学 †

↑

logの計算 †

log2 16 = 4、log5 125 = 3みたいな。

掛け算は足し算
```
log ab = log a + log b
```

逆数はマイナス1乗なのでマイナス
```
log 1/a = log a^-1 = - log a
```

↑

expのグラフ †

exp(-∞) ≒ 0
exp(0) ≒ 1
exp(+∞) ≒ ∞

↑

応用数学 †

↑

逆行列 †

Aが2行2列なら、

   ┌a b┐
A =└c d┘

                ┌ d  -b ┐
A^-1 = 1/(ab-cd)└ -c  a ┘

Aが2行2列より大きいなら、
掃き出し法の拡大行列の左側に対角線に1が並ぶように行基本変形すると右側が逆行列になる。

    ┌a b c┐
A = │d e f│
    └g h i┘

┌a b c┐  ┌a b c | 1 0 0┐  ┌1 0 0 | r s t┐
│d e f│→│d e f | 0 1 0│→│0 1 0 | u v w│
└g h i┘  └g h i | 0 0 1┘  └0 0 1 | x y z┘

       ┌r s t┐
A^-1 = │u v w│
       └x y z┘

↑

固有値 †

Aの対角化＝固有ベクトル（A = 𝑉𝛬𝑉^-1、𝛬 = 𝑉^-1A𝑉）
累乗計算が簡単になる式（A^n = 𝑉 𝛬^n 𝑉^-1）に実際値を代入（逆行列）。

↑

特異値 †

特異ベクトル𝑉（右）は、𝑀, 𝑈, 𝑆 が既知なら𝑀 = 𝑈𝑆𝑉^-1を計算して求めることもできる。

↑

期待値（連続、離散）、分散、共分散 †

↑

ベルヌーイ分布の期待値、分散、共分散 †

ベルヌーイ分布を回繰り返したときの分布が二項分布
- ベルヌーイ分布は　　　　　片方の生起確率p　の試行回数1回の分布
- 二項分布はベルヌーイ試行（片方の生起確率p）の試行回数x回の分布

連続型の確率分布の期待値
- P(X) = x/18 (0 ≦ x ≦ 6) , 0 (x < 0, 6 < x)で X が3以下
- ∫0~3 x/18 dx = [x^2/36]0~3 = 9/36-0 = 1/4

↑

情報量 †

細工されたサイコロの出る目の確率分布表
確率変数 X	1	2	3	4	5	6
確率 P	0.5	0.1	0.1	0.1	0.1	0.1
確率変数 Y(X1＝X2)	1
確率 P	0.5*(0.5)=0.25	0.1*(0.1)=0.01
確率変数 Y(X1≠X2)	0
確率 P	0.5*(1-0.5)=0.25	0.1*(1-0.1)=0.09

X=4の情報量
```
log(1 / 0.1) = -log0.1
```

エントロピー（H(X1)）

= - (0.5 * log0.5) - (0.1 * log0.1)*5 = -0.5 * log0.5 - 0.1 * (log0.1)*5

結合エントロピー（H(X1, Y)）

= - {(0.25 * log 0.25)*2 + (0.01 * log 0.01)*5 + (0.09 * log 0.09)*5}

条件付きエントロピー？
```
= H(X1) - H(X1|Y)
```

相互エントロピー？
```
= H(X1) - H(X1|Y)
```

↑

機械学習 †

Deep Learningほど、データ量や計算量を必要としない利点がある。

↑

数学 †

シグモイド関数

の式
```
f(x) = 1/(1+e^-x)
```

を微分した式
```
f'(x) = f(x)(1-f(x))
```

↑

共通 †

データ分割
- ホールド・アウト法
- k分割交差検証法（k-fold Cross-Validation）

損失関数

平均絶対二乗誤差（MAE）
```
= 1/n Σ|tk-yk|^2
      k
```

平均二乗誤差（MSE）
```
= 1/n Σ(tk-yk)^2
      k
```

（RMSE）平均二乗誤差の平方根

平均二乗対数誤差（MSLE）
```
= 1/n Σ(log(yk+1)-log(tk+1))^2
      k
```

（RMSLE）平均二乗対数誤差の平方根

交差エントロピー誤差
```
= -Σ tk log yk
   k
```

勾配降下法の式：
- 損失関数を微分
- 勾配がプラスの場合、重みを「マイナス」する。
- オンラインの場合
- バッチ（最急降下法）の場合、
- ミニバッチ（確率的勾配降下法）の場合、学習サンプルのインデックスのiが付く
- モメンタムに追加される項（＋α（θt－θt-1））とか...符号が謎だし他サイトが別の式だったり。

↑

回帰 †

↑

分類 †

ベイズの定理
```
p(A|B) = p(B|A)p(A) / p(B)
```

生成モデル、識別モデル、識別関数

生成モデル

p(x) = Σ p(x|Ck)p(Ck)
p(Ck|x) = p(x|Ck)p(Ck) / p(x)

識別モデル
```
p(Ck|x)
```

識別関数
```
SVMとかDNNとか？
```

ロジスティック回帰
- 完全分離できない分離問題はある。
  - 線形境界では完全分離できない分離問題など。
  - 新たな特徴量にすると非線形境界で分離できるようになる。

最尤法
- 必要な仮定：独立同分布、互いに独立で同じ分布から取り出される。
- 対数尤度関数は対数の性質から𝒍𝒐𝒈 ∏ 𝒑(𝒙𝒊; 𝜽) => ∑𝒍𝒐𝒈 𝒑(𝒙𝒊; 𝜽)
- 対数尤度関数を偏微分した値が＝０になる。𝜽の点が答え（最小二乗法と≒）。

コチラ

直線上でのSVMの例
```
𝒇(𝒙) = 𝒔𝒊𝒈𝒏(𝒘𝒙 + 𝒃)
```
- 𝒘と𝒃の値
- データセット追加時
- サポート・ベクトルの数

近傍法

特徴
- 学習を必要としない。
- 点の周囲の近くにある他の点を使用して予測や分類を行う機械学習手法の総称
- 近傍法は単純で理解しやすい反面、適切なkの値の選択や計算効率の面で課題がある

種類
- 最近傍法（1-NN）
- k近傍法（k-NN）
- 最適な k の値は交差検証によって決めることができる

kが大きいほど境界線は滑らかでノイズに強くなるが、
- 汎化性能は高くなるとは限らなしい、
- 分類精度も良くなるとは限らない。

例題
- 直線上での近傍法の例
- 平面上でのk-NNで「一個抜き交差検証」する例

↑

主成分分析 †

用途
- 高次元データを低次元化
- 高次元データを可視化
- データの特徴を抽出する

方法
- 分散が一番大きい成分から
- 互いに直交するように選ばれる。
- 主成分はノルム（長さ）が1に正規化される。

特徴
- 複数のサンプルと変量の関係が量的データで与えられた時用いられる。
- データのばらつきが大きくなる部分に着目して、合成変量を抽出ことで変量の相関関係が捉えやすくなる。
- データの分析だけでなく画像圧縮にも使用されることがある。
- 主成分分析は共分散行列を対角化する固有値問題に帰結される。

例題
平面上での主成分分析
- 三角形の比と角度が必要（例題は直角三角形）
- 直行する第二主成分はx or yをマイナスにする。
- 第一主成分へ平面から直線へ射影したときの座標
- この場合、直線を平面に再構成したときの誤差は0%
- 大きく次元削減した空間へ射影するほど再構成誤差は大きくなる。

↑

クラスタリング †

k-means
- アルゴリズムのステップ
- k-means++：中心の初期値の距離が離れるように初期化

例題
- 直線上でのk-means
- 重心は平均値で計算できる。

↑

正則化 †

Ε’(w) = Ε(w) + λR(w)
R(w) ＝ ||x||p ＝ (|x1|p +|x2|p +…+|xn|p) 1/p
λが大きいほど（R(w)は小さくなり）正則化のペナルティは大きくなる。

L1ノルム
```
∥w∥1=(|w1|^1+|w2|^1+...+|wd|^1)^(1/1) = |w1|+|w2|+...+|wd| =Σ|wi|
```
- L1距離（マンハッタン距離）
- Lasso（ラッソ）回帰（L1正則化）
- ひし形なので w1 or w2 が0の時に最小となる可能性が高い。
- 説明変数を削っても良い時に使用（スパース表現）。

L2ノルム
```
∥w∥2=(|w1|^2+|w2|^2+...+|wd|^2)^(1/2) = √(w1^2+w2^2+...+wd^2) = √(Σwi^2)
```
- L2距離（ユークリッド距離）
- Ridge（リッジ）回帰（L2正則化）
- 円形なので w1 or w2が0の時に最小となる可能性が低い。
- 全ての説明変数を使って過学習を抑えたい時に使用。

↑

深層学習 †

↑

逆伝播 †

↑

学習アルゴリズム †

Adagrad
Momentum
RMSprop

↑

分布云々 †

機械学習と同様の正則化

早期終了（early stopping）

重みの初期値（Xavier、He）

バッチ正規化（Batch Normalization）

ドロップアウト（Dropout）

↑

CNN †

畳み込み

プーリング
- サイズの計算
  - 中心があるフィルタでスライド１の場合
  - サイズ＝スライドで割り切れる場合

プーリングの種類
- MAX
- AVG

↑

RNN †

GRU
LSTM

↑

Python †

↑

1e-7 †

ゼロ除算防止

↑

関数 †

abs（数値の絶対値を計算する）
sqrt（ルート(平方根)を計算する）
mean（データの平均を計算する）
argmin（配列の最小要素のインデックスを返す）
argmax（配列の最大要素のインデックスを返す）

np.random.choice（サイコロ：面、確率、試行回数）

↑

axis †

axis=0：列単位（縦方向）にXX（集計, etc.
axis=1：行単位（横方向）にXX（集計, etc.
axisを指定しない場合、行列単位（縦横方向）≒ 全要素をXX（集計, etc.

↑

内積 †

＠、dot、matmul （違いは？）

↑

アダマール積 †

演算子は「*」になる（RNN）。

↑

k-means法 †

k = 4 #クラスタ数
n = 200 # データ数
data = np.random.randn(n, 2) # 200行2列
# 初期値のcentroidをdataの中からランダムに4 index選択。
centroids = data[np.random.choice(np.arange(n), size=(k,))]

ユークリッド距離（√(a^2 + b^2)）が最小のものを集める。
argmin（配列の最小要素のインデックス（＝クラスタ番号）を返す）を使う。

for 1 in range(10):
  indexes = np.zeros(data.shape[0]) # dataの行数と同じ配列
  for centroid in centroids:
    for i, x in enumerate(data):
      # 最も近いセントロイドのindex番号をindexesに入れる。
      indexes[i] = np.argmin(np.sum((x - centroids) ** 2, axis=1))

当該クラスタに属する点の重心を計算する。
mean（データの平均を求める）を使う。

# セントロイドを再計算した重心に更新する。
for i in range(k):
  centroids[i] = data[indexes==i].mean(axis=0)

k-means++：中心の初期値の距離が離れるように初期化

for i in range(k):
  # probabilitiesの確率にしたがってセントロイドとなる点をdataから選ぶ。
  centroids[i] = data[np.random.choice(np.arange(n), p=probabilities, size=(1))]
  # data centroidsの距離の二乗をとる。
  distances[:, i] = np.sum((data centroids[i]) ** 2, axis=1)
  # probabilitiesを0から1の値に正規化する。
  probabilities = np.sum(distances, axis=1) / np.sum(distances)

↑

逆伝播 †

アフィン変換ノード

順伝播

def forward(self, x):
  self.x = x
  return np.dot(x, self.params["w"]) + self.params["b"]

逆伝播

def backward(self, dout):
  self.grads["w"] = np.dot(self.x.T, dout)
  self.grads["b"] = np.sum(dout, axis=0)
  return np.dot(dout, self.params["w"].T)

ReLUノード
maskは比較演算での当該項目のみ抽出

順伝播
0以下の場合は0、0以上の場合はX（そのまま）

def forward(self, x):
  self.mask = (x <= 0)
  out = x.copy()
  out[self.mask] = 0
  return out

逆伝播
0以上の場合は0、0以上の場合は1*dout（そのまま）
```
def backward(self, dout):
  dout[self.mask] = 0
  dx = dout
  return dx
```

正則化

L1正則化の勾配には以下L1正則化項の勾配を足す。
```
λ⋅sign(W)
```

L2正則化の勾配には以下L2正則化項の勾配を足す。
```
λ⋅W
```

↑

学習アルゴリズム †

AdaGrad?
- 各パラメタの要素毎に学習率を調整することで学習を行う。
- 各要素の学習率を決めるために変数を導入し、ここでhとする。
- このhを勾配の絶対値によって学習率を調整する。
  - 勾配が大きい場合、更新量を小さくし
  - 勾配が小さい場合、更新量を大きくする。
```
for key in params.keys():
  self.h[key] += grads [key] * grads [key]
  params[key] -= self.lr * grads[key] * (1/np.sqrt(self.h [key] + 1e-7))
```

Momentum
パラメタの更新に過去の勾配も用いる。

for key in params.keys():
  self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
  params[key] += self.v[key]

RMSprop
- AdaGrad?の更新をしばらく行っていくと更新量が0に近づいていきパラメタ更新を行うことができなくなる。
- RMSpropではAdaGrad?に加えて、時間が経過するほど更新幅が小さくなるようにするdecayを用いて学習率が計算。
```
for key in params.keys():
  self.h[key] *= self.decay_rate
  self.h[key] += (1 - self.decay_rate) * (grads [key] ** 2)
  params [key] -= self.lr * grads [key] / (np.sqrt(self.h[key]) + 1e-7)
```

↑

参考 †

E資格道場
https://e-shikaku-doujou.com/

【JDLA E資格2023#2】受験の振り返り - Goodな生活
https://www.goodnalife.com/entry/2023/08/30/082816

↑

認定プログラム †

金額が易いプログラムはそれなり。

↑

認定プログラム事業者 †

↑

AI研究所 †

E資格の過去問はあるの？E資格の過去問状況や難易度と試験対策の方法まとめ
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-kakomon/
E資格の難易度は高い？理由や原因から難易度の対策方法を知ろう
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-nanido/
E資格のおすすめ参考書5選！E資格を勉強するなら参考書を上手に使え！
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-sankousyo/
E資格のシラバスが2022年8月度より大きく改定！新シラバスの変更点を徹底解説
https://ai-kenkyujo.com/certification/e-shikaku/ai-eshikaku-syllabus/

↑