E資格：試験対策のバックアップ(No.51)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- G検定：試験対策
- E資格：試験対策

目次 †

目次
概要
詳細
対策
参考

↑

概要 †

↑

実施概要 †

↑

試験対策 †

↑

G検定と異なる点 †

試験はCBTでありググれないので暗記が必要な所は暗記が必要になる。
数学的なバックグラウンド（理解）を持っていないと、学習に時間がかかる。
（が、高校数学までの数学知識の一部とされ、駅弁工学部化学科レベルでも理解可能ではある、一説によると文系でもなんとなかる）

範囲はG検定より狭いが深い。
- 故に体積的にはE資格の方が大きく、且つ、難易度は高い印象。
- 実務で使用しない数学的理解やライブラリ内部の実装も問われる。
- 更に高難易度の問が多いので、対策以前の勉強自体も想定問題が中心になる。
- そもそも、シラバスの体系を網羅的に解説している講座や書籍が存在しない。
- 著名な対策業者書籍の黒本は問題提示後に各問題の解説を行うスタイルになっている。
- （黒本より認定プログラムの方がシラバスに沿った内容になっている）

↑

認定プログラム †

について思う事。

認定プログラムによっては内容が異なると思われ、不安がある。
認定プログラム中の「試験対策」は黒本より内容が圧倒的に薄い。
試験に出ないプログラム実習も長時間あり足切り的な意味もありそう。
（ただし、実務的にはプログラム実習の方が圧倒的に役に立つが）

以下の様な感想がWeb上にあり、所詮は足切り用と言う感もある。
- 値段相応なのか、資料は統一性が無く、突貫でかき集めたような内容。
- 認定プログラムの修了と試験対策は別物と考えた方が良い。
- 認定プログラム終了試験では初見で解ける問題が3割程度という感触だった。
- 認定プログラム修了後に黒本をやったら正答率は5割に届かない壊滅的な理解度だった。
- 認定プログラムは修了できたものの、E資格の黒本をやった結果、
  正答率が4割程度かつ、回答を見ても理解に時間がかかるといった絶望的な状況。

ただし、最近は、黒本からの出題が減り、認定プログラムからの出題が増えているらしい。

↑

黒本 †

について

3・4周やれば十分合格できる。7周で100%に到達するらしい。
1周、20時間程度、後半は3時間程度で1周できるらしい。
その状態で正解率は80-90%弱で合格（合格ライン65%）。

↑

Python †

について

行列演算がキーとなる。axisの方向など。
...

↑

数学には †

ビビらなくて良い。

↑

基礎 †

↑

数式 †

先ず、計算方法を示す数式もあるが、そうでないモノも多い。

また、高校数学では解かないといけないが、解くものでないモノも多い。

数式は自然言語で数行に渡る説明を一目で示したもの。
（リメディアル教育コンテンツでも方程式＝説明）

多くは、プログラム実装の土台となっている数学的な
理論を図示したグランド・デザイン的なモノになっている。

数式の意味が理解できる ≒ 設計を理解できる。
数式の意味が理解できる ≒ プログラムを実装できる。

全体の理解には数式（理論）⇔ 設計図（組立）⇔ プログラム（実装）が必要。
- ただし、それぞれの要素自体の説明には自然言語が必要になる。
- また、それぞれの要素の関連の説明にも自然言語が必要になる。

例えば、im2colで空間的なイメージや実装の理解が困難な場合、
（例えば高次元配列の次元の入換や計算量を減らすためのトリッキーな実装）
自然言語の脚注で対応することになる。

数式の場合は、正則化項、誤差逆伝播法、RNN、LSTMなどの例が解り易い。

...と言う事は、即ち自然言語の説明を読めってことだが、

行間なく自然言語での説明が記述されているコンテンツも少ない。
- （今の所、）数式については認定プログラムの説明は全然ダメ。
- ググって動画やブログを掘り当ててナントカ理解するような状況。

説明が不十分だと試験問題が四択なので暗記＆選択になる感
（役立つのは試験上でダケになるのでオススメしない）
- 計算ができる（その計算、ヤることある？）
- 実装が書ける（その実装、書くことある？）

なお、自分で解読するには以下で行うようだが難易度が高い。
- 特別な値を代入してみる。
- 増減を考える。
- 極限を考える。

↑

知識 or 実装 †

理論やアルゴリズムなどに関する知識であり、
実装スキルはそれほど無くても合格できる。

実装に関する問題も四択なので対策可能。

↑

注意事項 †

AIの分野は技術進歩が活発でシラバスは頻繁に変更されている（言い訳）。

以下は、1.0-1.1で出題範囲から削除された項目だが、
認定プログラムによっては教材から削除していない。

【応用数学】
　◆線形代数
　　◇特異値分解
【機械学習】
　◆機械学習の基礎
　　◇教師あり学習アルゴリズム
　　◇教師なし学習アルゴリズム
　　◇確率的勾配降下法
【深層学習】
　◆順伝播型ネットワーク
　　◇アーキテクチャの設計
　　◇誤差逆伝搬法およびその他の微分アルゴリズム　※以下のみ
　　　・全結合 MLP での誤差逆伝搬法
　◆深層モデルのための最適化
　　◇基本的なアルゴリズム　※以下のみ
　　　・ネステロフのモメンタム
　◆畳み込みネットワーク
　　◇構造出力
　　◇データの種類
　　◇効率的な畳み込みアルゴリズム
　◆回帰結合型ニューラルネットワークと再帰的ネットワーク
　　◇回帰結合型のニューラルネットワーク　※以下のみ
　　　・教師強制と出力回帰のあるネットワーク
　　　・有向グラフィカルモデルとしての回帰結合型のネットワーク
　　　・RNNを使った文脈で条件付けされた系列モデリング
　　◇深層回帰結合型のネットワーク
　　◇再帰型ニューラルネットワーク
　　◇複数時間スケールのための Leaky ユニットとその他の手法　※以下のみ
　　　・時間方向にスキップ接続を追加
　　　・接続の削除
　◆深層学習の適応方法
　　◇画像認識
　　　・VGG

※ 個人的には、以下の理由で数学的項目は今後も減って行くと思う。

上位スタックも膨らんできているので下位スタックに時間を割けなくなっている。
説明が成立していないこと。行間があり過ぎて説明しきれていないモノが多い。
実務、業務と繋がりが少ない。下位スタック開発に対する諦め。

↑

詳細 †

↑

数学的基礎 †

シラバスにはない。

↑

応用数学 †

出題量内訳 10%
約9割正解が目標

シラバス2022では以下のみ。

確率・統計
- 一般的な確率分布
  ・ベルヌーイ分布
  ・多項分布
  ・ガウス分布

ベイズ則

情報理論
- 情報理論
  ・情報量

↑

特異値分解 †

線形代数からの唯一の項も削除されたので線形代数の出題はナシ。

↑

確率統計・ベイズ則 †

確率統計（ベイズ統計）
同時確率と条件付き確率、ベイズの定理

↑

一般的な確率分布 †

期待値（連続、離散）、
分散、共分散

確率分布
- ベルヌーイ分布
- 正規分布（ガウス分布）

↑

機械学習・情報理論 †

自己情報量
エントロピー、平均情報量、シャノン・エントロピー
ダイバージェンス、相対エントロピー、KLダイバージェンス、KL情報量

↑

機械学習 †

出題量内訳 35%
約9割正解が目標

↑

機械学習の概観 †

↑

機械学習の最適化 †

機械学習の最適化とは「経験損失最小化」で純粋な最適化とは異なる。

本来は訓練データではなくデータ集合全体
真のデータ分布を訓練データ集合の分布に置き換え損失関数の最小化にすり替える。
実用的な損失関数は簡単に最適化できないものもある。
このため最適化が容易な代理損失関数を最適化する。
早期終了があるという点でも一般的な最適化と異なる。

↑

学習上の課題点 †

↑

深層学習（DNN） †

深層学習（DNN、CNN、RNN）合わせて

出題量内訳 50%
約5割正解が目標

↑

活性化関数 †

↑

損失関数（誤差関数） †

cross_entropyの実装にパターンあるけどコレ同じなの？

パターン１
```
return -np.sum(tk * np.log(yk + 1e-7))
```

パターン２
上記を平均にしている。

return - np.sum(t * np.log(y + 1e-8)) / y.shape[0]

パターン３
調べるとsigmoidの場合はコレらしい。なおmeanは平均。
```
return np.mean(-y*np.log(p)-(1-y)*np.log(1-p))
```

↑

誤差逆伝播法 †

↑

バッチサイズの影響 †

適切なバッチサイズを選ぶことが、学習を上手く行うために必要になる。

ミニバッチの概要
- 平均を取って誤差逆伝播する。
- ミニバッチがランダムにサンプリングされている限り、
  ミニバッチから平均として算出された損失の勾配が真の勾配に従う。

ミニバッチの影響
- 大きくした場合
  - 大まかな特徴を捉えるため精度は下がる。
  - パラメータの更新が少ないため計算コストは下がる。

小さくした場合
- 精度は上がる。小さすぎると学習が終了しない可能性がある。
- １件毎に誤差逆伝播処理するため計算回数＝コストは上がる。

その他注意点
- GPU を用いて計算する際は、2 のべき乗にバッチサイズを設定する。
- バイアスがかからないようにミニバッチはランダムに選ぶ。

CNNでの学習例
バッチサイズ500のままエポック数を増やせばより良い精度が出ると考えられる。

バッチサイズ5
- そもそも学習が上手くできていない。
- 1つ1つのデータに敏感に反応し過ぎて学習が難しい。

バッチサイズ50
- 初めは順調に学習が進む。
- 途中から過学習を起こす。

バッチサイズ500
- 過学習を起こすことなく順調に学習が進むが、
- パラメタ更新回数が少ないため、学習は途中

※loss（損失）とacc（正解率）の進捗を確認する。

↑

損失関数上の地形 †

ほとんどの最適化アルゴリズムは、
正確な勾配やヘッセ行列を前提としている

ヘッセ行列の悪条件

ヘッセ行列
関数の二階偏導関数全体が作る正方行列で対称行列
・固有値の符号をみることにより極小点や凸性の判定を行える。
・固有値が全て正であれば、凸関数になるので大域解が求まることを保証できる。

悪条件
（どういう状況？視覚的に解り難いが？）
・学習毎に勾配は大きくなるが誤差は下がる。
・パラメタの小さな更新が、損失コストの値を大きく増やす。

鞍点
- ある方向から見ると極小値であるが、別の方向から見ると極大値になる点。
- 鞍点の数はパラメタの数に対して指数関数的に増加するのでディープラーニングの場合は非常に多く存在する｡

平地
ほぼ水平な領域
- 勾配が0となるような平地領域ではSGDで学習が進まなくなる｡
- MomentumSGDなどの慣性を用いた最適化アルゴリズムで解決を図る｡

崖
ほぼ垂直な領域
- 勾配が急すぎて（勾配爆発を起こし）、パラメタが遠くに吹っ飛ぶ。
- 同じ値の掛け算が繰り返し行われる場合に発生
- RNNなどで多く現れ、長期依存性が現れるのもこの地形が原因｡
- 勾配の大きさに上限を設ける勾配クリッピングが有効｡

ノイズやバイアス
- ノイズやバイアスが加わった場合、勾配が滑らかにならずギザギザした形になる｡
- これを回避するためには､損失関数をより平坦な代理損失関数で代用する｡

見せかけの最適化を防ぐアルゴリズム
- SGD (MomentumSGD, NAG)
- AdaGrad?
- Rmsprop
- AdaDelta?
- Adam

勾配降下のプログラム実装
- 重み更新は勾配の引き算：Θ = Θ - 勾配
- ミニバッチでは損失をΣしたものをサイズで割って平均を取る。
- この値に学習率（0.01などの値）を掛ける。
- 個別のアルゴリズムの実装は数式より想像できる。

↑

重みの初期値戦略 †

学習結果はこの初期値に大きく影響される。
収束する・しないや、収束の質に影響する。

すべての重みを同じ値で初期化すると、学習が進行しない。
- 「対称性の破れ」問題と言う。
- すべてのノードが同じ出力を生成し同じ勾配で更新されるため（？）。
- ランダムな初期値を設定することで、各ノードが異なる特徴を学習する。

初期値の大小

初期の重みが大きいほど
・「対称性の破れ」は大きくなる。
・逆伝播の際に信号がうまく伝達する。
・大きすぎると値が爆発する恐れがある。

初期の重みが小さいほど
・「対称性の破れ」は小さくなる。
・逆伝播の際に信号が消失する恐れがある。
・正則化の観点からは重みは小さい方が望ましい。

一般的には
- 重み：ガウス分布や一様分布に従うランダムな初期化
- バイアス：経験則に選択された定数

経験則に基づく重みの決め方
入出力層の数で標準偏差を決めてサンプリング
m 個の入力に対してn個の出力があるような全結合層の重みを初期化するとき、

Xavierの初期値、HEの初期値
一様分布 (−√(1/m),√(1/m))からサンプリング
正規化を施した一様分布 (−√(6/(m+n)),1√(6/(m+n)))からサンプリング

その他の重みの決め方
- スパース初期化
- スケーリング係数gを用いてランダムに直交行列を初期化

重みの初期化の抱える課題
- 最適な重みの初期化基準を採択してもモデル性能の最適に繋がらない事が多い。
  - そもそも採択している基準が間違っている可能性
  - 初期化の時に導入された性質が学習の過程で消えてしまう可能性
  - 最適化は速くなっても汎化誤差が意図せずに大きくなってしまう可能性
- そのため、初期化はモデルの性質をよく見極めた上で戦略的に行うのが有効。

↑

過学習対策＝汎化性能向上 †

データ正規化
機械学習と同様の正則化
早期終了（early stopping）
ドロップアウト（Dropout）

バッチ正規化
重みの初期値戦略より汎用的で内部共変量シフトを防ぐ。
- ミニバッチにまたがって平均・分散を求める。
- バッチサイズが小さいとバラつきが大きくなり学習が不安定になる。

↑

Few / One / Zero-Shot †

一般的なFew / One / Zero-Shot learningの説明

Few / One-Shot Learning
転移学習の際には、1つのラベル付き事例があれば、
特徴空間上で周辺のラベルを推論するのに十分

Zero-Shot Learning
- 画像を学習していなくてもテキストの知識があれば認識可能。
- 例えば猫は4本の足と尖った耳を持つというテキストから画像が猫であると推測。

GPT-3におけるFew / One / Zero-Shotの説明

↑

その他 †

（特徴）表現学習
タスクの実行に有用な特徴表現を自動で学ぶ手法、DNN等の機能の事。

学習済みモデルに手を加える。
- 転移学習
- ファイン・チューニング

スパース表現
- L1正則化
- ドロップアウト（Dropout）

解釈可能なAI、eXplainable AI、XAI（LIME、SHAP）、Grad-CAM

↑

深層学習（CNN） †

↑

畳み込み †

↑

プーリング †

↑

データ集合の拡張 †

TensorFlow・KerasではOpenCVで実装
PyTorchではtorchvisionで実装

↑

CNNにおける正規化 †

画像データの正規化

バッチサイズに依存しないバッチ正規化手法

レイヤー正規化
- 複数ニューロン（CNNではチャネル）に跨って平均・分散を取る。
- オンライン学習やRNNへの拡張が可能

インスタンス正規化
- 各チャネル独立に画像の縦or横方向についてのみ平均・分散を取る。
- 元画像のコントラストに依存しないで学習できるためスタイル変換などの画像認識分野で使われる。

グループ正規化
チャネルをG個にグルーピングしレイヤー・インスタンス正規化の中間的な処理を行う。

↑

ライブラリ実装 †

画像の変換

im2col

def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """
    Parameters
    ----------
    input_data : (データ数, チャンネル, 高さ, 幅)の4次元配列からなる入力データ
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド
    pad : パディング
    
    Returns
    -------
    col : 2次元配列
    """
    
    N, C, H, W = input_data.shape
    
    # 何気に割り算は[//]なんだな。
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1
    # 画像をパティングして取り出す、
    # 第1引数には元データ、第2引数には前・後の文字詰め量、第2引数のconstantは0埋め
    # ちなみに、第2引数はinput_dataの[高さ, 幅]の(上or前, 下or後)の部分以外を0指定。
    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    # 2次元配列の意味だろうか？
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))
    # フィルターに対応する入力データの要素を抽出
    for y in range(filter_h):
        # 最大値はOHを使って逆算
        y_max = y + stride*out_h
        for x in range(filter_w):
            # 最大値はOWを使って逆算
            x_max = x + stride*out_w
            # N, CH, H, F
            # ↓
            # N, CH, FH, FW, OH, OW
            # a:b:c の指定はa～b-1までcステップずつと言う実装で、
            # フィルターの[y, x要素]に対応する入力データの要素を抽出する。
            # 例えば2*2フィルタが適用される場合、1回目左上、2回目右上、3回目左下、4回目右下で、
            # 1回のステップで取得される要素数は特徴マップ数と等しくなる。
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]
            
    # 絵的にイメージ困難だが並びを替えて
    # N, CH, FH, FW, OH, OW
    # ↓
    # N, OH, OW, CH, FH, FW
    # 行数を指定して、行列に展開すれば意図した出力になる。
    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

col2im（逆伝播で使うらしい
```
...
```

フィルタの変換

順伝播

# Wは  (フィルタ数, チャンネル, 高さ, 幅)の4次元配列からなるデータ
# フィルタ毎、「チャンネル, 高さ, 幅」の行ベクトルに展開後に列ベクトルに転置する。
col_W = self.W.reshape(FN, -1).T

逆伝播？
```
...
```

↑

深層学習（RNN） †

↑

RNNの内容 †

↑

長期依存性の課題 †

↑

Sequence-to-Sequence †

↑

RNNの実装 †

↑

双方向 RNN †

↑

Encoder-Decoder †

↑

ゲート付きRNN(LSTM) †

↑

ゲート付きRNN(GRU) †

↑

分野別 †

↑

画像処理 †

↑

言語処理 †

ベクトル化 NLPモデル

↑

音声処理 †

↑

開発・運用環境 †

出題量内訳 5%
約9割正解が目標

↑

MobileNet? †

スマホ用CNNで、ボトルネックの畳み込みの分割で計算量を減らす。

CNNはパラメタ数が多過ぎるのでパラメタ数削減を考える。

空間方向とチャネル方向の畳み込みを別々に行いパラメタの数を減らす。
- 各チャネルを独立に畳み込み、チャネル方向を大きさ1のカーネルを用いて畳み込み。
- パラメタ数 = FH*FW*FN*CH → = FH*FW*CH + 1*1*CH*FN = FH*FW*CH + CH*FN

↑

モデルの軽量化 †

プルーニング

計算を高速化する手法

学習後、ニューラルネットワークの
- レイヤー間の繋がりを切り、
- （重要度の低い重みの一部を0にする（疎行列化する）ことでノードを削減し）
- パラメタ（エッジとノード）数を削減

パラメタ削減後、再学習して精度を保つ。

2種類のアプローチ

ニューロン単位でニューロン毎の重要度に基づきニューロンを削減
・L2正則化を加えて学習後に、絶対値が小さい重みを0にする。
・CNNでは難しい（ニューロン削減後も構造保持が必要）。

チャネル単位でチャネルを生成するフィルタ単位で削減
・各層のフィルタの重みの絶対値の総和が小さいものから各層の削減率分、削減
・以下にチャネル単位のプルーニングの代表的な２つのモデル
　・Network Slimming：各チャネルの出力を scaling する変数γを導入し、学習後、γ値が小さいチャネルを削減
　・Channel Pruning と ThiNet?：特徴マップの誤差が最小となるチャネルを削除。

蒸留

概要
- 計算リソースを軽量化し精度も向上するモデル圧縮の1つ。
- 一度訓練した大規模なモデルが得た知識を別の軽量なモデルに継承する。

詳細
- 教師モデルの推論結果を生徒モデルの訓練データに使用することで汎化した性能を示す。
  ・soft target loss（教師モデルの推論結果との差）
  ・soft target loss（教師モデルの推論結果との差）＆ hard target loss（教師データとの差）

敵対的攻撃に対して頑健なモデルが得られるという性質がある。

データ拡張して教師モデルに入力、アンサンブル（平均）した結果を
生徒モデルの訓練データに使用すれば、精度向上を図る事ができる。
（半教師あり学習と異なりラベルなしデータ活用の意図はない。）

量子化
例えばLLMのBERTでは、600MBぐらいがパラメタになる…モバイルやIoTでは難しい。

概要

パラメタの精度に落とすことでモデルサイズを削減
・浮動小数点を64 bit → 32 bit
・深層学習用のBf16（符号：1、指数：8、仮数：7）

量子化すると、
・計算の高速化
・省メモリ化
・精度が下がる。

対象
数値表現されるモノが対象となる。
・パラメタ（重みとバイアス）
・アクティベーション（活性化関数の出力）
・その他、入力値、勾配、エラーなど

代表的な手法

二値化
・BinaryConnect?：パラメタを二値化
・BinaryNet?：パラメタとアクティベーションを二値化
・XNOR-Nets：パラメタとアクティベーション、入力値も二値化

三値化
Ternary Weight Networksなどがあり、-1, 0, 1と0を含んだ値を使える。

それ以外
・DoReFa?-Net
　・ビット長のみハイパー・パラメタ
　・パラメタとアクティベーション、勾配も量子化
・Quantized Neural Networks
　勾配計算も量子化する手法

↑

分散処理 †

GPUを複数用いてより高速な計算を可能にする。

ただ、GPUを2つ用意すれば2倍で計算が可能と言う事ではない。

以下のような工夫が必要になる。
- 同じ精度を出すためのアルゴリズム上の工夫
- ハードウェアと高速にやりとりができるようなシステム構築

分散深層学習の並列化び二つの代表的な手法

データ並列（Data parallel）
- 同じモデル計算の機構を複数のGPU上に構築し、データを分散させて計算し、統合を図る。
- 各GPUにおいて異なるパラメタが訓練されるので、結果を合わせて最終的な学習済みモデルを得る。
- 結果を合わせるモデルの統合方法については、以下の２つが有名。
  ・非同期型更新
  　・勾配計算後、勾配をパラメタ・サーバに送信し平均などの補正済み勾配を受けパラメタ更新。
  　・最後に計算が終わったGPUだけが正しいバッチ・サイズで計算でき全体の精度が落ちる。
  　・新しいモデルのパラメタが古い勾配情報で計算されてしまう恐れがある。
  ・同期型更新
  　・勾配計算後、全ノードの結果を共有し平均などの補正済み勾配を受けパラメタ更新。
  　・バッチ・サイズが一律になるが、待ち時間や、ボトルネックが発生し得る。

モデル並列（Model parallel）
- アーキテクチャ
  ・モデルを幅で分割して、別々のGPUを割り当てる。
  ・モデルを深さで分割して、別々のGPUを割り当てる。
  ・一般的に幅で分割した場合の方が境界超え回数＝通信回数が増える。
- トレードオフ
  ・メリット：正しいバッチ・サイズで計算できる。
  ・デメリット：分割した境界を超える度に通信が発生。

↑

GPU †

↑

Docker †

↑

対策 †

↑

基礎数学 †

↑

logの計算 †

log2 16 = 4、log5 125 = 3みたいな。

掛け算は足し算
```
log ab = log a + log b
```

逆数はマイナス1乗なのでマイナス
```
log 1/a = log a^-1 = - log a
```

↑

logのグラフ †

Y軸から離陸する感じ♨

loga X
- X = 0, loga 0 ≒ -∞
- X = 1, loga 1 = 0
- X = +∞, exp(+∞) ≒ ∞

ちなみに、
- Xがマイナスの場合はY軸に対称移動
- 底が(1/a)の場合はX軸に対称移動

↑

expのグラフ †

X軸から離陸する感じ♨

exp(X)
- X = -∞, exp(-∞) ≒ 0
- X = 0, exp(0) = 1
- X = +∞, exp(+∞) ≒ ∞

↑

√の分数 †

同じに見えない（笑）

2√2/3 = 4/3√2 = 4/√18

↑

応用数学 †

↑

逆行列 †

Aが2行2列なら、

   ┌a b┐
A =└c d┘

                ┌ d  -b ┐
A^-1 = 1/(ab-cd)└ -c  a ┘

Aが2行2列より大きいなら、
掃き出し法の拡大行列の左側に対角線に1が並ぶように行基本変形すると右側が逆行列になる。

    ┌a b c┐
A = │d e f│
    └g h i┘

┌a b c┐  ┌a b c | 1 0 0┐  ┌1 0 0 | r s t┐
│d e f│→│d e f | 0 1 0│→│0 1 0 | u v w│
└g h i┘  └g h i | 0 0 1┘  └0 0 1 | x y z┘

       ┌r s t┐
A^-1 = │u v w│
       └x y z┘

↑

固有値 †

Aの対角化＝固有ベクトル（A = 𝑉𝛬𝑉^-1、𝛬 = 𝑉^-1A𝑉）
累乗計算が簡単になる式（A^n = 𝑉 𝛬^n 𝑉^-1）に実際値を代入（逆行列）。

↑

特異値 †

特異ベクトル𝑉（右）は、𝑀, 𝑈, 𝑆 が既知なら𝑀 = 𝑈𝑆𝑉^-1を計算して求めることもできる。
上記で0ばかりで計算できないこともある。穴埋めなら単位行列の比率だけで答えることができる。
プラス・マイナスが解らないケースが有る。結局、自分で計算するしか無いが...時間内でやるのは無理だな。

↑

情報量 †

細工されたサイコロの出る目の確率分布表

確率変数 X	1	2	3	4	5	6
確率 P	0.5	0.1	0.1	0.1	0.1	0.1
確率変数 Y(X1＝X2)	1
確率 P	0.5*(0.5)=0.25	0.1*(0.1)=0.01
確率変数 Y(X1≠X2)	0
確率 P	0.5*(1-0.5)=0.25	0.1*(1-0.1)=0.09

	確率変数 X		1	2	3	4	5	6
	確率 P		0.5	0.1	0.1	0.1	0.1	0.1
確率変数 Y	0(X1≠X2)	0.5	0.25	0.09	0.09	0.09	0.09	0.09
確率変数 Y	1(X1=X2)	0.5	0.25	00.1	00.1	00.1	00.1	00.1

※ ビットでの回答になる場合は、logの底は2となる。

X=4の情報量
```
log(1 / 0.1) = -log0.1
```

エントロピー（H(X)）

= - (0.5 * log0.5) - (0.1 * log0.1)*5 = -0.5 * log0.5 - 0.1 * (log0.1)*5

エントロピー（H(Y)）
```
= - (0.5 * log0.5)*5
```

結合エントロピー（H(X, Y)）

= - {(0.25 * log 0.25)*2 + (0.01 * log 0.01)*5 + (0.09 * log 0.09)*5}

条件付きエントロピー、相互情報量

↑

分布の期待値（連続、離散）、分散、共分散関数 †

連続型の確率分布の期待値
- P(X) = x/18 (0 ≦ x ≦ 6) , 0 (x < 0, 6 < x)で X が3以下
- ∫0~3 x/18 dx = [x^2/36]0~3 = 9/36-0 = 1/4

ベルヌーイ分布を回繰り返したときの分布が二項分布
- ベルヌーイ分布は　　　　　片方の生起確率p　の試行回数1回の分布
- 二項分布はベルヌーイ試行（片方の生起確率p）の試行回数x回の分布

確率分布の確率密度関数と尤度関数
- ベルヌーイ分布
- 正規分布（ガウス分布）

最尤推定量
- 手元のデータが、どの母パラメータに従う分布から得られる確率が最も高いかに基づいて考えられる推定量

↑

機械学習 †

Deep Learningほど、データ量や計算量を必要としない利点がある。

↑

数学 †

シグモイド関数

の式
```
f(x) = 1/(1+e^-x)
```

を微分した式
```
f'(x) = f(x)(1-f(x))
```

↑

共通 †

データ分割
- ホールド・アウト法
- k分割交差検証法（k-fold Cross-Validation）

特徴量選択
- ステップワイズ法（変数増減法と変数減増法
- ＋k分割交差検証法（k-fold Cross-Validation）

損失関数

平均絶対二乗誤差（MAE）
```
      n
= 1/n Σ|ti-yi|^2
      i=1
```

平均二乗誤差（MSE）
```
      n
= 1/n Σ(ti-yi)^2
      i=1
```

（RMSE）平均二乗誤差の平方根

平均二乗対数誤差（MSLE）

      n
= 1/n Σ(log(yi+1)-log(ti+1))^2
      i=1

（RMSLE）平均二乗対数誤差の平方根

交差エントロピー誤差
```
   K
= -Σ tk log yk
   k=1
```

カテゴリ交差エントロピー誤差

 　n   m
= -Σ  Σ  ti,j log yi,j
   i=1 j=1

誤差項の仮定
- 回帰モデル内に含まれていない要因に起因するバラツキ
- 正規分布に従う確率変数で同じ正規分布に従えば同じ分散を持つ。
- 誤差項は互いに独立（無相関）、μ=0（平均=0）の正規分布に従う

勾配降下法の式：
- 損失関数を微分
- 勾配がプラスの場合、重みを「マイナス」する。
- オンラインの場合
- バッチ（最急降下法）の場合、
- ミニバッチ（確率的勾配降下法）の場合、学習サンプルのインデックスのiが付く
- モメンタムに追加される項（＋α（θt－θt-1））とか...符号が謎だし他サイトが別の式だったり。

↑

回帰 †

↑

分類 †

ベイズの定理
```
p(A|B) = p(B|A)p(A) / p(B)
```

生成モデル、識別モデル、識別関数

生成モデル

p(x) = Σ p(x|Ck)p(Ck)
p(Ck|x) = p(x|Ck)p(Ck) / p(x)
p(Ck|x) = p(x|Ck)p(Ck) / Σ p(x|Ck)p(Ck)

学校Aの生徒X人・男女比a:b、学校Bの生徒Y人・男女比c:dで、
入力データについて女子の時、学校A/Bに属する確率、的な問題。
・ p(C1)：学校Aの生徒(X/X+Y)
　・ p(M|C1)：学校Aの男子生徒(X/X+Y) * ( (a/(a+b))X / X)
　● p(W|C1)：学校Aの女子生徒(X/X+Y) * ( (b/(a+b))X / X)
・ p(C2)：学校Bの生徒(Y/X+Y)
　・ p(M|C2)：学校Bの男子生徒(Y/X+Y) * ( (c/(c+d))Y / Y)
　● p(W|C2)：学校Bの女子生徒(Y/X+Y) * ( (d/(c+d))Y / Y)

陽性で実際に罹患者となる確率
・ p(C1)：罹患者a%
　● p(P|C1)：a*b%
　・ p(N|C1)：a*c%
・ p(C2)：健康な人x%
　● p(P|C2)：x*y%
　・ p(N|C2)：x*z%

計算方法
・x → CkをP(Ck|x)と書く。
・P(Ck|x)を求めるにはP(Ck)とP(x|Ck)が必要。
　・P(Ck|x)：性別 → 学校なら、P(Ck)：学校 → P(x|Ck)：性別
　・P(Ck|x)：検査 → 罹患なら、P(Ck)：罹患 → P(x|Ck)：検査

識別モデル
```
p(Ck|x)
```

識別関数
```
SVMとかDNNとか？
```

ロジスティック回帰
- 完全分離できない分離問題はある。
  - 線形境界では完全分離できない分離問題など。
  - 新たな特徴量にすると非線形境界で分離できるようになる。

最尤法
- 必要な仮定：独立同分布、互いに独立で同じ分布から取り出される。
- 対数尤度関数は対数の性質から𝒍𝒐𝒈 ∏ 𝒑(𝒙𝒊; 𝜽) => ∑𝒍𝒐𝒈 𝒑(𝒙𝒊; 𝜽)
- 対数尤度関数を偏微分した値が＝０になる。𝜽の点が答え（最小二乗法と≒）。

平面上での例
- p(y=1|x) = σ(w0 + w1 x)
- σは引数が0.5より大きいと1より小さいと0
- w0 w1が与えられた状態の決定境界は、w0 + w1 x = 0
- X,Yとw0 w1 の組み合わせが与えられ正解率の最も高いw0 w1 の組み合わせを選択。

コチラ

直線上でのSVMの例
```
𝒇(𝒙) = 𝒔𝒊𝒈𝒏(𝒘𝒙 + 𝒃)
```
- 𝒘と𝒃の値
- データセット追加時
- サポート・ベクトルの数

近傍法

特徴
- 学習を必要としない。
- 点の周囲の近くにある他の点を使用して予測や分類を行う機械学習手法の総称
- 近傍法は単純で理解しやすい反面、適切なkの値の選択や計算効率の面で課題がある

種類
- 最近傍法（1-NN）
- k近傍法（k-NN）
- 最適な k の値は交差検証によって決めることができる
- kは類似度上位の選出数で、多数決の最小得票数ではない。
- 故に、同数票を避けるため、kは基本的に奇数とされる。

kが大きいほど境界線は滑らかでノイズに強くなるが、
- 汎化性能は高くなるとは限らなしい、
- 分類精度も良くなるとは限らない。

例題
- 直線上での近傍法の例
- 平面上でのk-NNで「一個抜き交差検証」する例

↑

評価指標 †

損失関数
混合行列の TP / FP / TN / FN の P / N は予測に対して。
未学習（バイアス）/汎化性能の良い状態/過学習（バリアンス）
- 表現力が乏しい、鈍感なモデルはバイアスは大きく、バリアンスは小さい。
- 表現力が豊かな、敏感なモデルはバイアスは小さく、バリアンスは大きい。

↑

主成分分析 †

用途
- 高次元データを低次元化
- 高次元データを可視化
- データの特徴を抽出する

方法
- 分散が一番大きい成分から
- 互いに直交するように選ばれる。
- 主成分はノルム（長さ）が1に正規化される。

特徴
- 複数のサンプルと変量の関係が量的データで与えられた時用いられる。
- データのばらつきが大きくなる部分に着目して、
  合成変量を抽出ことで変量の相関関係が捉えやすくなる。
- 特徴量の選択ではなく特徴量の合成（≒特徴量エンジニアリング）。
- データの分析だけでなくデータの圧縮にも使用される。
- 主成分分析は共分散行列を対角化する固有値問題に帰結される。

例題
平面上での主成分分析(-1, -1), (1, 1)
- 三角形の比と角度が必要（例題は直角三角形で√2）
- 主成分は単位ベクトルで示す。
- 直行する第二主成分はx or yをマイナスにする。
- 第一主成分へ平面から直線へ射影したときの座標
- この場合、直線を平面に再構成したときの誤差は0%（復元可能なので）
- 大きく次元削減した空間へ射影するほど再構成誤差は大きくなる。

↑

クラスタリング †

k-means
- アルゴリズムのステップ
- k-means++：中心の初期値の距離が離れるように初期化

例題
- 直線上でのk-means、重心は平均値で計算できる。
- 平面上でのk-means（距離を求めるのが少々難しい）

↑

正則化 †

Ε’(w) = Ε(w) + λR(w)
R(w) ＝ ||x||p ＝ (|x1|p +|x2|p +…+|xn|p) 1/p
回帰だけではなく分類（ロジスティック回帰）にも適用可能。
近似曲線、決定境界が滑らかになり、汎化性能が上がる

L1ノルム
```
∥w∥1=(|w1|^1+|w2|^1+...+|wd|^1)^(1/1) = |w1|+|w2|+...+|wd| =Σ|wi|
```
- L1距離（マンハッタン距離）
- Lasso（ラッソ）回帰（L1正則化）
- ひし形なので w1 or w2 が0の時に最小となる可能性が高い。
- 説明変数を削っても良い時に使用（スパース表現）。

L2ノルム
```
∥w∥2=(|w1|^2+|w2|^2+...+|wd|^2)^(1/2) = √(w1^2+w2^2+...+wd^2) = √(Σwi^2)
```
- L2距離（ユークリッド距離）
- Ridge（リッジ）回帰（L2正則化）
- 円形なので w1 or w2が0の時に最小となる可能性が低い。
- 全ての説明変数を使って過学習を抑えたい時に使用。

アルファベット順
- L1、Lasso
- L2、Ridge、

λが大きいほど
- R(w)は小さくなり、
- 正則化のペナルティは大きくなる。

正則化項の符号は＋（プラス）

↑

深層学習 †

↑

逆伝播 †

↑

学習アルゴリズム †

SGD (◯MomentumSGD, NAG)

学習が進むにつれて各パラメタごとに学習率を小さく変化させる
- ◯AdaGrad?：勾配のアダマール積を蓄積し、既に大きく更新されたパラメタほど更新量を小さくする
- ◯RMSprop：AdaGrad?の一度更新量が飽和した重みが更新されなくなると言う欠点に対して、より直近の勾配情報を優先して計算する指数移動平均を採用する。

AdaDelta?
◯Adam

↑

出力の分布 †

↑

過学習 †

↑

評価 †

LIME, SHAP, CAM

↑

CNN †

畳み込み

プーリング

サイズの計算
- 中心があるフィルタでスライド１の場合
- サイズ＝スライドで割り切れる場合

プーリングの種類
- MAX
- AVG
- Global

Pooling Indices
- Unpooling時に元の位置に特徴量を戻せるIndex
- ただし、最大値以外の値はUnpoolingで0になる。

データ拡張

ポイント
- 評価用データではなく訓練用データに施す。
- 極端に少ない訓練用データをデータ拡張で無理やり増やしても性能向上は期待できない。
- 画像の一部を隠す処理もデータ拡張として有効
- 反転や回転処理は、画像の向きにも意味がある場合に精度が悪化することがある。

tesnorflow.imageの関数
- random_hue：ランダムに「色相」を調整
- random_contrast：ランダムにコントラスト（濃淡）を調整
- random_brightness：ランダムに明るさ（輝度）を調整
- random_flip_left_right：ランダムに水平方向に反転
- random_flip_left_right：ランダムに垂直方向に反転

色々なCNN

ResNet?、WideResNet?

残差ブロック（Residual Block）が特徴的
・畳み込み層とSkip Connection
・Bottleneckアーキテクチャ（1×1, 3×3, 1×1）

WideResNet?は
・層の深さを減らし（フィルタ数）幅を増やす。
・結果としてパラメタ数は増えるが高精度かつ高速。

CAM（Class Activation Map）
- 入力画像のどのような場所に注目しているかを可視化する技術
- CNNモデルがある画像のどのピクセルに着目してクラス分類したのか調べる
- 入力画像のどの部分が予測に最も影響を与えたかのヒートマップを出力
- 誤分類の分類クラスを指定すれば誤分類の原因の考察にも役立つ。
- Global Average Pooling(GAP)を使用するモデルに適応できる
- 特徴マップとGAP層の重みの積でヒートマップを作成

Grad-CAM
- 名称の由来は「Gradient」=「勾配情報」
- CAMのヒートマップの計算をモデルの制約に囚われないよう一般化したもの。
- 各特徴マップの重み付けの部分のところとGAPの部分を逆伝搬時の勾配で代用

モデルの学習に用いられるのと同じ勾配の情報を可視化に使う
（最後の畳み込み層の予測クラスの出力値に対する勾配を使用）

勾配が大きいピクセルの重みが増す：予測クラスの出力に大きく影響する重要な場所
「画像のどこに注目して分類しているのか」「正しく認識しているか」を目視できる

Guided Grad-CAM：解釈過程で画像の解像度が下がってしまうのが問題を解決
具体的に「（模様などの）どういう特徴に着目しているのか？」まで可視化可能

explainer.explainの引数
・class_index：分類クラスのIndex番号
・layer_name：最終CONV層の直後の活性化関数層の名前（活性化関数層がCONV層に含まれている場合はCONV層の名前）

↑

RNN †

GRU、LSTMは勾配爆発ではなく勾配消失を防ぐ。

↑

深層学習応用 †

↑

学習済モデル †

TensorFlowHub?

転移学習やファイン・チューニング

転移学習

import tensorflow as tf
import tensorflow hub as hub

IMAGE_SIZE = (224, 224)
out_features = 10
model_handle = "https://tfhub.dev/google/bit/s-r50x3/1"
do_fine_tuning = False
do_dense_train = True
model = tf.keras.Sequential([
  tf.keras.layers.InputLayer(input_shape=IMAGE_SIZE + (3,)),
  hub.Keras.Layer(model_handle, trainable=do_fine_tuning),
  tf.keras.layers.Dense(out_features, trainable=do_dense_train)
])
model.summary()

ファイン・チューニング

↑

言語処理 †

BLEU

スコア

         N
= BP exp(∑wn log pn)
         n=1

wn...
pn...

BP
- rは参照翻訳の長さ、cは機械翻訳の長さ
- c < r の場合にペナルティが科せられている。
```
     ┌ 1 ( if c≧r)
BP = ┤
     └ e^(1-(r/c)) ( if c < r)

BP = min(1, e^(1-(r/c)))
```

Pn（modified n-gram precision）は指数的に小さくなる傾向がある。
機械翻訳の評価指標対数加重平均で評価することにより妥当性と流暢性を考慮した安定的な評価ができる。

↑

物体検知 †

SSD
https://teratail.com/questions/377375

Predicted BBとGroundｰTruth BB
- 推定：Predicted BB
- 教師データ：GroundｰTruth BB
- 任意の Predicted BB に検出されないGroundｰTruth BB = False Negative

IOU
- 同じ面積の正方形のGround-Truth BBとPredicted BBが完全に重なっているときのIoUは1.0
- Predicted BBが完全一致の状態から右方向および上方向にそれぞれ1辺の長さの10%だけ平行移動された場合
  10*10の正方形を想定して以下のようにIoUを計算できる。
  - 重なっている面積：9*9=81 → 81/100 = 81％
  - ズレた面積：((1*1)+(9*1)+(1*9)=19)*2

DataSet?

VOC
- VOC＝Visual Object Classes
- 画像サイズ：470×380、クラス数：20クラス（07と12は別のデータ群）
- Ground-Truth BBの情報が、左上隅と右下隅の座標が与えられる
- 主要貢献者が2012年に亡くなったことに伴いコンペも終了

ILSVRC17
- ILSVRC＝ImageNet? Scale Visual Recognition Challenge
- 画像サイズ：500×400、ImageNet?（21,841クラス/1400万枚以上）のサブセット
- Instance Segmentation の学習に必要な情報は「ない」。
- フリマ・アプリに良い（クラス数が多く物体位置不要）
- コンペは2017年に終了（後継：Open Images Challenge）

MS COCO18
- COCO＝Common Object in Context
- 画像サイズ：640×480、クラス数：80
- 物体位置推定に対する新たな評価指標を提案（後述）

OICOD18
- OICOD＝Opne Images Challenge Object Detection
- 画像サイズ：一様ではない、Open Images V4（6000クラス以上/900万枚以上）のサブセット
- ILSVRCやMS COCO とは異なる annotation process

↑

GAN †

GANの価値関数の数式

min max  V(D, G) = E           [logD(x)] + E        [log(1-D(G(z)))]
   G   D            x~Pdata(x)              z~Pz(z)

GANの損失関数穴埋（realは1に、fakeは0

Discriminator

real_loss = tf.keras.losses.binary_crossentropy(tf.ones_like(real_pred), real_pred)
fake_loss = tf.keras.losses.binary_crossentropy(tf.zeros_like(fake_pred), fake_pred)

Generator（打ち消すため頭にマイナス

fake_loss = -tf.keras.losses.binary_crossentropy(tf.zeros_like(fake_pred), fake_pred)

GANの学習を行うコード
両方にノイズ、Discriminatorに画像、順番はDiscriminator、Generator
```
self.update_discriminator(noize, batch_train_data)
self.update_generator(noize)
```

GANではGenerator と Discriminatorの二種類のネットワークを更新
- 伝播の経路的は順伝播G→D、逆伝播D→Gと繋がっている。
- ゆえに、DよりGの方が勾配消失問題が起き易い。
- ただし、パラメタ更新はDとGで別々に行う。
- その他はモデルに依存
  - GとDの更新時間
  - GとDの微分計算回数

DCGAN

活性化関数

Generator ・出力層だけTanh ・それ以外の層では全てReLU

Discriminator
・全ての層でLeaky ReLU

DCGANのGeneratorの出力層（出力サイズ64*64）

conv4 = Conv2DTranspose (64, (5, 5), (2, 2), "same", activation="tanh", kernel_initializer-self.w_init)(conv3)

DCGANその他
- Pooling層を使用しない
- 中間層から全結合層を取り除く

↑

Python †

↑

1e-7 †

ゼロ除算防止

↑

予約語 †

call
オブジェクトを関数のように呼び出すことで呼びだされる「特殊メソッド」

↑

関数 †

abs（数値の絶対値を計算する）
sqrt（ルート(平方根)を計算する）
mean（データの平均を計算する）
argmin（配列の最小要素のインデックスを返す）
argmax（配列の最大要素のインデックスを返す）

np.random.choice(a, size=None, replace=True, p=None)（サイコロ

↑

axis †

axis=0：列単位（縦方向）にXX（集計, etc.
axis=1：行単位（横方向）にXX（集計, etc.
axisを指定しない場合、行列単位（縦横方向）≒ 全要素をXX（集計, etc.

↑

内積 †

＠、dot、matmul （違いは？）

↑

アダマール積 †

演算子は「*」になる（RNN）。

↑

k-means法 †

k = 4 #クラスタ数
n = 200 # データ数
data = np.random.randn(n, 2) # 200行2列
# 初期値の重心をdataの中からランダムに4 index選択。
centroids = data[np.random.choice(np.arange(n), size=(k,))]

ユークリッド距離（√(a^2 + b^2)）が最小のものを集める。
argmin（配列の最小要素のインデックス（＝クラスタ番号）を返す）を使う。

for 1 in range(10):
  indexes = np.zeros(data.shape[0]) # dataの行数と同じ配列
  for centroid in centroids:
    for i, x in enumerate(data):
      # 最も近い重心のindex番号をindexesに入れる。
      indexes[i] = np.argmin(np.sum((x - centroids) ** 2, axis=1))

当該クラスタに属する点の重心を計算する。
k-meansの名称にも含まれるmean（データの平均を求める）を使う。
```
# 重心を再計算し更新する。
for i in range(k):
  centroids[i] = data[indexes==i].mean(axis=0)
```

k-means++：中心の初期値の距離が離れるように初期化

for i in range(k):
  # 確率に従って重心となる点をdataから選ぶ。
  centroids[i] = data[np.random.choice(np.arange(n), p=probabilities, size=(1))]
  # data centroidsの距離の二乗をとる。
  distances[:, i] = np.sum((data - centroids[i]) ** 2, axis=1)
  # probabilitiesを0から1の値に正規化する。
  probabilities = np.sum(distances, axis=1) / np.sum(distances)

↑

逆伝播 †

アフィン変換ノード

順伝播

def forward(self, x):
  self.x = x
  return np.dot(x, self.params["w"]) + self.params["b"]

逆伝播

def backward(self, dout):
  self.grads["w"] = np.dot(self.x.T, dout)
  self.grads["b"] = np.sum(dout, axis=0)
  return np.dot(dout, self.params["w"].T)

ReLUノード
maskは比較演算での当該項目のみ抽出

順伝播
0以下の場合は0、0以上の場合はX（そのまま）

def forward(self, x):
  self.mask = (x <= 0)
  out = x.copy()
  out[self.mask] = 0
  return out

逆伝播
0以下の場合は0、0以上の場合は1*dout（そのまま）
```
def backward(self, dout):
  dout[self.mask] = 0
  dx = dout
  return dx
```

正則化

L1正則化の勾配には以下L1正則化項の勾配を足す。
```
λ⋅sign(W)
```

L2正則化の勾配には以下L2正則化項の勾配を足す。
```
λ⋅W
```

# 設定
grads = {}
for idx in range(1, self.hidden_layer_num+2):
weight_decay_gradient = self.weight_decay_lambda * self.layers['Affine' + str(idx)].W
grads['W' + str(idx)] = self.layers['Affine' + str(idx)].dW + weight_decay_gradient
grads['b' + str(idx)] = self.layers['Affine' + str(idx)].db

↑

学習アルゴリズム †

Momentum
パラメタの更新に過去の勾配も用いる。

for key in params.keys():
  self.v[key] = self.momentum * self.v[key] - self.lr * grads[key]
  params[key] += self.v[key]

AdaGrad?
- 各パラメタの要素毎に学習率を調整することで学習を行う。
- 各要素の学習率を決めるために変数を導入し、ここでhとする。
- このhを勾配の絶対値によって学習率を調整する。
  - 勾配が大きい場合、更新量を小さくし
  - 勾配が小さい場合、更新量を大きくする。
```
for key in params.keys():
  self.h[key] += grads [key] * grads [key]
  params[key] -= self.lr * grads[key] * (1/np.sqrt(self.h [key] + 1e-7))
```

RMSprop
- AdaGrad?の更新をしばらく行っていくと更新量が0に近づいていきパラメタ更新を行うことができなくなる。
- RMSpropではAdaGrad?に加えて、時間が経過するほど更新幅が小さくなるようにするdecayを用いて学習率が計算。
```
for key in params.keys():
  self.h[key] *= self.decay_rate
  self.h[key] += (1 - self.decay_rate) * (grads[key] ** 2)
  params [key] -= self.lr * grads [key] / (np.sqrt(self.h[key]) + 1e-7)
```

↑

CNN計算 †

np.floor、np.trunc（切り捨て）

計算後の特徴マップのサイズは、式は図を書けば明らか
```
((h (or w) + 2p - f) / s) + 1
```

Padding
rangeの仕様が謎い。2次元以上にも対応、右（後ろ）から順番に右左下上

np.pad(array, range, mode(,そのほか）)
img = np.pad(img, [(0, 0), (0, 0), (pad, pad), (pad, pad)], "constant")
img = np.pad(img, [(0,0), (0,0), (p_h, p_h), (p_w, p_w)], 'constant')

im2col

スライシング

# N, CH, H, F
# ↓
# N, CH, FH, FW, OH, OW
# a:b:c の指定はa～b-1までcステップずつと言う実装で、
# フィルターの[y, x要素]に対応する入力データの要素を抽出する。
# 例えば2*2フィルタが適用される場合、1回目左上、2回目右上、3回目左下、4回目右下で、
# 1回のステップで取得される要素数は特徴マップ数と等しくなる。
col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

ほげ

# 絵的にイメージ困難だが並びを替えて
# N, CH, FH, FW, OH, OW
# ↓
# N, OH, OW, CH, FH, FW
# 行数を指定して、行列に展開すれば意図した出力になる。
col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)

↑

その他 †

↑

距離学習 †

Siamese networkのConstructive loss
```
L = 1/2(yd^2 + (1−y) max(m−d, 0)^2)
```
Triplet networkのTriplet loss
```
L = max{0, m + dp − dn}
```

↑

参考 †

E資格道場
https://e-shikaku-doujou.com/

【JDLA E資格2023#2】受験の振り返り - Goodな生活
https://www.goodnalife.com/entry/2023/08/30/082816

↑

認定プログラム †

金額が易いプログラムはそれなり。

↑

認定プログラム事業者 †

↑

AI研究所 †

E資格の過去問はあるの？E資格の過去問状況や難易度と試験対策の方法まとめ
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-kakomon/
E資格の難易度は高い？理由や原因から難易度の対策方法を知ろう
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-nanido/
E資格のおすすめ参考書5選！E資格を勉強するなら参考書を上手に使え！
https://ai-kenkyujo.com/certification/e-shikaku/eshikaku-sankousyo/
E資格のシラバスが2022年8月度より大きく改定！新シラバスの変更点を徹底解説
https://ai-kenkyujo.com/certification/e-shikaku/ai-eshikaku-syllabus/

↑