深層学習（deep learning） - .NET 開発基盤部会 Wiki

並列数をふやす
- ユニット・コアへ効率よく計算タスクを分配し、並列数の大きい計算を行う
- MN行列AとNK行列Bのドッド積＝MK行列Cを計算する場合、MユニットKコアをフル稼働させて一度に処理。
  ユニット￥コア C1 C2 C... CK
  U1 c11 c12 c1... c1k
  U2 c21 c22 c2... c2k
  U... c...1 c...2 c... c2k
  UM cM1 cM2 cM... cMk

また、計算を極限まで早くする方法として、次に考えられたのが分散処理。

↑

TPU †

Google社が開発した、テンソル計算処理に最適化された特定用途向け集積回路（ASIC）

↑

GPGPU †

GPGPU（general purpose GPU）

グラフィック以外の目的での使用に最適化（汎用化）されたGPU
GPUの演算資源をグラフィックス計算以外の目的に応用する技術

↑

開発環境 †

GPGPU制御を行う開発環境

外部からの制御がないと動かないため複雑な処理はできない。
GPUに対して命令を行うソフトウェアをインストールしてGPUを制御する。

GPUのメモリへのデータの転送
GPUのコアに対しての演算命令

開発環境

CUDA
NVIDIA社のGPUでは、CUDAという深層学習用開発環境
が整えられていて、計算用の関数などが使用できる。

cuDNN
TensorFlow?・Keras、PyTorchの下位スタックで動く。
更に下位スタックで、前述のCUDAが動作する。

開発環境構築手順
- GPUをインストール
- CUDAをインストール
- cuDNNをインストール
- GPUに対する各種設定
- GPU対応TensorFlow?・Kerasなどでプログラムを書いて実行

↑

その他 †

↑

言語・ライブラリ †

↑

フレームワーク †

↑

ファースト・ステップ †

↑

言語・ライブラリ †

↑

言語 †

↑

Python †

↑

R言語 †

↑

ライブラリ †

↑

NumPy †

↑

Matplotlib †

↑

フレームワーク †

↑

Theano †

MILAのOSS（3条項BSD）で2007年に初版リリース
2017年以降、メンテナンス・フェーズ

↑

言語 †

Python（コンパイラ、ライブラリ）

↑

特徴 †

Numpyのように計算手続きを記述するのではなく, 数式そのものを記述.

このことによって, 計算対象となる行列等の実体のプログラム内での
引き回しを考える事なく, 最適化やGPUによる高速化の恩恵が受けられる.

また, 微分を (数値的ではなく) 解析的に実行する事が出来る.

↑

参考 †

Theano 入門
http://www.chino-js.com/ja/tech/theano-rbm/

↑

Caffe †

Yangqing Jiaら当時Berkeleyのメンバーが中心に2013年頃
開発したOSS（BSD）のディープラーニングフレームワーク

Convolutional Architecture for Fast Feature Embedding.
前身はDeCAF (Deep Convolutional Activation Feature)

↑

言語 †

C++で実装、Pythonのインターフェイスあり。

↑

特徴 †

コードを書かなくても設定ファイルだけで動かせる
容易に拡張できるコード設計
PythonとMatlabからも使える
高速（C++実装、GPUをシームレスに使い分け）
Githubの活発な開発コミュニティ
画像認識向き
- 画像分類
- シーン認識
- 物体検出
- 領域分割

↑

参考 †

Caffeで始めるディープラーニング
https://www.slideshare.net/KotaYamaguchi1/caffe-71288204

↑

Chainer †

2015年に株式会社Preferred Networks（PFN）からリリース。
2019年12月5日、PyTorchに順次移行すると発表。

↑

言語 †

Python

↑

特徴 †

特⻑：様々なNNを直感的に記述可能

NNの構築をPythonのプログラムとして記述
CuPy?によるCPU/GPU agnosticなコード記述
動的なNN構築（Define-by-Runの独自コンセプト）を採用
- しかし入力データによって計算グラフの構造が変化するRNNなどCNN以外のニューラルネットワークが台頭し、
- ニューラルネットワークの構造を柔軟に制御できるDefine-by-Runが、Define-and-Runに比べて優勢に。

↑

参考 †

Chainer - Wikipedia
https://ja.wikipedia.org/wiki/Chainer

ディープラーニングフレームワークChainerの紹介と⾃動チューニングへの期待
http://atrg.jp/ja/index.php?plugin=attach&pcmd=open&file=20151225-ATTA-oono.pdf&refer=ATTA2015

PFN、深層学習フレームワークを自社開発の「Chainer」から「PyTorch」に切り替え - PC Watch
https://pc.watch.impress.co.jp/docs/news/1222796.html

↑

CNTK †

（Microsoft Cognitive Toolkit）

2015年にMicrosoftからリリース。
2016年にMITライセンスでGitHubに公開。

↑

言語 †

C++、Python、.NET、BrainScript?

↑

特徴 †

リソース効率が良い。
ONNXを初めてサポート
コミュニティ発展が課題

↑

参考 †

Microsoft Cognitive Toolkit - Wikipedia
https://ja.wikipedia.org/wiki/Microsoft_Cognitive_Toolkit

↑

Facebook（Meta）の †

↑

PyTorch †

専用項を設けた。

↑

Googleの †

↑

TensorFlow †

専用項を設けた。

↑

Keras †

専用項を設けた。

↑

ONNX †

専用項を設けた。

↑

開発・運用環境 †

↑

モデルの軽量化 †

↑

プルーニング †

計算を高速化する手法

学習後、ニューラルネットワークの
- レイヤー間の繋がりを切り、
- （重要度の低い重みの一部を0にする（疎行列化する）ことでノードを削減し）
- パラメタ（エッジとノード）数を削減

パラメタ削減後、再学習して精度を保つ。

2種類のアプローチ

ニューロン単位でニューロン毎の重要度に基づきニューロンを削減
- L2正則化を加えて学習後に、絶対値が小さい重みを0にする。
- CNNでは難しい（ニューロン削減後も構造保持が必要）。

チャネル単位でチャネルを生成するフィルタ単位で削減
- 各層のフィルタの重みの絶対値の総和が小さいものから各層の削減率分、削減
- 以下にチャネル単位のプルーニングの代表的な２つのモデル
  ・Network Slimming：各チャネルの出力を scaling する変数γを導入し、学習後、γ値が小さいチャネルを削減
  ・Channel Pruning と ThiNet?：特徴マップの誤差が最小となるチャネルを削除。

↑