深層学習（deep learning）のバックアップ(No.80)

並列数をふやす
- ユニット・コアへ効率よく計算タスクを分配し、並列数の大きい計算を行う
- MN行列AとNK行列Bのドッド積＝MK行列Cを計算する場合、MユニットKコアをフル稼働させて一度に処理。
  ユニット￥コア C1 C2 C... CK
  U1 c11 c12 c1... c1k
  U2 c21 c22 c2... c2k
  U... c...1 c...2 c... c2k
  UM cM1 cM2 cM... cMk

ユニット￥コア	C1	C2	C...	CK
U1	c11	c12	c1...	c1k
U2	c21	c22	c2...	c2k
U...	c...1	c...2	c...	c2k
UM	cM1	cM2	cM...	cMk

外部からの制御がないと動かないため複雑な処理はできない。
GPUに対して命令を行うソフトウェアをインストールしてGPUを制御する。

制御の内容
- GPUのメモリへのデータの転送
- GPUのコアに対しての演算命令

GPU制御を行う開発環境

CUDA
NVIDIA社のGPUでは、CUDAという深層学習用開発環境
が整えられていて、計算用の関数などが使用できる。

cuDNN
TensorFlow?・Keras、PyTorchの下位スタックで動く。
更に下位スタックで、前述のCUDAが動作する。

開発環境構築手順
- GPUをインストール
- CUDAをインストール
- cuDNNをインストール
- GPUに対する各種設定
- GPU対応TensorFlow?・Kerasなどでプログラムを書いて実行

また、計算を極限まで早くする方法として、次に考えられたのが分散処理。

↑

GPGPU †

グラフィック以外の目的での使用に最適化（汎用化）されたGPU
GPGPU（general purpose GPU）
GPUの演算資源をグラフィックス計算以外の目的に応用する技術

↑

TPU †

Google社が開発した、テンソル計算処理に最適化された演算処理装置

↑

その他 †

↑

言語・ライブラリ †

↑

フレームワーク †

↑

ファースト・ステップ †

↑

言語・ライブラリ †

↑

言語 †

↑

Python †

↑

R言語 †

↑

ライブラリ †

↑

NumPy †

↑

Matplotlib †

↑

フレームワーク †

↑

Theano †

MILAのOSS（3条項BSD）で2007年に初版リリース
2017年以降、メンテナンス・フェーズ

↑

言語 †

Python（コンパイラ、ライブラリ）

↑

特徴 †

Numpyのように計算手続きを記述するのではなく, 数式そのものを記述.

このことによって, 計算対象となる行列等の実体のプログラム内での
引き回しを考える事なく, 最適化やGPUによる高速化の恩恵が受けられる.

また, 微分を (数値的ではなく) 解析的に実行する事が出来る.

↑

参考 †

Theano 入門
http://www.chino-js.com/ja/tech/theano-rbm/

↑

Caffe †

Yangqing Jiaら当時Berkeleyのメンバーが中心に2013年頃
開発したOSS（BSD）のディープラーニングフレームワーク

Convolutional Architecture for Fast Feature Embedding.
前身はDeCAF (Deep Convolutional Activation Feature)

↑

言語 †

C++で実装、Pythonのインターフェイスあり。

↑

特徴 †

コードを書かなくても設定ファイルだけで動かせる
容易に拡張できるコード設計
PythonとMatlabからも使える
高速（C++実装、GPUをシームレスに使い分け）
Githubの活発な開発コミュニティ
画像認識向き
- 画像分類
- シーン認識
- 物体検出
- 領域分割

↑

参考 †

Caffeで始めるディープラーニング
https://www.slideshare.net/KotaYamaguchi1/caffe-71288204

↑

Chainer †

2015年に株式会社Preferred Networks（PFN）からリリース。
2019年12月5日、PyTorchに順次移行すると発表。

↑

言語 †

Python

↑

特徴 †

特⻑：様々なNNを直感的に記述可能

NNの構築をPythonのプログラムとして記述
CuPy?によるCPU/GPU agnosticなコード記述
動的なNN構築（Define-by-Runの独自コンセプト）を採用
- しかし入力データによって計算グラフの構造が変化するRNNなどCNN以外のニューラルネットワークが台頭し、
- ニューラルネットワークの構造を柔軟に制御できるDefine-by-Runが、Define-and-Runに比べて優勢に。

↑