「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
Kaggle - Notebook (Kernel)の使い方について説明する。
詳細 †
- GPUやTPUの利用ができるため、より機械学習に向いた開発環境
- 機械学習で使わられる代表的なライブラリが利用可能な状態で提供される。
- ただし全てのライブラリ・フレームワークがインストールされている訳ではない。
- 追加でインストールが必要なライブラリもある(ライブラリのインストール)。
- データ分析コンペに参加する際は特に便利
- データをダウンロードをせずにデータセットを使用できる。
- アウトプットした予測値をワンクリックで提出できる。
kaggle.comにアクセス †
https://www.kaggle.com/
ステップ1 †
Notebooksの起動 †
- トップページに[+ Create]ボタンがあるのでそこから[New Notebooks]を選択してクリックする。
- すると、Notebooksが起動して、凡そ「Jupyter Notebook」と同じようにNotebooksが使用できる。
ライブラリのインストール †
- pipを使用してインストールするにはネット接続が必要になる。
- 電話番号で本人認証をするとネットに接続できるようになる。
- 右ペインのSettingsの[Internet on]スイッチからネット接続を有効にする。
- 以下でインストールできる(先頭に[!]が要らない模様。
pip install pipdeptree
- インストールしたパッケージを使用してみる。
([!]は自動判別しているようなので、必要なら付与したほうが無難)
!pipdeptree -r -p numpy
データを追加して利用 †
- 自身のデータを追加する場合、
- トップページに[+ Create]ボタンがあるのでそこから[New Datasets]を選択してクリックする。
- タイトルを入力して、データセットのファイルをアップロードして[Create]ボタンを押下する。
- Notebooksの起動を行い、[+ Add Data]ボタンを押下して、
- 前述の自身のデータを追加する。
- もしくは、既存のデータを追加する。
- 追加したデータは、右ペインのDataのエクスプローラー風UIからアクセスし、GUIで確認可能。
- 例えば、アップロードしたXLSXを使用する場合は以下のようにする。
- openpyxlパッケージをインストール
!pip install openpyxl
コードの保存(Save Version) †
- Save Versionから当該コードをバージョニングして保存できる。
- Save Version後、コードが先頭から実行され、出力も含めて保存されるもよう。
ステップ2 †
共有(public) †
のダウンロードとアップロード †
アクセラレータの使用 †
- 電話番号で本人認証をするとGPUやTPUを使用できるようになる。
- 通常はCPUを使う。GPUを使うと4-5倍は違うと言われている。
- 右ペインのSettingsの[Accelerator]ドロップダウンリストからGPUやTPUを選択する。
- 注意点
- 週に30時間の利用に制限されている。
- アクセラレータを起動すると、使えるメモリが通常16GBから16GBに3GB減る。
- 電話番号認証があるがアカウントを2つ以上作ることが禁止されている(処罰の対象)。
参考 †