「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
Kaggle - Competitions - Getting Started で
最も代表的な2つのチュートリアル相当をやってみる。
詳細 †
- チュートリアルをヤッた結果、基本操作以外に以下が重要になる事が解った。
- 具体的には、数値・カテゴリカル・データ以外の特徴量エンジニアリング。
- タイタニックでは、
- Name、Cabin、Ticketから、Title、Deck、TicketGroupSize?などの特徴量をエンジニアリング
- さらに、Dead_list、Survived_listを作成するテクニックもあるらしい(詳しくはリンク先のNotebookをご参照下さい)。
タイタニック生存者予測(Titanic †
https://github.com/OpenTouryoProject/DxCommon/blob/master/Notebook/Jupyter/path/ScikitLearnTraining6.ipynb
Accuracy: 0.8212290502793296
データの読込 †
データの確認 †
概要確認 †
- 列名一覧
- 変数説明
- データの最初の数行を表示
- データフレームの情報を表示
- 基本的な統計量を表示
- 各列の欠損値の数を表示
- 数値データの分布を確認
- カテゴリカル変数の可能性のある列
- カテゴリカル変数の値のカウント
詳細確認 †
- カテゴリカルデータの頻度分析
- 相関行列をヒートマップで表示
- カテゴリカル説明変数と目的変数の関係の確認
- その他の説明変数と目的変数の関係の確認
データの前処理 †
特徴量エンジニアリング †
- Deck
- FamilySize?
- TicketGroupSize?
- Title
欠損値の処理とエンコーディング †
欠損値の処理とカテゴリカル変数のエンコーディング
- Embarkedの欠損値処理
- カテゴリカル変数のエンコーディング
- Ageの欠損値処理
特徴量の選択 †
学習と推定 †
データ準備 †
学習 †
推定 †
評価 †
住宅価格予測(House Prices †
データの読込 †
データの確認 †
概要確認 †
詳細確認 †
データの前処理 †
学習と推定 †
参考 †
Titanic †
- タイタニック号の乗客の生存予測~Kaggleに挑戦 │ キヨシの命題
Kaggle †
Qiita †
- 初心者がKaggle Titanicで上位1.5%(0.83732)以内に入るアプローチ解説
House Prices †
Kaggle †
Qiita †