「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
目次 †
概要 †
Kaggle - Competitions - Getting Started で
最も代表的な2つのチュートリアル相当をやってみる。
詳細 †
- チュートリアルをヤッた結果、基本操作以外に以下が重要になる事が解った。
- 具体的には、数値・カテゴリカル・データ以外の特徴量エンジニアリング。
- タイタニックでは、
- Name、Cabin、Ticketから、Title、Deck、TicketGroupSize?などの特徴量をエンジニアリング
- さらに、デッドリスト、サバイブリストを作成するテクニックもあるらしい。
タイタニック生存者予測(Titanic †
https://github.com/OpenTouryoProject/DxCommon/blob/master/Notebook/Jupyter/path/ScikitLearnTraining6.ipynb
Accuracy: 0.8212290502793296
データの読込 †
データの確認 †
概要確認 †
- 列名一覧
- 変数説明
- データの最初の数行を表示
- データフレームの情報を表示
- 基本的な統計量を表示
- 各列の欠損値の数を表示
- 数値データの分布を確認
- カテゴリカル変数の可能性のある列
- カテゴリカル変数の値のカウント
- Nameは解るケド、Ticket、Cabinって何?
詳細確認 †
- カテゴリカルデータの頻度分析
- 相関行列をヒートマップで表示
- カテゴリカル説明変数と目的変数の関係の確認
- その他の説明変数と目的変数の関係の確認
データの前処理 †
特徴量エンジニアリング †
- Deck
- FamilySize?
- TicketGroupSize?
- Title
欠損値の処理とエンコーディング †
欠損値の処理とカテゴリカル変数のエンコーディング
- Embarkedの欠損値処理
- カテゴリカル変数のエンコーディング
- Ageの欠損値処理
デッドリスト、サバイブリスト †
(詳しくはリンク先のNotebookをご参照下さい)
- デッドリスト(Dead_list)
16才以下または女性のグループで全員生存する慣例に反し全員死亡した名字(姓)のリスト
- サバイブリスト(Survived_list)
16才を超えかつ男性のグループは全員死亡する慣例に反し全員生存した名字(姓)のリスト
該当データは推論時データを結果がデッド or サバイブになるように書き換える。
特徴量の選択 †
学習と推定 †
データ準備 †
学習 †
推定 †
評価 †
住宅価格予測(House Prices †
データの読込 †
データの確認 †
概要確認 †
詳細確認 †
データの前処理 †
特徴量エンジニアリング †
欠損値の処理とエンコーディング †
特徴量の選択 †
学習と推定 †
データ準備 †
学習 †
推定 †
評価 †
参考 †
Titanic †
- タイタニック号の乗客の生存予測~Kaggleに挑戦 │ キヨシの命題
Kaggle †
Qiita †
- 初心者がKaggle Titanicで上位1.5%(0.83732)以内に入るアプローチ解説
House Prices †
Kaggle †
Qiita †