.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

Kaggle - Competitions - Getting Started で

最も代表的な2つのチュートリアル相当をやってみる。

詳細

タイタニック生存者予測(Titanic

https://github.com/OpenTouryoProject/DxCommon/blob/master/Notebook/Jupyter/path/ScikitLearnTraining6.ipynb

Accuracy: 0.8212290502793296

データの読込

データの確認

概要確認

詳細確認

データの前処理

特徴量エンジニアリング

欠損値の処理とエンコーディング

欠損値の処理とカテゴリカル変数のエンコーディング

デッドリスト、サバイブリスト

(詳しくはリンク先のNotebookをご参照下さい)

該当データは推論時データを結果がデッド or サバイブになるように書き換える。

特徴量の選択

変数名説明
Survived目的変数、以下はすべて説明変数。
Pclass富豪ほど生存
Age20歳未満の生存率が高い、幼児は特に生存率が高い。欠損値はから推定
SibSp?大所帯の生存率が低い。次いで、独り身の生存率が低い。
Parch大所帯の生存率が低い。次いで、独り身の生存率が低い。
Fare最低の価格帯以外は生き残る確率が高い。高価格帯は顕著に高い(Pclassと高い相関関係)
FamilySize?SibSp?・Parchから特徴量エンジニアリングしたFamilySize? = SibSp? + Parch + 1は同じ様な傾向を示す。
TicketGroupSize?Ticketから特徴量エンジニアリングしたTicketGroupSize?FamilySize?と同じ様な傾向を示す。
Sex_女性ほど生存
Deck_Cabinから特徴量エンジニアリングしたDeck、避難経路と関係し、目的変数と高い相関関係を示す。
Title名前から特徴量エンジニアリングした肩書、地位とと関係し、目的変数と高い相関関係を示す。
Embarked_C=Cherbourg、Q=Queenstown、S=Southamptonのうち、Southamptonが優遇されているが、間接的な影響の可能性

学習と推定

データ準備

学習

幾つかのモデルを試す。

推定

デッドリスト、サバイブリストのテクニックで正解率が上がる。

評価

Accuracy: 0.8212290502793296

住宅価格予測(House Prices

データの読込

データの確認

概要確認

詳細確認

データの前処理

特徴量エンジニアリング

欠損値の処理とエンコーディング

特徴量の選択

学習と推定

データ準備

学習

推定

評価

参考

Titanic

Kaggle

Qiita

House Prices

Kaggle

Qiita


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS