「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>Kaggle]] --[[Kaggle - Notebook (Kernel)]] --Kaggle - Competitions - Getting Started *目次 [#nbb1d67e] #contents *概要 [#ffa6aeee] Kaggle - Competitions - Getting Started で -https://www.kaggle.com/competitions?sortOption=numTeams&hostSegmentIdFilter=5 最も代表的な2つのチュートリアル相当をやってみる。 *詳細 [#o974d2a5] -チュートリアルをヤッた結果、基本操作以外に以下が重要になる事が解った。 -具体的には、数値・カテゴリカル・データ以外の特徴量エンジニアリング。 -タイタニックでは、 --Name、Cabin、Ticketから、Title、Deck、TicketGroupSizeなどの特徴量をエンジニアリング --さらに、[[デッドリスト、サバイブリスト>#r2f60642]]を作成するテクニックもあるらしい。 *タイタニック生存者予測(Titanic [#e64d0dac] https://github.com/OpenTouryoProject/DxCommon/blob/master/Notebook/Jupyter/path/ScikitLearnTraining6.ipynb >Accuracy: 0.8212290502793296 **データの読込 [#qda270a9] -インターネット上のCSVを直読み。 -ORGデータから少々編集処理がされている。 **データの確認 [#ne0a0ee7] ***概要確認 [#w13d9043] -列名一覧 -変数説明 -データの最初の数行を表示 -データフレームの情報を表示 -基本的な統計量を表示 -各列の欠損値の数を表示 -数値データの分布を確認 -カテゴリカル変数の可能性のある列 -カテゴリカル変数の値のカウント -Nameは解るケド、Ticket、Cabinって何? --Name --Ticket --Cabin ***詳細確認 [#y018de15] -カテゴリカルデータの頻度分析 -相関行列をヒートマップで表示 -数値の説明変数と目的変数の関係の確認 --Age --SibSp --Parch --Fare -カテゴリカル説明変数と目的変数の関係の確認 -その他の説明変数と目的変数の関係の確認 **データの前処理 [#ob752f1e] ***特徴量エンジニアリング [#f33b6192] -Deck -FamilySize -TicketGroupSize -Title ***欠損値の処理とエンコーディング [#daf6781a] 欠損値の処理とカテゴリカル変数のエンコーディング -Embarkedの欠損値処理 -カテゴリカル変数のエンコーディング -Ageの欠損値処理 ***デッドリスト、サバイブリスト [#r2f60642] (詳しくはリンク先のNotebookをご参照下さい) -デッドリスト(Dead_list)~ 16才以下または女性のグループで全員生存する慣例に反し全員死亡した名字(姓)のリスト -サバイブリスト(Survived_list)~ 16才を超えかつ男性のグループは全員死亡する慣例に反し全員生存した名字(姓)のリスト 該当データは推論時データを結果がデッド or サバイブになるように書き換える。 ***特徴量の選択 [#qc820a9e] |変数名|説明|h |Survived|目的変数、以下はすべて説明変数。| |Pclass|富豪ほど生存| |Age|20歳未満の生存率が高い、幼児は特に生存率が高い。欠損値はから推定| |SibSp|大所帯の生存率が低い。次いで、独り身の生存率が低い。| |Parch|大所帯の生存率が低い。次いで、独り身の生存率が低い。| |Fare|最低の価格帯以外は生き残る確率が高い。高価格帯は顕著に高い(Pclassと高い相関関係)| |FamilySize|SibSp・Parchから特徴量エンジニアリングしたFamilySize = SibSp + Parch + 1は同じ様な傾向を示す。| |TicketGroupSize|Ticketから特徴量エンジニアリングしたTicketGroupSizeはFamilySizeと同じ様な傾向を示す。| |Sex_|女性ほど生存| |Deck_|Cabinから特徴量エンジニアリングしたDeck、避難経路と関係し、目的変数と高い相関関係を示す。| |Title|名前から特徴量エンジニアリングした肩書、地位とと関係し、目的変数と高い相関関係を示す。| |Embarked_|C=Cherbourg、Q=Queenstown、S=Southamptonのうち、Southamptonが優遇されているが、間接的な影響の可能性| **学習と推定 [#y0772687] ***データ準備 [#u7d5eeef] -XY分割 -ホールドアウト法分割 -標準化 ***学習 [#p2fbae3f] 幾つかのモデルを試す。 -ロジスティック回帰 -ランダムフォレスト -勾配ブースティング ***推定 [#v61a49ee] [[デッドリスト、サバイブリスト>#r2f60642]]のテクニックで正解率が上がる。 ***評価 [#vbed5fef] Accuracy: 0.8212290502793296 *住宅価格予測(House Prices [#f847d4f3] **データの読込 [#n9a89fde] **データの確認 [#ke5d87b2] ***概要確認 [#x4b43239] ***詳細確認 [#l582b738] **データの前処理 [#se73d834] ***特徴量エンジニアリング [#lb9a3e4a] ***欠損値の処理とエンコーディング [#z11b80c3] ***特徴量の選択 [#ja780552] **学習と推定 [#y99af50d] ***データ準備 [#m951f0e7] ***学習 [#xe171fca] ***推定 [#o1a1285f] ***評価 [#bb9bbbb7] *参考 [#a5c02ca5] **Titanic [#vaa32227] -Kaggle のタイタニック問題に Keras で挑戦した。~ 前処理が課題だと分かった。 | Futurismo~ https://futurismo.biz/archives/6296/ -KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)~ IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社~ https://lp-tech.net/articles/0QUUd -タイタニック号の乗客の生存予測~ 80%以上の予測精度を超える方法(モデル構築&推論編) │ キヨシの命題~ https://yolo-kiyoshi.com/2020/01/22/post-1588/ -【Kaggle初心者入門編】タイタニック号で生き残るのは誰?~ https://www.codexa.net/kaggle-titanic-beginner/ -ChatGPT-4にKaggleのタイタニック号の生存予測モデルの~ 特徴量エンジニアリングについて質問してみた(大城)|ChatGPT部 Produced by NOB DATA~ https://note.com/chatgpt_nobdata/n/n8a436d82d7c4 -タイタニック号の乗客の生存予測~Kaggleに挑戦 │ キヨシの命題 --(その1)~ https://yolo-kiyoshi.com/2017/11/15/post-499/ --(その2)~ https://yolo-kiyoshi.com/2017/11/19/post-575/ --(その3)~ https://yolo-kiyoshi.com/2017/11/26/post-599/ --誰でも理解できる予測モデルの構築~ https://yolo-kiyoshi.com/2018/01/08/post-705/ --探索的データ解析編~ https://yolo-kiyoshi.com/2018/12/16/post-951/ --モデル構築&推論編~ https://yolo-kiyoshi.com/2020/01/22/post-1588/ ***Kaggle [#wf1dadc7] -【日本語】Titanic_チュートリアル~ https://www.kaggle.com/code/hatokgl/titanic -実践 Kaggle Titanic 生存者予測~ https://www.kaggle.com/code/tatsuyateshima/kaggle-titanic -Kaggleチュートリアル『Titanic生存者予測』をやってみよう!~ https://www.kaggle.com/code/plasticgrammer/kaggle-titanic ***Qiita [#bf3aa45c] -Kaggle初挑戦感想とタイタニック正答率81%の内容~ https://qiita.com/FukuharaYohei/items/c87f61aee2a24466d5d4 -KaggleチュートリアルTitanicで上位2%以内に入るノウハウ~ https://qiita.com/jun40vn/items/d8a1f71fae680589e05c -初心者がKaggle Titanicで上位1.5%(0.83732)以内に入るアプローチ解説 --https://qiita.com/shiroino11111/items/bc3889fa38ff32d46c13 --https://qiita.com/shiroino11111/items/fb6aa6b7dba2ddc3ce04 --https://qiita.com/shiroino11111/items/21bf1303587eeae0fc30 **House Prices [#s9214367] ***Kaggle [#p4ddb43a] -House Prices - Advanced Regression Techniques~ https://www.kaggle.com/c/house-prices-advanced-regression-techniques -住宅価格の予測(House Prices)~ https://www.kaggle.com/code/walzer55/house-prices -Kaggle 日本語チュートリアル:Prediction(予測) House Prices~ https://www.kaggle.com/code/katotaka/kaggle-prediction-house-prices/notebook ***Qiita [#g86f0c8f] -Kaggleの練習問題(Regression)を解いてKagglerになる~ https://qiita.com/katsu1110/items/a1c3185fec39e5629bcb -【データ分析、Kaggle入門】House Pricesの日本語チュートリアル記事4選~ https://qiita.com/yyokii/items/a5a772bf4f32183a3501