Kaggle - Competitions - Getting Started
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>Kaggle]]
--[[Kaggle - Notebook (Kernel)]]
--Kaggle - Competitions - Getting Started
*目次 [#nbb1d67e]
#contents
*概要 [#ffa6aeee]
Kaggle - Competitions - Getting Started で
-https://www.kaggle.com/competitions?sortOption=numTeams&...
最も代表的な2つのチュートリアル相当をやってみる。
*詳細 [#o974d2a5]
-チュートリアルをヤッた結果、基本操作以外に以下が重要にな...
-具体的には、数値・カテゴリカル・データ以外の特徴量エンジ...
-タイタニックでは、
--Name、Cabin、Ticketから、Title、Deck、TicketGroupSizeな...
--さらに、[[デッドリスト、サバイブリスト>#r2f60642]]を作...
*タイタニック生存者予測(Titanic [#e64d0dac]
https://github.com/OpenTouryoProject/DxCommon/blob/master...
>Accuracy: 0.8212290502793296
**データの読込 [#qda270a9]
-インターネット上のCSVを直読み。
-ORGデータから少々編集処理がされている。
**データの確認 [#ne0a0ee7]
***概要確認 [#w13d9043]
-列名一覧
-変数説明
-データの最初の数行を表示
-データフレームの情報を表示
-基本的な統計量を表示
-各列の欠損値の数を表示
-数値データの分布を確認
-カテゴリカル変数の可能性のある列
-カテゴリカル変数の値のカウント
-Nameは解るケド、Ticket、Cabinって何?
--Name
--Ticket
--Cabin
***詳細確認 [#y018de15]
-カテゴリカルデータの頻度分析
-相関行列をヒートマップで表示
-数値の説明変数と目的変数の関係の確認
--Age
--SibSp
--Parch
--Fare
-カテゴリカル説明変数と目的変数の関係の確認
-その他の説明変数と目的変数の関係の確認
**データの前処理 [#ob752f1e]
***特徴量エンジニアリング [#f33b6192]
-Deck
-FamilySize
-TicketGroupSize
-Title
***欠損値の処理とエンコーディング [#daf6781a]
欠損値の処理とカテゴリカル変数のエンコーディング
-Embarkedの欠損値処理
-カテゴリカル変数のエンコーディング
-Ageの欠損値処理
***デッドリスト、サバイブリスト [#r2f60642]
(詳しくはリンク先のNotebookをご参照下さい)
-デッドリスト(Dead_list)~
16才以下または女性のグループで全員生存する慣例に反し全員...
-サバイブリスト(Survived_list)~
16才を超えかつ男性のグループは全員死亡する慣例に反し全員...
該当データは推論時データを結果がデッド or サバイブになる...
***特徴量の選択 [#qc820a9e]
|変数名|説明|h
|Survived|目的変数、以下はすべて説明変数。|
|Pclass|富豪ほど生存|
|Age|20歳未満の生存率が高い、幼児は特に生存率が高い。欠損...
|SibSp|大所帯の生存率が低い。次いで、独り身の生存率が低い...
|Parch|大所帯の生存率が低い。次いで、独り身の生存率が低い...
|Fare|最低の価格帯以外は生き残る確率が高い。高価格帯は顕...
|FamilySize|SibSp・Parchから特徴量エンジニアリングしたFam...
|TicketGroupSize|Ticketから特徴量エンジニアリングしたTick...
|Sex_|女性ほど生存|
|Deck_|Cabinから特徴量エンジニアリングしたDeck、避難経路...
|Title|名前から特徴量エンジニアリングした肩書、地位とと関...
|Embarked_|C=Cherbourg、Q=Queenstown、S=Southamptonのう...
**学習と推定 [#y0772687]
***データ準備 [#u7d5eeef]
-XY分割
-ホールドアウト法分割
-標準化
***学習 [#p2fbae3f]
幾つかのモデルを試す。
-ロジスティック回帰
-ランダムフォレスト
-勾配ブースティング
***推定 [#v61a49ee]
[[デッドリスト、サバイブリスト>#r2f60642]]のテクニックで...
***評価 [#vbed5fef]
Accuracy: 0.8212290502793296
*住宅価格予測(House Prices [#f847d4f3]
**データの読込 [#n9a89fde]
**データの確認 [#ke5d87b2]
***概要確認 [#x4b43239]
***詳細確認 [#l582b738]
**データの前処理 [#se73d834]
***特徴量エンジニアリング [#lb9a3e4a]
***欠損値の処理とエンコーディング [#z11b80c3]
***特徴量の選択 [#ja780552]
**学習と推定 [#y99af50d]
***データ準備 [#m951f0e7]
***学習 [#xe171fca]
***推定 [#o1a1285f]
***評価 [#bb9bbbb7]
*参考 [#a5c02ca5]
**Titanic [#vaa32227]
-Kaggle のタイタニック問題に Keras で挑戦した。~
前処理が課題だと分かった。 | Futurismo~
https://futurismo.biz/archives/6296/
-KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82...
IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エ...
https://lp-tech.net/articles/0QUUd
-タイタニック号の乗客の生存予測~
80%以上の予測精度を超える方法(モデル構築&推論編) │ キ...
https://yolo-kiyoshi.com/2020/01/22/post-1588/
-【Kaggle初心者入門編】タイタニック号で生き残るのは誰?~
https://www.codexa.net/kaggle-titanic-beginner/
-ChatGPT-4にKaggleのタイタニック号の生存予測モデルの~
特徴量エンジニアリングについて質問してみた(大城)|ChatGPT...
https://note.com/chatgpt_nobdata/n/n8a436d82d7c4
-タイタニック号の乗客の生存予測~Kaggleに挑戦 │ キヨシの...
--(その1)~
https://yolo-kiyoshi.com/2017/11/15/post-499/
--(その2)~
https://yolo-kiyoshi.com/2017/11/19/post-575/
--(その3)~
https://yolo-kiyoshi.com/2017/11/26/post-599/
--誰でも理解できる予測モデルの構築~
https://yolo-kiyoshi.com/2018/01/08/post-705/
--探索的データ解析編~
https://yolo-kiyoshi.com/2018/12/16/post-951/
--モデル構築&推論編~
https://yolo-kiyoshi.com/2020/01/22/post-1588/
***Kaggle [#wf1dadc7]
-【日本語】Titanic_チュートリアル~
https://www.kaggle.com/code/hatokgl/titanic
-実践 Kaggle Titanic 生存者予測~
https://www.kaggle.com/code/tatsuyateshima/kaggle-titanic
-Kaggleチュートリアル『Titanic生存者予測』をやってみよう!~
https://www.kaggle.com/code/plasticgrammer/kaggle-titanic
***Qiita [#bf3aa45c]
-Kaggle初挑戦感想とタイタニック正答率81%の内容~
https://qiita.com/FukuharaYohei/items/c87f61aee2a24466d5d4
-KaggleチュートリアルTitanicで上位2%以内に入るノウハウ~
https://qiita.com/jun40vn/items/d8a1f71fae680589e05c
-初心者がKaggle Titanicで上位1.5%(0.83732)以内に入るアプ...
--https://qiita.com/shiroino11111/items/bc3889fa38ff32d46...
--https://qiita.com/shiroino11111/items/fb6aa6b7dba2ddc3c...
--https://qiita.com/shiroino11111/items/21bf1303587eeae0f...
**House Prices [#s9214367]
***Kaggle [#p4ddb43a]
-House Prices - Advanced Regression Techniques~
https://www.kaggle.com/c/house-prices-advanced-regression...
-住宅価格の予測(House Prices)~
https://www.kaggle.com/code/walzer55/house-prices
-Kaggle 日本語チュートリアル:Prediction(予測) House Prices~
https://www.kaggle.com/code/katotaka/kaggle-prediction-ho...
***Qiita [#g86f0c8f]
-Kaggleの練習問題(Regression)を解いてKagglerになる~
https://qiita.com/katsu1110/items/a1c3185fec39e5629bcb
-【データ分析、Kaggle入門】House Pricesの日本語チュートリ...
https://qiita.com/yyokii/items/a5a772bf4f32183a3501
終了行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>Kaggle]]
--[[Kaggle - Notebook (Kernel)]]
--Kaggle - Competitions - Getting Started
*目次 [#nbb1d67e]
#contents
*概要 [#ffa6aeee]
Kaggle - Competitions - Getting Started で
-https://www.kaggle.com/competitions?sortOption=numTeams&...
最も代表的な2つのチュートリアル相当をやってみる。
*詳細 [#o974d2a5]
-チュートリアルをヤッた結果、基本操作以外に以下が重要にな...
-具体的には、数値・カテゴリカル・データ以外の特徴量エンジ...
-タイタニックでは、
--Name、Cabin、Ticketから、Title、Deck、TicketGroupSizeな...
--さらに、[[デッドリスト、サバイブリスト>#r2f60642]]を作...
*タイタニック生存者予測(Titanic [#e64d0dac]
https://github.com/OpenTouryoProject/DxCommon/blob/master...
>Accuracy: 0.8212290502793296
**データの読込 [#qda270a9]
-インターネット上のCSVを直読み。
-ORGデータから少々編集処理がされている。
**データの確認 [#ne0a0ee7]
***概要確認 [#w13d9043]
-列名一覧
-変数説明
-データの最初の数行を表示
-データフレームの情報を表示
-基本的な統計量を表示
-各列の欠損値の数を表示
-数値データの分布を確認
-カテゴリカル変数の可能性のある列
-カテゴリカル変数の値のカウント
-Nameは解るケド、Ticket、Cabinって何?
--Name
--Ticket
--Cabin
***詳細確認 [#y018de15]
-カテゴリカルデータの頻度分析
-相関行列をヒートマップで表示
-数値の説明変数と目的変数の関係の確認
--Age
--SibSp
--Parch
--Fare
-カテゴリカル説明変数と目的変数の関係の確認
-その他の説明変数と目的変数の関係の確認
**データの前処理 [#ob752f1e]
***特徴量エンジニアリング [#f33b6192]
-Deck
-FamilySize
-TicketGroupSize
-Title
***欠損値の処理とエンコーディング [#daf6781a]
欠損値の処理とカテゴリカル変数のエンコーディング
-Embarkedの欠損値処理
-カテゴリカル変数のエンコーディング
-Ageの欠損値処理
***デッドリスト、サバイブリスト [#r2f60642]
(詳しくはリンク先のNotebookをご参照下さい)
-デッドリスト(Dead_list)~
16才以下または女性のグループで全員生存する慣例に反し全員...
-サバイブリスト(Survived_list)~
16才を超えかつ男性のグループは全員死亡する慣例に反し全員...
該当データは推論時データを結果がデッド or サバイブになる...
***特徴量の選択 [#qc820a9e]
|変数名|説明|h
|Survived|目的変数、以下はすべて説明変数。|
|Pclass|富豪ほど生存|
|Age|20歳未満の生存率が高い、幼児は特に生存率が高い。欠損...
|SibSp|大所帯の生存率が低い。次いで、独り身の生存率が低い...
|Parch|大所帯の生存率が低い。次いで、独り身の生存率が低い...
|Fare|最低の価格帯以外は生き残る確率が高い。高価格帯は顕...
|FamilySize|SibSp・Parchから特徴量エンジニアリングしたFam...
|TicketGroupSize|Ticketから特徴量エンジニアリングしたTick...
|Sex_|女性ほど生存|
|Deck_|Cabinから特徴量エンジニアリングしたDeck、避難経路...
|Title|名前から特徴量エンジニアリングした肩書、地位とと関...
|Embarked_|C=Cherbourg、Q=Queenstown、S=Southamptonのう...
**学習と推定 [#y0772687]
***データ準備 [#u7d5eeef]
-XY分割
-ホールドアウト法分割
-標準化
***学習 [#p2fbae3f]
幾つかのモデルを試す。
-ロジスティック回帰
-ランダムフォレスト
-勾配ブースティング
***推定 [#v61a49ee]
[[デッドリスト、サバイブリスト>#r2f60642]]のテクニックで...
***評価 [#vbed5fef]
Accuracy: 0.8212290502793296
*住宅価格予測(House Prices [#f847d4f3]
**データの読込 [#n9a89fde]
**データの確認 [#ke5d87b2]
***概要確認 [#x4b43239]
***詳細確認 [#l582b738]
**データの前処理 [#se73d834]
***特徴量エンジニアリング [#lb9a3e4a]
***欠損値の処理とエンコーディング [#z11b80c3]
***特徴量の選択 [#ja780552]
**学習と推定 [#y99af50d]
***データ準備 [#m951f0e7]
***学習 [#xe171fca]
***推定 [#o1a1285f]
***評価 [#bb9bbbb7]
*参考 [#a5c02ca5]
**Titanic [#vaa32227]
-Kaggle のタイタニック問題に Keras で挑戦した。~
前処理が課題だと分かった。 | Futurismo~
https://futurismo.biz/archives/6296/
-KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82...
IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エ...
https://lp-tech.net/articles/0QUUd
-タイタニック号の乗客の生存予測~
80%以上の予測精度を超える方法(モデル構築&推論編) │ キ...
https://yolo-kiyoshi.com/2020/01/22/post-1588/
-【Kaggle初心者入門編】タイタニック号で生き残るのは誰?~
https://www.codexa.net/kaggle-titanic-beginner/
-ChatGPT-4にKaggleのタイタニック号の生存予測モデルの~
特徴量エンジニアリングについて質問してみた(大城)|ChatGPT...
https://note.com/chatgpt_nobdata/n/n8a436d82d7c4
-タイタニック号の乗客の生存予測~Kaggleに挑戦 │ キヨシの...
--(その1)~
https://yolo-kiyoshi.com/2017/11/15/post-499/
--(その2)~
https://yolo-kiyoshi.com/2017/11/19/post-575/
--(その3)~
https://yolo-kiyoshi.com/2017/11/26/post-599/
--誰でも理解できる予測モデルの構築~
https://yolo-kiyoshi.com/2018/01/08/post-705/
--探索的データ解析編~
https://yolo-kiyoshi.com/2018/12/16/post-951/
--モデル構築&推論編~
https://yolo-kiyoshi.com/2020/01/22/post-1588/
***Kaggle [#wf1dadc7]
-【日本語】Titanic_チュートリアル~
https://www.kaggle.com/code/hatokgl/titanic
-実践 Kaggle Titanic 生存者予測~
https://www.kaggle.com/code/tatsuyateshima/kaggle-titanic
-Kaggleチュートリアル『Titanic生存者予測』をやってみよう!~
https://www.kaggle.com/code/plasticgrammer/kaggle-titanic
***Qiita [#bf3aa45c]
-Kaggle初挑戦感想とタイタニック正答率81%の内容~
https://qiita.com/FukuharaYohei/items/c87f61aee2a24466d5d4
-KaggleチュートリアルTitanicで上位2%以内に入るノウハウ~
https://qiita.com/jun40vn/items/d8a1f71fae680589e05c
-初心者がKaggle Titanicで上位1.5%(0.83732)以内に入るアプ...
--https://qiita.com/shiroino11111/items/bc3889fa38ff32d46...
--https://qiita.com/shiroino11111/items/fb6aa6b7dba2ddc3c...
--https://qiita.com/shiroino11111/items/21bf1303587eeae0f...
**House Prices [#s9214367]
***Kaggle [#p4ddb43a]
-House Prices - Advanced Regression Techniques~
https://www.kaggle.com/c/house-prices-advanced-regression...
-住宅価格の予測(House Prices)~
https://www.kaggle.com/code/walzer55/house-prices
-Kaggle 日本語チュートリアル:Prediction(予測) House Prices~
https://www.kaggle.com/code/katotaka/kaggle-prediction-ho...
***Qiita [#g86f0c8f]
-Kaggleの練習問題(Regression)を解いてKagglerになる~
https://qiita.com/katsu1110/items/a1c3185fec39e5629bcb
-【データ分析、Kaggle入門】House Pricesの日本語チュートリ...
https://qiita.com/yyokii/items/a5a772bf4f32183a3501
ページ名: