「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。

-[[戻る>ビジネス インテリジェンス(BI)]]
--[[CRISP-DM>データマイニング(DM)- CRISP-DM]]
--[[Excel>データマイニング(DM)- Excel]]
--[[KNIME>データマイニング(DM)- KNIME]]
--[[Python>データマイニング(DM)- Python]]
--[[Python - DL>データマイニング(DM)- Python - DL]]
--DataSet

*目次 [#aa97ae50]
#contents

*概要 [#ief737d8]
サンプルデータセット

*詳細 [#jfa4a6a0]

**scikit-learnトイ・データセット [#o8a9e871]
-[[scikit-learn]]
-https://scikit-learn.org/stable/datasets/toy_dataset.html

***ボストン住宅価格データセット [#j8cfe8df]
-重回帰分析などで利用できる。
 from sklearn import datasets
 boston = datasets.load_boston()
 df_data = pd.DataFrame(boston.data, columns=boston.feature_names)
 df_target = pd.DataFrame(boston.target, columns=['MEDV'])
 df = pd.concat([df_data, df_target], axis=1)
 df.head()

-説明
|変数名 |変数の説明|h
|crim   |一人当たりの犯罪率=町別の犯罪率|
|zn     |25,000 平方フィート超の区画の住宅地の比率=広い家の割合|
|indus  |タウン毎の非小売りビジネスエーカーの比率=町別の非小売業の割合|
|chas   |チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)=川の隣か|
|nox    |NOx濃度(0.1ppm単位)|
|rm     |1戸当たりの平均部屋数|
|age    |1940年より前に建てられた持ち家の割合=古い家の割合|
|dis    |5つあるボストン雇用センターまでの加重距離=主要施設への距離|
|rad    |主要高速道路へのアクセス性の指数|
|tax    |10,000ドル当たりの固定資産税率|
|ptratio| 町別の生徒と先生の比率|
|black  |町ごとの黒人の割合|
|lstat  |低所得者人口の割合|
|medv   |「住宅価格」(1000ドル単位)の中央値|

***アイリス・データセット [#af3640dd]
古典的で非常に簡単なマルチクラス分類データセット

 from sklearn import datasets
 iris = datasets.load_iris()
 df_data = pd.DataFrame(iris.data, columns=iris.feature_names)
 df_target = pd.DataFrame(iris.target, columns=['species'])
 df = pd.concat([df_data, df_target], axis=1)
 df.head()

※ ソースは[[UCI>#fa74c695]]のデータセット、[[分析例>データマイニング(DM)- Python#gc1a3d04]]

***ワイン・データセット [#x36a5b8f]
[[アイリス・データセット>#af3640dd]]と同じ。

 from sklearn import datasets
 wine = datasets.load_wine()
 df_data = pd.DataFrame(wine.data, columns=wine.feature_names)
 df_target = pd.DataFrame(wine.target, columns=['classes'])
 df = pd.concat([df_data, df_target], axis=1)
 df.head()

※ ソースは[[UCI>#k585c347]]のデータセット

***乳がんデータセット [#i9b9ff68]
古典的で非常に簡単な二項分類データセット

 from sklearn import datasets
 breast_cancer = datasets.load_breast_cancer()
 df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
 df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis'])
 df = pd.concat([df_data, df_target], axis=1)
 df.head()

※ ソースは[[UCI>#kda2913f]]のデータセット、[[分析例>データマイニング(DM)- Python#we38b247]]

***糖尿病データセット [#j443d0cb]
-2クラス分類で使用できる。

 from sklearn import datasets
 diabetes = datasets.load_diabetes()
 df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
 df_target = pd.DataFrame(diabetes.target, columns=['target'])
 df = pd.concat([df_data, df_target], axis=1)
 df.head()

-説明
|変数名 |変数の説明|h
|Pregnancies|妊娠回数|
|Glucose|経口ブドウ糖負荷試験における2時間後の血漿グルコース濃度|
|BloodPressure|拡張期血圧(mmHg)|
|SkinThickness|上腕三頭筋皮膚襞厚(mm)|
|Insulin|2時間血清インスリン(mu U/ml)|
|BMI|肥満度(体重kg/身長m)^2|
|DiabetesPedigreeFunction|糖尿病血統機能|
|Age|年齢(歳)|
|Outcome|クラス変数(0または1)|

※ ソースは[[UCI>#o93113f5]]のデータセット

***MNIST 手書き数字データセット [#j65c5f76]
-[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論)#c18ded2a]]
-(MNIST)よりも少し小さデータセット(1797データ)

 from sklearn import datasets
 digits = datasets.load_digits()
 x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False)
 print(x_train_org.shape, x_test_org.shape)
 print(y_train_org.shape, y_test_org.shape)

***体操のLinnerudデータセット [#zb1ef381]
多出力回帰タスクに適している

**Kerasデータセット [#qd7e0a98]
-[[TensorFlow・Keras]]
-https://keras.io/ja/datasets/

***MNIST 手書き数字データベース [#g06b306a]
[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論)#c18ded2a]]

 from keras.datasets import mnist
 (x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data()
 print(x_train_org.shape, x_test_org.shape)
 print(y_train_org.shape, y_test_org.shape)

※ [[分析例>データマイニング(DM)- Python - CNN#bbaf9696]]

***CIFAR10 画像分類 [#cad2f27a]
10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー

 from keras import datasets
 (x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()

※ [[分析例>データマイニング(DM)- Python - CNN#n1b78a93]]

***CIFAR100 画像分類 [#o155ef2d]
100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー

 from keras import datasets
 (x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()

***IMDB映画レビュー感情分類 [#d502611e]

***ロイターのニュースワイヤー トピックス分類 [#o7a6010a]

***Fashion-MNIST ファッション記事データベース [#q7e31e2b]

***ボストンの住宅価格回帰データセット [#jf1db4e1]

**UCI機械学習リポジトリ:データセット [#w7b80db2]
https://archive.ics.uci.edu/ml/datasets

-オリジナルのデータ。
-加工済みのデータを[[Kaggle>#mb1bf758]]などで拾うことが多い。

***アイリス・データセット [#fa74c695]
https://archive.ics.uci.edu/ml/datasets/Iris

***ワイン・データセット [#k585c347]
https://archive.ics.uci.edu/ml/datasets/Wine

***乳がんデータセット [#kda2913f]
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

***糖尿病データセット [#o93113f5]
https://archive.ics.uci.edu/ml/datasets/Diabetes

※ 権限の制限により、このデータセットは利用できなくなりました。

***卸売顧客データセット [#g33d6de8]
https://archive.ics.uci.edu/ml/datasets/wholesale+customers

**その他 [#x92aaf51]

***GitHub [#z994f5bd]
ググるとGitHubにCSVがあるケースが多い。

***[[Kaggle]] [#mb1bf758]
https://www.kaggle.com/datasets

※ [[Kaggle]]はデータ単品ではなく分析内容も確認できるのが強い。

**見つけ次第。 [#c4410b22]

***IMDbデータセット [#w48af22b]
https://www.imdb.com/interfaces/

***IMDB映画レビュー感情分類 [#tafd1897]
https://ai.stanford.edu/~amaas/data/sentiment/

...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。

-一般的にmovie_data.csvと言うファイル名が使われている。
-[[Kerasデータセット>#d502611e]]中にも含まれる模様。

*参考 [#x8d81259]
-scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me~
https://note.nkmk.me/python-sklearn-datasets-load-fetch/

-Kaggleデータセットまとめ - Qiita~
https://qiita.com/hiro6000/items/27e0847e729a703915c4

-AI・機械学習のデータセット辞典 - @IT~
https://atmarkit.itmedia.co.jp/ait/series/17285/

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS