「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfrastructure.osscons.jp]]」は、「[[Open棟梁Project>https://github.com/OpenTouryoProject/]]」,「[[OSSコンソーシアム .NET開発基盤部会>https://www.osscons.jp/dotNetDevelopmentInfrastructure/]]」によって運営されています。 -[[戻る>ビジネス インテリジェンス(BI)]] -[[戻る>BI / AI]] --[[CRISP-DM>データマイニング(DM)- CRISP-DM]] --[[Excel>データマイニング(DM)- Excel]] --[[KNIME>データマイニング(DM)- KNIME]] --[[Python>データマイニング(DM)- Python]] --[[Python - DL>データマイニング(DM)- Python - DL]] --DataSet *目次 [#aa97ae50] #contents *概要 [#ief737d8] サンプルデータセット *詳細 [#jfa4a6a0] **scikit-learnトイ・データセット [#o8a9e871] -[[scikit-learn]] -https://scikit-learn.org/stable/datasets/toy_dataset.html ***ボストン住宅価格データセット [#j8cfe8df] -重回帰分析などで利用できる。 from sklearn import datasets boston = datasets.load_boston() df_data = pd.DataFrame(boston.data, columns=boston.feature_names) df_target = pd.DataFrame(boston.target, columns=['MEDV']) df = pd.concat([df_data, df_target], axis=1) df.head() -説明 |変数名 |変数の説明|h |crim |一人当たりの犯罪率=町別の犯罪率| |zn |25,000 平方フィート超の区画の住宅地の比率=広い家の割合| |indus |タウン毎の非小売りビジネスエーカーの比率=町別の非小売業の割合| |chas |チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)=川の隣か| |nox |NOx濃度(0.1ppm単位)| |rm |1戸当たりの平均部屋数| |age |1940年より前に建てられた持ち家の割合=古い家の割合| |dis |5つあるボストン雇用センターまでの加重距離=主要施設への距離| |rad |主要高速道路へのアクセス性の指数| |tax |10,000ドル当たりの固定資産税率| |ptratio| 町別の生徒と先生の比率| |black |町ごとの黒人の割合| |lstat |低所得者人口の割合| |medv |「住宅価格」(1000ドル単位)の中央値| ***アイリス・データセット [#af3640dd] 古典的で非常に簡単なマルチクラス分類データセット from sklearn import datasets iris = datasets.load_iris() df_data = pd.DataFrame(iris.data, columns=iris.feature_names) df_target = pd.DataFrame(iris.target, columns=['species']) df = pd.concat([df_data, df_target], axis=1) df.head() ※ ソースは[[UCI>#fa74c695]]のデータセット、[[分析例>データマイニング(DM)- Python#gc1a3d04]] ***ワイン・データセット [#x36a5b8f] [[アイリス・データセット>#af3640dd]]と同じ。 from sklearn import datasets wine = datasets.load_wine() df_data = pd.DataFrame(wine.data, columns=wine.feature_names) df_target = pd.DataFrame(wine.target, columns=['classes']) df = pd.concat([df_data, df_target], axis=1) df.head() ※ ソースは[[UCI>#k585c347]]のデータセット ***乳がんデータセット [#i9b9ff68] 古典的で非常に簡単な二項分類データセット from sklearn import datasets breast_cancer = datasets.load_breast_cancer() df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names) df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis']) df = pd.concat([df_data, df_target], axis=1) df.head() ※ ソースは[[UCI>#kda2913f]]のデータセット、[[分析例>データマイニング(DM)- Python#we38b247]] ***糖尿病データセット [#j443d0cb] -2クラス分類で使用できる。 from sklearn import datasets diabetes = datasets.load_diabetes() df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) df_target = pd.DataFrame(diabetes.target, columns=['target']) df = pd.concat([df_data, df_target], axis=1) df.head() -説明 |変数名 |変数の説明|h |Pregnancies|妊娠回数| |Glucose|経口ブドウ糖負荷試験における2時間後の血漿グルコース濃度| |BloodPressure|拡張期血圧(mmHg)| |SkinThickness|上腕三頭筋皮膚襞厚(mm)| |Insulin|2時間血清インスリン(mu U/ml)| |BMI|肥満度(体重kg/身長m)^2| |DiabetesPedigreeFunction|糖尿病血統機能| |Age|年齢(歳)| |Outcome|クラス変数(0または1)| ※ ソースは[[UCI>#o93113f5]]のデータセット ***MNIST 手書き数字データセット [#j65c5f76] -[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論)#c18ded2a]] -(MNIST)よりも少し小さデータセット(1797データ) from sklearn import datasets digits = datasets.load_digits() x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False) print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape) ***体操のLinnerudデータセット [#zb1ef381] 多出力回帰タスクに適している **Kerasデータセット [#qd7e0a98] -[[TensorFlow・Keras]] -https://keras.io/ja/datasets/ ***MNIST 手書き数字データベース [#g06b306a] [[数字の8x8画像(画像認識用>ニューラルネットワーク(推論)#c18ded2a]] from keras.datasets import mnist (x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data() print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape) ※ [[分析例>データマイニング(DM)- Python - CNN#bbaf9696]] ***CIFAR10 画像分類 [#cad2f27a] 10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data() ※ [[分析例>データマイニング(DM)- Python - CNN#n1b78a93]] ***CIFAR100 画像分類 [#o155ef2d] 100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data() ***IMDB映画レビュー感情分類 [#d502611e] ***ロイターのニュースワイヤー トピックス分類 [#o7a6010a] ***Fashion-MNIST ファッション記事データベース [#q7e31e2b] ***ボストンの住宅価格回帰データセット [#jf1db4e1] **UCI機械学習リポジトリ:データセット [#w7b80db2] https://archive.ics.uci.edu/ml/datasets -オリジナルのデータ。 -加工済みのデータを[[Kaggle>#mb1bf758]]などで拾うことが多い。 ***アイリス・データセット [#fa74c695] https://archive.ics.uci.edu/ml/datasets/Iris ***ワイン・データセット [#k585c347] https://archive.ics.uci.edu/ml/datasets/Wine ***乳がんデータセット [#kda2913f] https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29 ***糖尿病データセット [#o93113f5] https://archive.ics.uci.edu/ml/datasets/Diabetes ※ 権限の制限により、このデータセットは利用できなくなりました。 ***卸売顧客データセット [#g33d6de8] https://archive.ics.uci.edu/ml/datasets/wholesale+customers **その他 [#x92aaf51] ***GitHub [#z994f5bd] ググるとGitHubにCSVがあるケースが多い。 ***[[Kaggle]] [#mb1bf758] https://www.kaggle.com/datasets ※ [[Kaggle]]はデータ単品ではなく分析内容も確認できるのが強い。 **見つけ次第。 [#c4410b22] ***IMDbデータセット [#w48af22b] https://www.imdb.com/interfaces/ ***IMDB映画レビュー感情分類 [#tafd1897] https://ai.stanford.edu/~amaas/data/sentiment/ ...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。 -一般的にmovie_data.csvと言うファイル名が使われている。 -[[Kerasデータセット>#d502611e]]中にも含まれる模様。 *参考 [#x8d81259] -scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me~ https://note.nkmk.me/python-sklearn-datasets-load-fetch/ -Kaggleデータセットまとめ - Qiita~ https://qiita.com/hiro6000/items/27e0847e729a703915c4 -AI・機械学習のデータセット辞典 - @IT~ https://atmarkit.itmedia.co.jp/ait/series/17285/