データマイニング(DM)- DataSet
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>ビジネス インテリジェンス(BI)]]
--[[CRISP-DM>データマイニング(DM)- CRISP-DM]]
--[[Excel>データマイニング(DM)- Excel]]
--[[KNIME>データマイニング(DM)- KNIME]]
--[[Python>データマイニング(DM)- Python]]
--[[Python - DL>データマイニング(DM)- Python - DL]]
--DataSet
*目次 [#aa97ae50]
#contents
*概要 [#ief737d8]
サンプルデータセット
*詳細 [#jfa4a6a0]
**scikit-learnトイ・データセット [#o8a9e871]
-[[scikit-learn]]
-https://scikit-learn.org/stable/datasets/toy_dataset.html
***ボストン住宅価格データセット [#j8cfe8df]
-重回帰分析などで利用できる。
from sklearn import datasets
boston = datasets.load_boston()
df_data = pd.DataFrame(boston.data, columns=boston.featu...
df_target = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
-説明
|変数名 |変数の説明|h
|crim |一人当たりの犯罪率=町別の犯罪率|
|zn |25,000 平方フィート超の区画の住宅地の比率=広い...
|indus |タウン毎の非小売りビジネスエーカーの比率=町別の...
|chas |チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)...
|nox |NOx濃度(0.1ppm単位)|
|rm |1戸当たりの平均部屋数|
|age |1940年より前に建てられた持ち家の割合=古い家の割...
|dis |5つあるボストン雇用センターまでの加重距離=主要...
|rad |主要高速道路へのアクセス性の指数|
|tax |10,000ドル当たりの固定資産税率|
|ptratio| 町別の生徒と先生の比率|
|black |町ごとの黒人の割合|
|lstat |低所得者人口の割合|
|medv |「住宅価格」(1000ドル単位)の中央値|
***アイリス・データセット [#af3640dd]
古典的で非常に簡単なマルチクラス分類データセット
from sklearn import datasets
iris = datasets.load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_n...
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#fa74c695]]のデータセット、[[分析例>デー...
***ワイン・データセット [#x36a5b8f]
[[アイリス・データセット>#af3640dd]]と同じ。
from sklearn import datasets
wine = datasets.load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_n...
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#k585c347]]のデータセット
***乳がんデータセット [#i9b9ff68]
古典的で非常に簡単な二項分類データセット
from sklearn import datasets
breast_cancer = datasets.load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breas...
df_target = pd.DataFrame(breast_cancer.target, columns=[...
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#kda2913f]]のデータセット、[[分析例>デー...
***糖尿病データセット [#j443d0cb]
-2クラス分類で使用できる。
from sklearn import datasets
diabetes = datasets.load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.f...
df_target = pd.DataFrame(diabetes.target, columns=['targ...
df = pd.concat([df_data, df_target], axis=1)
df.head()
-説明
|変数名 |変数の説明|h
|Pregnancies|妊娠回数|
|Glucose|経口ブドウ糖負荷試験における2時間後の血漿グルコ...
|BloodPressure|拡張期血圧(mmHg)|
|SkinThickness|上腕三頭筋皮膚襞厚(mm)|
|Insulin|2時間血清インスリン(mu U/ml)|
|BMI|肥満度(体重kg/身長m)^2|
|DiabetesPedigreeFunction|糖尿病血統機能|
|Age|年齢(歳)|
|Outcome|クラス変数(0または1)|
※ ソースは[[UCI>#o93113f5]]のデータセット
***MNIST 手書き数字データセット [#j65c5f76]
-[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論...
-(MNIST)よりも少し小さデータセット(1797データ)
from sklearn import datasets
digits = datasets.load_digits()
x_train_org, x_test_org, y_train_org, y_test_org = train...
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)
***体操のLinnerudデータセット [#zb1ef381]
多出力回帰タスクに適している
**Kerasデータセット [#qd7e0a98]
-[[TensorFlow・Keras]]
-https://keras.io/ja/datasets/
***MNIST 手書き数字データベース [#g06b306a]
[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論...
from keras.datasets import mnist
(x_train_org, y_train_org), (x_test_org, y_test_org) = m...
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)
※ [[分析例>データマイニング(DM)- Python - CNN#bbaf9696]]
***CIFAR10 画像分類 [#cad2f27a]
10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚...
from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar10.load_...
※ [[分析例>データマイニング(DM)- Python - CNN#n1b78a93]]
***CIFAR100 画像分類 [#o155ef2d]
100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000...
from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar100.load...
***IMDB映画レビュー感情分類 [#d502611e]
***ロイターのニュースワイヤー トピックス分類 [#o7a6010a]
***Fashion-MNIST ファッション記事データベース [#q7e31e2b]
***ボストンの住宅価格回帰データセット [#jf1db4e1]
**UCI機械学習リポジトリ:データセット [#w7b80db2]
https://archive.ics.uci.edu/ml/datasets
-オリジナルのデータ。
-加工済みのデータを[[Kaggle>#mb1bf758]]などで拾うことが多...
***アイリス・データセット [#fa74c695]
https://archive.ics.uci.edu/ml/datasets/Iris
***ワイン・データセット [#k585c347]
https://archive.ics.uci.edu/ml/datasets/Wine
***乳がんデータセット [#kda2913f]
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wis...
***糖尿病データセット [#o93113f5]
https://archive.ics.uci.edu/ml/datasets/Diabetes
※ 権限の制限により、このデータセットは利用できなくなりま...
***卸売顧客データセット [#g33d6de8]
https://archive.ics.uci.edu/ml/datasets/wholesale+customers
**その他 [#x92aaf51]
***GitHub [#z994f5bd]
ググるとGitHubにCSVがあるケースが多い。
***[[Kaggle]] [#mb1bf758]
https://www.kaggle.com/datasets
※ [[Kaggle]]はデータ単品ではなく分析内容も確認できるのが...
**見つけ次第。 [#c4410b22]
***IMDbデータセット [#w48af22b]
https://www.imdb.com/interfaces/
***IMDB映画レビュー感情分類 [#tafd1897]
https://ai.stanford.edu/~amaas/data/sentiment/
...だが、生データが使えないので、誰かが加工したデータを取...
-一般的にmovie_data.csvと言うファイル名が使われている。
-[[Kerasデータセット>#d502611e]]中にも含まれる模様。
*参考 [#x8d81259]
-scikit-learnのサンプルデータセットの一覧と使い方 | note....
https://note.nkmk.me/python-sklearn-datasets-load-fetch/
-Kaggleデータセットまとめ - Qiita~
https://qiita.com/hiro6000/items/27e0847e729a703915c4
-AI・機械学習のデータセット辞典 - @IT~
https://atmarkit.itmedia.co.jp/ait/series/17285/
終了行:
「[[.NET 開発基盤部会 Wiki>http://dotnetdevelopmentinfras...
-[[戻る>ビジネス インテリジェンス(BI)]]
--[[CRISP-DM>データマイニング(DM)- CRISP-DM]]
--[[Excel>データマイニング(DM)- Excel]]
--[[KNIME>データマイニング(DM)- KNIME]]
--[[Python>データマイニング(DM)- Python]]
--[[Python - DL>データマイニング(DM)- Python - DL]]
--DataSet
*目次 [#aa97ae50]
#contents
*概要 [#ief737d8]
サンプルデータセット
*詳細 [#jfa4a6a0]
**scikit-learnトイ・データセット [#o8a9e871]
-[[scikit-learn]]
-https://scikit-learn.org/stable/datasets/toy_dataset.html
***ボストン住宅価格データセット [#j8cfe8df]
-重回帰分析などで利用できる。
from sklearn import datasets
boston = datasets.load_boston()
df_data = pd.DataFrame(boston.data, columns=boston.featu...
df_target = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
-説明
|変数名 |変数の説明|h
|crim |一人当たりの犯罪率=町別の犯罪率|
|zn |25,000 平方フィート超の区画の住宅地の比率=広い...
|indus |タウン毎の非小売りビジネスエーカーの比率=町別の...
|chas |チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)...
|nox |NOx濃度(0.1ppm単位)|
|rm |1戸当たりの平均部屋数|
|age |1940年より前に建てられた持ち家の割合=古い家の割...
|dis |5つあるボストン雇用センターまでの加重距離=主要...
|rad |主要高速道路へのアクセス性の指数|
|tax |10,000ドル当たりの固定資産税率|
|ptratio| 町別の生徒と先生の比率|
|black |町ごとの黒人の割合|
|lstat |低所得者人口の割合|
|medv |「住宅価格」(1000ドル単位)の中央値|
***アイリス・データセット [#af3640dd]
古典的で非常に簡単なマルチクラス分類データセット
from sklearn import datasets
iris = datasets.load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_n...
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#fa74c695]]のデータセット、[[分析例>デー...
***ワイン・データセット [#x36a5b8f]
[[アイリス・データセット>#af3640dd]]と同じ。
from sklearn import datasets
wine = datasets.load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_n...
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#k585c347]]のデータセット
***乳がんデータセット [#i9b9ff68]
古典的で非常に簡単な二項分類データセット
from sklearn import datasets
breast_cancer = datasets.load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breas...
df_target = pd.DataFrame(breast_cancer.target, columns=[...
df = pd.concat([df_data, df_target], axis=1)
df.head()
※ ソースは[[UCI>#kda2913f]]のデータセット、[[分析例>デー...
***糖尿病データセット [#j443d0cb]
-2クラス分類で使用できる。
from sklearn import datasets
diabetes = datasets.load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.f...
df_target = pd.DataFrame(diabetes.target, columns=['targ...
df = pd.concat([df_data, df_target], axis=1)
df.head()
-説明
|変数名 |変数の説明|h
|Pregnancies|妊娠回数|
|Glucose|経口ブドウ糖負荷試験における2時間後の血漿グルコ...
|BloodPressure|拡張期血圧(mmHg)|
|SkinThickness|上腕三頭筋皮膚襞厚(mm)|
|Insulin|2時間血清インスリン(mu U/ml)|
|BMI|肥満度(体重kg/身長m)^2|
|DiabetesPedigreeFunction|糖尿病血統機能|
|Age|年齢(歳)|
|Outcome|クラス変数(0または1)|
※ ソースは[[UCI>#o93113f5]]のデータセット
***MNIST 手書き数字データセット [#j65c5f76]
-[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論...
-(MNIST)よりも少し小さデータセット(1797データ)
from sklearn import datasets
digits = datasets.load_digits()
x_train_org, x_test_org, y_train_org, y_test_org = train...
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)
***体操のLinnerudデータセット [#zb1ef381]
多出力回帰タスクに適している
**Kerasデータセット [#qd7e0a98]
-[[TensorFlow・Keras]]
-https://keras.io/ja/datasets/
***MNIST 手書き数字データベース [#g06b306a]
[[数字の8x8画像(画像認識用>ニューラルネットワーク(推論...
from keras.datasets import mnist
(x_train_org, y_train_org), (x_test_org, y_test_org) = m...
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)
※ [[分析例>データマイニング(DM)- Python - CNN#bbaf9696]]
***CIFAR10 画像分類 [#cad2f27a]
10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚...
from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar10.load_...
※ [[分析例>データマイニング(DM)- Python - CNN#n1b78a93]]
***CIFAR100 画像分類 [#o155ef2d]
100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000...
from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar100.load...
***IMDB映画レビュー感情分類 [#d502611e]
***ロイターのニュースワイヤー トピックス分類 [#o7a6010a]
***Fashion-MNIST ファッション記事データベース [#q7e31e2b]
***ボストンの住宅価格回帰データセット [#jf1db4e1]
**UCI機械学習リポジトリ:データセット [#w7b80db2]
https://archive.ics.uci.edu/ml/datasets
-オリジナルのデータ。
-加工済みのデータを[[Kaggle>#mb1bf758]]などで拾うことが多...
***アイリス・データセット [#fa74c695]
https://archive.ics.uci.edu/ml/datasets/Iris
***ワイン・データセット [#k585c347]
https://archive.ics.uci.edu/ml/datasets/Wine
***乳がんデータセット [#kda2913f]
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wis...
***糖尿病データセット [#o93113f5]
https://archive.ics.uci.edu/ml/datasets/Diabetes
※ 権限の制限により、このデータセットは利用できなくなりま...
***卸売顧客データセット [#g33d6de8]
https://archive.ics.uci.edu/ml/datasets/wholesale+customers
**その他 [#x92aaf51]
***GitHub [#z994f5bd]
ググるとGitHubにCSVがあるケースが多い。
***[[Kaggle]] [#mb1bf758]
https://www.kaggle.com/datasets
※ [[Kaggle]]はデータ単品ではなく分析内容も確認できるのが...
**見つけ次第。 [#c4410b22]
***IMDbデータセット [#w48af22b]
https://www.imdb.com/interfaces/
***IMDB映画レビュー感情分類 [#tafd1897]
https://ai.stanford.edu/~amaas/data/sentiment/
...だが、生データが使えないので、誰かが加工したデータを取...
-一般的にmovie_data.csvと言うファイル名が使われている。
-[[Kerasデータセット>#d502611e]]中にも含まれる模様。
*参考 [#x8d81259]
-scikit-learnのサンプルデータセットの一覧と使い方 | note....
https://note.nkmk.me/python-sklearn-datasets-load-fetch/
-Kaggleデータセットまとめ - Qiita~
https://qiita.com/hiro6000/items/27e0847e729a703915c4
-AI・機械学習のデータセット辞典 - @IT~
https://atmarkit.itmedia.co.jp/ait/series/17285/
ページ名: