データマイニング（DM）- DataSet のバックアップ(No.15)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- CRISP-DM
- Excel
- KNIME
- Python
- Python - DL
- DataSet

目次 †

目次
概要
詳細
参考

↑

概要 †

サンプルデータセット

↑

詳細 †

↑

scikit-learnトイ・データセット †

↑

ボストン住宅価格データセット †

重回帰分析などで利用できる。

from sklearn import datasets
boston = datasets.load_boston()
df_data = pd.DataFrame(boston.data, columns=boston.feature_names)
df_target = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

説明

変数名	変数の説明
crim	一人当たりの犯罪率＝町別の犯罪率
zn	25,000 平方フィート超の区画の住宅地の比率＝広い家の割合
indus	タウン毎の非小売りビジネスエーカーの比率＝町別の非小売業の割合
chas	チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)＝川の隣か
nox	NOx濃度（0.1ppm単位）
rm	1戸当たりの平均部屋数
age	1940年より前に建てられた持ち家の割合＝古い家の割合
dis	5つあるボストン雇用センターまでの加重距離＝主要施設への距離
rad	主要高速道路へのアクセス性の指数
tax	10,000ドル当たりの固定資産税率
ptratio	町別の生徒と先生の比率
black	町ごとの黒人の割合
lstat	低所得者人口の割合
medv	「住宅価格」（1000ドル単位）の中央値

↑

アイリス・データセット †

古典的で非常に簡単なマルチクラス分類データセット

from sklearn import datasets
iris = datasets.load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_names)
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

↑

ワイン・データセット †

アイリス・データセットと同じ。

from sklearn import datasets
wine = datasets.load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_names)
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

↑

乳がんデータセット †

古典的で非常に簡単な二項分類データセット

from sklearn import datasets
breast_cancer = datasets.load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

↑

糖尿病データセット †

２クラス分類で使用できる。

from sklearn import datasets
diabetes = datasets.load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df_target = pd.DataFrame(diabetes.target, columns=['target'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

説明

変数名	変数の説明
Pregnancies	妊娠回数
Glucose	経口ブドウ糖負荷試験における2時間後の血漿グルコース濃度
BloodPressure?	拡張期血圧(mmHg)
SkinThickness?	上腕三頭筋皮膚襞厚(mm)
Insulin	2時間血清インスリン(mu U/ml)
BMI	肥満度（体重kg/身長m）^2
DiabetesPedigreeFunction?	糖尿病血統機能
Age	年齢(歳)
Outcome	クラス変数(0または1)

※ ソースはUCIのデータセット

↑

MNIST 手書き数字データセット †

数字の8x8画像（画像認識用
（MNIST）よりも少し小さデータセット（1797データ）

from sklearn import datasets
digits = datasets.load_digits()
x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False)
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

↑

体操のLinnerudデータセット †

多出力回帰タスクに適している

↑

Kerasデータセット †

↑

MNIST 手書き数字データベース †

数字の8x8画像（画像認識用

from keras.datasets import mnist
(x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data()
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

※ 分析例

↑

CIFAR10 画像分類 †

10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ（32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()

※ 分析例

↑

CIFAR100 画像分類 †

100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ（32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()

↑

オリジナルのデータ。
加工済みのデータをKaggleなどで拾うことが多い。

↑

アイリス・データセット †

https://archive.ics.uci.edu/ml/datasets/Iris

↑

ワイン・データセット †

https://archive.ics.uci.edu/ml/datasets/Wine

↑

乳がんデータセット †

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

↑

糖尿病データセット †

https://archive.ics.uci.edu/ml/datasets/Diabetes

※ 権限の制限により、このデータセットは利用できなくなりました。

↑

卸売顧客データセット †

https://archive.ics.uci.edu/ml/datasets/wholesale+customers

↑

案外、無いな...。 †

↑

GitHub †

ググるとGitHubにCSVがあるケースが多い。

↑

Kaggle †

https://www.kaggle.com/datasets

タイタニック
...

↑

その他、見つけ次第。 †

↑

IMDbデータセット †

https://www.imdb.com/interfaces/

↑

IMDB映画レビュー感情分類 †

https://ai.stanford.edu/~amaas/data/sentiment/

...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。

一般的にmovie_data.csvと言うファイル名が使われている。
Kerasデータセット中にも含まれる模様。

↑

参考 †

scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
https://note.nkmk.me/python-sklearn-datasets-load-fetch/

Kaggleデータセットまとめ - Qiita
https://qiita.com/hiro6000/items/27e0847e729a703915c4

AI・機械学習のデータセット辞典 - ＠IT
https://atmarkit.itmedia.co.jp/ait/series/17285/

データマイニング（DM）- DataSet のバックアップ(No.15)

目次 †

概要 †

詳細 †

scikit-learnトイ・データセット †

ボストン住宅価格データセット †

アイリス・データセット †

ワイン・データセット †

乳がんデータセット †

糖尿病データセット †

MNIST 手書き数字データセット †

体操のLinnerudデータセット †

Kerasデータセット †

MNIST 手書き数字データベース †

CIFAR10 画像分類 †

CIFAR100 画像分類 †

IMDB映画レビュー感情分類 †

ロイターのニュースワイヤー トピックス分類 †

Fashion-MNIST ファッション記事データベース †

ボストンの住宅価格回帰データセット †

UCI機械学習リポジトリ：データセット †

アイリス・データセット †

ワイン・データセット †

乳がんデータセット †

糖尿病データセット †

卸売顧客データセット †

案外、無いな...。 †

GitHub †

Kaggle †

その他、見つけ次第。 †

IMDbデータセット †

IMDB映画レビュー感情分類 †

参考 †

ロイターのニュースワイヤートピックス分類 †