データマイニング（DM）- DataSet のバックアップ(No.12)

「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

戻る
- CRISP-DM
- Excel
- KNIME
- Python
- Python - DL
- DataSet

目次 †

目次
概要
詳細
参考

↑

概要 †

サンプルデータセット

↑

詳細 †

↑

scikit-learnトイ・データセット †

↑

ボストン住宅価格データセット †

重回帰分析などで利用できる。

from sklearn import datasets
boston = datasets.load_boston()
df_data = pd.DataFrame(boston.data, columns=boston.feature_names)
df_target = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

↑

アイリス・データセット †

古典的で非常に簡単なマルチクラス分類データセット

from sklearn import datasets
iris = datasets.load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_names)
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

↑

ワイン・データセット †

アイリス・データセットと同じ。

from sklearn import datasets
wine = datasets.load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_names)
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

↑

乳がんデータセット †

古典的で非常に簡単な二項分類データセット

from sklearn import datasets
breast_cancer = datasets.load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

↑

糖尿病データセット †

from sklearn import datasets
diabetes = datasets.load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df_target = pd.DataFrame(diabetes.target, columns=['target'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

↑

MNIST 手書き数字データセット †

数字の8x8画像（画像認識用
（MNIST）よりも少し小さデータセット（1797データ）

from sklearn import datasets
digits = datasets.load_digits()
x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False)
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

↑

体操のLinnerudデータセット †

多出力回帰タスクに適している

↑

Kerasデータセット †

↑

MNIST 手書き数字データベース †

数字の8x8画像（画像認識用

from keras.datasets import mnist
(x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data()
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

※ 分析例

↑

CIFAR10 画像分類 †

10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ（32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()

※ 分析例

↑

CIFAR100 画像分類 †

100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ（32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()

↑

オリジナルのデータ。
加工済みのデータをKaggleなどで拾うことが多い。

↑

アイリス・データセット †

https://archive.ics.uci.edu/ml/datasets/Iris

↑

ワイン・データセット †

https://archive.ics.uci.edu/ml/datasets/Wine

↑

乳がんデータセット †

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

↑

糖尿病データセット †

https://archive.ics.uci.edu/ml/datasets/Diabetes

↑

卸売顧客データセット †

https://archive.ics.uci.edu/ml/datasets/wholesale+customers

↑

案外、無いな...。 †

↑

GitHub †

ググるとGitHubにCSVがあるケースが多い。

↑

Kaggle †

https://www.kaggle.com/datasets

タイタニック
...

↑

その他、見つけ次第。 †

↑

IMDbデータセット †

https://www.imdb.com/interfaces/

↑

IMDB映画レビュー感情分類 †

https://ai.stanford.edu/~amaas/data/sentiment/

...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。

一般的にmovie_data.csvと言うファイル名が使われている。
Kerasデータセット中にも含まれる模様。

↑

参考 †

scikit-learnのサンプルデータセットの一覧と使い方 | note.nkmk.me
https://note.nkmk.me/python-sklearn-datasets-load-fetch/

Kaggleデータセットまとめ - Qiita
https://qiita.com/hiro6000/items/27e0847e729a703915c4

AI・機械学習のデータセット辞典 - ＠IT
https://atmarkit.itmedia.co.jp/ait/series/17285/

データマイニング（DM）- DataSet のバックアップ(No.12)

目次 †

概要 †

詳細 †

scikit-learnトイ・データセット †

ボストン住宅価格データセット †

アイリス・データセット †

ワイン・データセット †

乳がんデータセット †

糖尿病データセット †

MNIST 手書き数字データセット †

体操のLinnerudデータセット †

Kerasデータセット †

MNIST 手書き数字データベース †

CIFAR10 画像分類 †

CIFAR100 画像分類 †

IMDB映画レビュー感情分類 †

ロイターのニュースワイヤー トピックス分類 †

Fashion-MNIST ファッション記事データベース †

ボストンの住宅価格回帰データセット †

UCI機械学習リポジトリ：データセット †

アイリス・データセット †

ワイン・データセット †

乳がんデータセット †

糖尿病データセット †

卸売顧客データセット †

案外、無いな...。 †

GitHub †

Kaggle †

その他、見つけ次第。 †

IMDbデータセット †

IMDB映画レビュー感情分類 †

参考 †

ロイターのニュースワイヤートピックス分類 †