.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

サンプルデータセット

詳細

scikit-learnトイ・データセット

ボストン住宅価格データセット

アイリス・データセット

古典的で非常に簡単なマルチクラス分類データセット

from sklearn import datasets
iris = datasets.load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_names)
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

ワイン・データセット

アイリス・データセットと同じ。

from sklearn import datasets
wine = datasets.load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_names)
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

乳がんデータセット

古典的で非常に簡単な二項分類データセット

from sklearn import datasets
breast_cancer = datasets.load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット、分析例

糖尿病データセット

from sklearn import datasets
diabetes = datasets.load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df_target = pd.DataFrame(diabetes.target, columns=['target'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

MNIST 手書き数字データセット

from sklearn import datasets
digits = datasets.load_digits()
x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False)
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

体操のLinnerudデータセット

多出力回帰タスクに適している

Kerasデータセット

MNIST 手書き数字データベース

数字の8x8画像(画像認識用

from keras.datasets import mnist
(x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data()
print(x_train_org.shape, x_test_org.shape)
print(y_train_org.shape, y_test_org.shape)

分析例

CIFAR10 画像分類

10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()

分析例

CIFAR100 画像分類

100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー

from keras import datasets
(x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()

IMDB映画レビュー感情分類

ロイターのニュースワイヤー トピックス分類

Fashion-MNIST ファッション記事データベース

ボストンの住宅価格回帰データセット

UCI機械学習リポジトリ:データセット

https://archive.ics.uci.edu/ml/datasets

アイリス・データセット

https://archive.ics.uci.edu/ml/datasets/Iris

ワイン・データセット

https://archive.ics.uci.edu/ml/datasets/Wine

乳がんデータセット

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

糖尿病データセット

https://archive.ics.uci.edu/ml/datasets/Diabetes

※ 権限の制限により、このデータセットは利用できなくなりました。

卸売顧客データセット

https://archive.ics.uci.edu/ml/datasets/wholesale+customers

案外、無いな...。

GitHub

ググるとGitHubにCSVがあるケースが多い。

Kaggle

https://www.kaggle.com/datasets

その他、見つけ次第。

IMDbデータセット

https://www.imdb.com/interfaces/

IMDB映画レビュー感情分類

https://ai.stanford.edu/~amaas/data/sentiment/

...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS