「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
サンプルデータセット
重回帰分析などで利用できる。
from sklearn import datasets boston = datasets.load_boston() df_data = pd.DataFrame(boston.data, columns=boston.feature_names) df_target = pd.DataFrame(boston.target, columns=['MEDV']) df = pd.concat([df_data, df_target], axis=1) df.head()
古典的で非常に簡単なマルチクラス分類データセット
from sklearn import datasets iris = datasets.load_iris() df_data = pd.DataFrame(iris.data, columns=iris.feature_names) df_target = pd.DataFrame(iris.target, columns=['species']) df = pd.concat([df_data, df_target], axis=1) df.head()
アイリス・データセットと同じ。
from sklearn import datasets wine = datasets.load_wine() df_data = pd.DataFrame(wine.data, columns=wine.feature_names) df_target = pd.DataFrame(wine.target, columns=['classes']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
古典的で非常に簡単な二項分類データセット
from sklearn import datasets breast_cancer = datasets.load_breast_cancer() df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names) df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis']) df = pd.concat([df_data, df_target], axis=1) df.head()
from sklearn import datasets diabetes = datasets.load_diabetes() df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) df_target = pd.DataFrame(diabetes.target, columns=['target']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
from sklearn import datasets digits = datasets.load_digits() x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False) print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape)
多出力回帰タスクに適している
from keras.datasets import mnist (x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data() print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape)
※ 分析例
10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー
from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()
※ 分析例
100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー
from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()
https://archive.ics.uci.edu/ml/datasets
https://archive.ics.uci.edu/ml/datasets/Iris
https://archive.ics.uci.edu/ml/datasets/Wine
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
https://archive.ics.uci.edu/ml/datasets/Diabetes
https://archive.ics.uci.edu/ml/datasets/wholesale+customers
ググるとGitHubにCSVがあるケースが多い。
https://www.kaggle.com/datasets
https://www.imdb.com/interfaces/
https://ai.stanford.edu/~amaas/data/sentiment/
...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。