「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
サンプルデータセット
from sklearn import datasets boston = datasets.load_boston() df_data = pd.DataFrame(boston.data, columns=boston.feature_names) df_target = pd.DataFrame(boston.target, columns=['MEDV']) df = pd.concat([df_data, df_target], axis=1) df.head()
変数名 | 変数の説明 |
crim | 一人当たりの犯罪率=町別の犯罪率 |
zn | 25,000 平方フィート超の区画の住宅地の比率=広い家の割合 |
indus | タウン毎の非小売りビジネスエーカーの比率=町別の非小売業の割合 |
chas | チャールズ川変数 (= 1 川に隣接, = 0 隣接しない)=川の隣か |
nox | NOx濃度(0.1ppm単位) |
rm | 1戸当たりの平均部屋数 |
age | 1940年より前に建てられた持ち家の割合=古い家の割合 |
dis | 5つあるボストン雇用センターまでの加重距離=主要施設への距離 |
rad | 主要高速道路へのアクセス性の指数 |
tax | 10,000ドル当たりの固定資産税率 |
ptratio | 町別の生徒と先生の比率 |
black | 町ごとの黒人の割合 |
lstat | 低所得者人口の割合 |
medv | 「住宅価格」(1000ドル単位)の中央値 |
古典的で非常に簡単なマルチクラス分類データセット
from sklearn import datasets iris = datasets.load_iris() df_data = pd.DataFrame(iris.data, columns=iris.feature_names) df_target = pd.DataFrame(iris.target, columns=['species']) df = pd.concat([df_data, df_target], axis=1) df.head()
アイリス・データセットと同じ。
from sklearn import datasets wine = datasets.load_wine() df_data = pd.DataFrame(wine.data, columns=wine.feature_names) df_target = pd.DataFrame(wine.target, columns=['classes']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
古典的で非常に簡単な二項分類データセット
from sklearn import datasets breast_cancer = datasets.load_breast_cancer() df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names) df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis']) df = pd.concat([df_data, df_target], axis=1) df.head()
from sklearn import datasets diabetes = datasets.load_diabetes() df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) df_target = pd.DataFrame(diabetes.target, columns=['target']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
from sklearn import datasets digits = datasets.load_digits() x_train_org, x_test_org, y_train_org, y_test_org = train_test_split(digits.data, digits.target, shuffle=False) print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape)
多出力回帰タスクに適している
from keras.datasets import mnist (x_train_org, y_train_org), (x_test_org, y_test_org) = mnist.load_data() print(x_train_org.shape, x_test_org.shape) print(y_train_org.shape, y_test_org.shape)
※ 分析例
10種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー
from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar10.load_data()
※ 分析例
100種のカテゴリのそれぞれに50,000枚のtrainデータと10,000枚のtestデータ(32x32カラー
from keras import datasets (x_train,y_train),(x_test,y_test)=datasets.cifar100.load_data()
https://archive.ics.uci.edu/ml/datasets
https://archive.ics.uci.edu/ml/datasets/Iris
https://archive.ics.uci.edu/ml/datasets/Wine
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
https://archive.ics.uci.edu/ml/datasets/Diabetes
※ 権限の制限により、このデータセットは利用できなくなりました。
https://archive.ics.uci.edu/ml/datasets/wholesale+customers
ググるとGitHubにCSVがあるケースが多い。
https://www.kaggle.com/datasets
https://www.imdb.com/interfaces/
https://ai.stanford.edu/~amaas/data/sentiment/
...だが、生データが使えないので、誰かが加工したデータを取って来る事になる。