「.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
サンプルデータセット
https://www.kaggle.com/datasets
https://scikit-learn.org/stable/datasets/toy_dataset.html
重回帰分析などで利用できる。
from sklearn.datasets import load_boston boston = load_boston() df_data = pd.DataFrame(boston.data, columns=boston.feature_names) df_target = pd.DataFrame(boston.target, columns=['MEDV']) df = pd.concat([df_data, df_target], axis=1) df.head()
古典的で非常に簡単なマルチクラス分類データセット
from sklearn.datasets import load_iris iris = load_iris() df_data = pd.DataFrame(iris.data, columns=iris.feature_names) df_target = pd.DataFrame(iris.target, columns=['species']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
アイリス・データセットと同じ。
from sklearn.datasets import load_wine wine = load_wine() df_data = pd.DataFrame(wine.data, columns=wine.feature_names) df_target = pd.DataFrame(wine.target, columns=['classes']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
古典的で非常に簡単な二項分類データセット
from sklearn.datasets import load_breast_cancer breast_cancer = load_breast_cancer() df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names) df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
from sklearn.datasets import load_diabetes diabetes = load_diabetes() df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) df_target = pd.DataFrame(diabetes.target, columns=['target']) df = pd.concat([df_data, df_target], axis=1) df.head()
※ ソースはUCIのデータセット
数字の8x8画像(画像認識用
多出力回帰タスクに適している
https://archive.ics.uci.edu/ml/datasets
https://archive.ics.uci.edu/ml/datasets/Iris
https://archive.ics.uci.edu/ml/datasets/Wine
https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
https://archive.ics.uci.edu/ml/datasets/Diabetes
https://archive.ics.uci.edu/ml/datasets/wholesale+customers
https://www.imdb.com/interfaces/
https://ai.stanford.edu/~amaas/data/sentiment/
...だが、生データが使えないので、誰かが加工したデータを取って来る
事になる(一般的にmovie_data.csvと言うファイル名が使われている)。