.NET 開発基盤部会 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

サンプルデータセット

詳細

Kaggle

https://www.kaggle.com/datasets

タイタニック

scikit-learnトイ・データセット

https://scikit-learn.org/stable/datasets/toy_dataset.html

ボストン住宅価格データセット

重回帰分析などで利用できる。

from sklearn.datasets import load_boston
boston = load_boston()
df_data = pd.DataFrame(boston.data, columns=boston.feature_names)
df_target = pd.DataFrame(boston.target, columns=['MEDV'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

アイリス・データセット

古典的で非常に簡単なマルチクラス分類データセット

from sklearn.datasets import load_iris
iris = load_iris()
df_data = pd.DataFrame(iris.data, columns=iris.feature_names)
df_target = pd.DataFrame(iris.target, columns=['species'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

ワイン・データセット

アイリス・データセットと同じ。

from sklearn.datasets import load_wine
wine = load_wine()
df_data = pd.DataFrame(wine.data, columns=wine.feature_names)
df_target = pd.DataFrame(wine.target, columns=['classes'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

乳がんデータセット

古典的で非常に簡単な二項分類データセット

from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
df_data = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
df_target = pd.DataFrame(breast_cancer.target, columns=['diagnosis'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

糖尿病データセット

from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
df_data = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df_target = pd.DataFrame(diabetes.target, columns=['target'])
df = pd.concat([df_data, df_target], axis=1)
df.head()

※ ソースはUCIのデータセット

数字データセット

数字の8x8画像(画像認識用

体操のLinnerudデータセット

多出力回帰タスクに適している

UCI機械学習リポジトリ:データセット

https://archive.ics.uci.edu/ml/datasets

アイリス・データセット

https://archive.ics.uci.edu/ml/datasets/Iris

ワイン・データセット

https://archive.ics.uci.edu/ml/datasets/Wine

乳がんデータセット

https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29

糖尿病データセット

https://archive.ics.uci.edu/ml/datasets/Diabetes

卸売顧客データセット

https://archive.ics.uci.edu/ml/datasets/wholesale+customers

その他、見つけ次第。

IMDbデータセット

https://www.imdb.com/interfaces/

感情分析用の映画レビューデータセット

https://ai.stanford.edu/~amaas/data/sentiment/

...だが、生データが使えないので、誰かが加工したデータを取って来る
事になる(一般的にmovie_data.csvと言うファイル名が使われている)。

参考


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS