やりたいこと
- datasetsの種類リスト
- 各説明変数の内容を簡単に示す
- それぞれ読み出してみる
- 目的変数の分布などを示す
今回は中でもよく使われるBostonとIrisについて紹介する。
環境
% python Python 3.6.4 (default, Mar 2 2018, 00:45:54) [GCC 4.2.1 Compatible Apple LLVM 9.0.0 (clang-900.0.39.2)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import numpy >>> import pandas >>> import sklearn >>> numpy.__version__ '1.15.3' >>> pandas.__version__ '0.23.4' >>> sklearn.__version__ '0.20.0'
datasetsの種類とリスト
5. Dataset loading utilities — scikit-learn 0.20.0 documentation
- Toy datasets
よく使われるirisやdigitsが含まれるデータセットはToyDatasetとしてあった。
今回はここから2つについて紹介する。
- Real datasets
- Generated datasets
今回は各種データセットについて、読み込みの上Pandas DataFrameの説明変数と目的変数を作成することを目的とする。
importするもの
import pandas as pd from sklearn import datasets
ボストンの住宅価格
ボストンの住宅価格をまとめたデータセット。
506データ含まれていて、住宅価格を回帰で予測したりする。
load_boston([return_X_y])
Load and return the boston house-prices dataset (regression).
sklearn.datasets.load_boston — scikit-learn 0.20.0 documentation
説明変数
1. CRIM 町の犯罪率
2. ZN 25000平方フィートあたりの住宅割合
3. INDUS 町の非小売業者の割合
4. CHAS チャールズ川のダミー変数(川沿いなら1、それ以外なら0)
5. NOX 酸化窒素濃度(1000万分の1)
6. RM 住居あたりの平均部屋数
7. AGE 1940年以前に建設された家の割合
8. DIS 5つのボストン雇用センターへの重み付きの距離
9. RAD 放射状の高速道路へのアクセス可能性の指標(交通の要所へのアクセス可能性?)
10. TAX 10000ドルあたりの物件税率
11. PTRATIO 町ごとの教師一人あたりの生徒の数
12. B 1000x(町ごとの黒人比率 - 0.63)^2 の値
13. LSTAT 人口あたりの低所得者比率(%)
目的変数
14. MEDV 1000ドル台での持ち家価格の中央値
学習データの読み込み
boston_data = datasets.load_boston() boston_df = pd.DataFrame(boston_data.data, columns=boston_data.feature_names) boston_df.head()
対象データの読み込み
boston_df_tgt = pd.DataFrame(boston_data.target, columns=['target'])
boston_df_tgt.head()
あやめの種類
各部位ごとのサイズからあやめの種類を予測するデータセット
150データ含まれている。あやめの種類をクラス分類で予測したりする
各クラス33%ずつ含まれている。
load_iris([return_X_y])
Load and return the iris dataset (classification).
sklearn.datasets.load_iris — scikit-learn 0.20.0 documentation
説明変数
1. sepal length 花のがくの長さ
2. sepal width 花のがくの幅
3. petal length 花弁の長さ
4. petal width 花弁の幅
目的変数
5. class: あやめの種類
-- 0 Iris Setosa
-- 1 Iris Versicolour
-- 2 Iris Virginica
学習データの読み込み
boston_data = datasets.load_boston() boston_df = pd.DataFrame(boston_data.data, columns=boston_data.feature_names) boston_df.head()
対象データの読み込み
boston_df_tgt = pd.DataFrame(boston_data.target, columns=['target'])
boston_df_tgt.head()