EnsekiTT Blog

EnsekiTTが書くブログです。

scikit-learnのdatasetsにはどんなのが入っているのか調べてみた話【Breast Cancer編】

つまりなにしたの?

Blogでサンプルを使いつつ、処理方法を紹介する時に便利なscikit-learnのdatasetsにはどんなのが入っているのか
まとめておこうと思ってまとめ始めた。今回はウィスコンシン大学乳がんデータ。
f:id:ensekitt:20181102002700j:plain

やりたいこと

  • datasetsの種類リスト
  • 各説明変数の内容を簡単に示す
  • それぞれ読み出してみる
  • 目的変数の分布などを示す

今回は中でもBreast Cancerについて紹介する。

環境

 % python
Python 3.6.4 (default, Mar  2 2018, 00:45:54)
[GCC 4.2.1 Compatible Apple LLVM 9.0.0 (clang-900.0.39.2)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import numpy
>>> import pandas
>>> import sklearn
>>> numpy.__version__
'1.15.3'
>>> pandas.__version__
'0.23.4'
>>> sklearn.__version__
'0.20.0'

datasetsの種類とリスト

5. Dataset loading utilities — scikit-learn 0.20.0 documentation

  • Toy datasets

よく使われるirisやdigitsが含まれるデータセットはToyDatasetとしてあった。
今回はここからBreast Cancerについて紹介する。

  • Real datasets
  • Generated datasets

今回は各種データセットについて、読み込みの上Pandas DataFrameの説明変数と目的変数を作成することを目的とする。
importするもの

import pandas as pd
from sklearn import datasets
乳がんデータセット

データセットに含まれる特徴量は、乳房塊の微細針吸引物(FNA)のデジタル化画像から計算される。
画像中に存在する細胞核の特徴を捉えたものである。
569データ含まれていて、WDBC-MalignantとWDBC-Benignに分類する。

load_breast_cancer([return_X_y])
Load and return the breast cancer wisconsin dataset (classification).
sklearn.datasets.load_breast_cancer — scikit-learn 0.20.0 documentation


説明変数
1. mean radius 平均半径
2. mean texture テクスチャをグレースケールにした際の平均
3. mean perimeter 平均外周の長さ
4. mean area 平均面積
5. mean smoothness 平均なめらかさ(半径の分散)
6. mean compactness 外周長さ^2 / 面積 - 1.0で示すコンパクトさ平均
7. mean concavity 輪郭の凹部の重要度の平均
8. mean concave points 輪郭の凹部の数の平均
9. mean symmetry 対称性
10. mean fractal dimension フラクタル次元の平均
11. radius error 半径誤差
12. texture error テクスチャの誤差
13. perimeter error 外周の誤差
14. area error 面積の誤差
15. smoothness error なめらかさの誤差
16. compactness error コンパクトさの誤差
17. concavity error 輪郭の凹部の重要度の誤差
18. concave points error 輪郭の凹部の数の誤差
19. symmetry error 対称性の誤差
20. fractal dimension error フラクタル次元の誤差
21. worst radius 半径最悪値
22. worst texture テクスチャ最悪値
23. worst perimeter 外周の長さ最悪値
24. worst area 面積の最悪値
25. worst smoothness なめらかさの最悪値
26. worst compactness コンパクトさの最悪値
27. worst concavity 輪郭の凹部の重要度の最悪値
28. worst concave points 輪郭の凹部の数の最悪値
29. worst symmetry 対称性の最悪値
30. worst fractal dimension フラクタル次元の最悪値

画像に対して計測を行っているため、各パラメータに平均、誤差、最悪値がある。
Nick Street's Publication List
ここの
1993 W.N. Street, W.H. Wolberg and O.L. Mangasarian
Nuclear feature extraction for breast tumor diagnosis
に定義の詳細が書いてあった。

図としてはこんなものらしい

f:id:ensekitt:20181102002649j:plain
1993 W.N. Street, W.H. Wolberg and O.L. Mangasarian
Nuclear feature extraction for breast tumor diagnosis 
IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, volume 1905, pages 861-870, San Jose, CA, 1993. (abstract)
Figure2 図中一部を引用

学習データの読み込み

breast_cancer_data = datasets.load_breast_cancer()
breast_cancer_df = pd.DataFrame(breast_cancer_data.data, columns=breast_cancer_data.feature_names)
breast_cancer_df.head()

f:id:ensekitt:20181101234208p:plain:h200
対象データの読み込み

breast_cancer_df_tgt = pd.DataFrame(breast_cancer_data.target, columns=['target'])
breast_cancer_df_tgt.head()

f:id:ensekitt:20181101234232p:plain:h200
f:id:ensekitt:20181101234326p:plain:w480

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。