機械学習
つまりなにしたの? まえに、外れ値をクリップする話をしたけど、いきなりクリップする前にリストアップすることにした。 どんな関数? - 入力: Pandas DataFrameのSeries、バイアス(1.5がデフォルト) - 出力: 外れ値判定されたものがTrueのSeries - 処理:…
つまりなにしたの? 前回XGBoostを使ってクラス分類ができることを確認した。今度は、アヤメのがく弁の長さをそれ以外の要素から予測する回帰問題として扱ってみる。 一応RMSEとして評価して寄与率の可視化も行った。
つまりなにしたの? せっかく導入したXGBoostがちゃんと使えるのか試すために、機械学習のHello Worldとも言えるIrisデータ(アヤメの花弁とかのデータ)を使ってアヤメの種類がどれだけ当てられるのか試してみた。特徴量の寄与度合いや木の可視化もしてみる…
つまりなにしたの? せっかく導入したXGBoostがちゃんと使えるのか試すために、機械学習のHello Worldとも言えるIrisデータ(アヤメの花弁とかのデータ)を使ってアヤメの種類がどれだけ当てられるのか試してみる。
つまりなにしたの? pandasのデータフレームから1シリーズ(列)を入力すると外れ値をクリップして返してくれる関数を用意した。Irisのデータセットに外れ値を追加して実際に除去してみる例を紹介する。
つまりなにしたの? XGBoostをシステムのPythonではなく、pyenvのPythonにインストールした。 なおMacOS High Sierraの場合
つまりなにしたの? カテゴリデータを説明変数に含むデータを機械学習に突っ込む時にはよくカテゴリデータをワンホット表現にすることが多い。 今回はそのワンホット表現を作る話。
つまりなにしてるの? arXivで機械学習関連の論文を流し読みするために、arXivTimesとFeedlyで読みたいものを選んで、 時間を決めて手法と実験(評価)と参考文献(のアブストラクト)を読んでいる。
つまりなにしたの? 機械学習だディープラーニングだっ!と予測アルゴリズムを弄くりまわしたくなる気持ちをぐっと抑えて、 構築したアルゴリズムの予測結果を評価するための誤差(Error)の話。 ってことでデータ解析のコンテストとかでもよく使う誤差とその…
いや、毎度思うのは。 アルゴリズム実現するところより、自分の扱いたいデータを適切にライブラリに合わせるところがめんどくさいと言うかなんというか… TensorFlowの時と同じモチベーション データセットも同じくhttp://deeplearning.net/tutorial/gettings…
今回使ったデータセットはこちら http://deeplearning.net/tutorial/gettingstarted.html の mnist.pkl.gz これが、train,testが分かれていない曲者で、でもデータ構造的にはわかりやすくてまさに getting startedなんだけど。直接TensorFlowのチュートリア…
まとめてくださってる方がいたのでメモのためにもここに貼っておこう。 統計・機械学習・データマイニングの無料で読めるPDF資料 [NAVER まとめ]