EnsekiTT Blog

EnsekiTTが書くブログです。

機械学習

外れ値はクリップではなく、 まずはリストアップしろって話

つまりなにしたの? まえに、外れ値をクリップする話をしたけど、いきなりクリップする前にリストアップすることにした。 どんな関数? - 入力: Pandas DataFrameのSeries、バイアス(1.5がデフォルト) - 出力: 外れ値判定されたものがTrueのSeries - 処理:…

IrisのデータをXGBoostで回帰分析してみる話

つまりなにしたの? 前回XGBoostを使ってクラス分類ができることを確認した。今度は、アヤメのがく弁の長さをそれ以外の要素から予測する回帰問題として扱ってみる。 一応RMSEとして評価して寄与率の可視化も行った。

IrisのデータをXGBoostで解析してみる話(次回)

つまりなにしたの? せっかく導入したXGBoostがちゃんと使えるのか試すために、機械学習のHello Worldとも言えるIrisデータ(アヤメの花弁とかのデータ)を使ってアヤメの種類がどれだけ当てられるのか試してみた。特徴量の寄与度合いや木の可視化もしてみる…

IrisのデータをXGBoostで解析してみる話(初回)

つまりなにしたの? せっかく導入したXGBoostがちゃんと使えるのか試すために、機械学習のHello Worldとも言えるIrisデータ(アヤメの花弁とかのデータ)を使ってアヤメの種類がどれだけ当てられるのか試してみる。

PythonのPandasで外れ値を四分位範囲を用いてクリップする話

つまりなにしたの? pandasのデータフレームから1シリーズ(列)を入力すると外れ値をクリップして返してくれる関数を用意した。Irisのデータセットに外れ値を追加して実際に除去してみる例を紹介する。

PyEnv環境にXGBoostをインストールした話

つまりなにしたの? XGBoostをシステムのPythonではなく、pyenvのPythonにインストールした。 なおMacOS High Sierraの場合

機械学習の前処理でカテゴリデータをワンホット表現にする話

つまりなにしたの? カテゴリデータを説明変数に含むデータを機械学習に突っ込む時にはよくカテゴリデータをワンホット表現にすることが多い。 今回はそのワンホット表現を作る話。

arXivを浅く広く読むためにやっていることを紹介する話

つまりなにしてるの? arXivで機械学習関連の論文を流し読みするために、arXivTimesとFeedlyで読みたいものを選んで、 時間を決めて手法と実験(評価)と参考文献(のアブストラクト)を読んでいる。

Pythonで機械学習をやった時にその予測結果を評価する誤差関数の話

つまりなにしたの? 機械学習だディープラーニングだっ!と予測アルゴリズムを弄くりまわしたくなる気持ちをぐっと抑えて、 構築したアルゴリズムの予測結果を評価するための誤差(Error)の話。 ってことでデータ解析のコンテストとかでもよく使う誤差とその…

ChainerのMNISTチュートリアルをdata.py使わずにやってみた。

いや、毎度思うのは。 アルゴリズム実現するところより、自分の扱いたいデータを適切にライブラリに合わせるところがめんどくさいと言うかなんというか… TensorFlowの時と同じモチベーション データセットも同じくhttp://deeplearning.net/tutorial/gettings…

TensorFlowのMNISTチュートリアルをinput_data使わずにやってみた。

今回使ったデータセットはこちら http://deeplearning.net/tutorial/gettingstarted.html の mnist.pkl.gz これが、train,testが分かれていない曲者で、でもデータ構造的にはわかりやすくてまさに getting startedなんだけど。直接TensorFlowのチュートリア…

統計とか機械学習とか勉強しなきゃとは思う

まとめてくださってる方がいたのでメモのためにもここに貼っておこう。 統計・機械学習・データマイニングの無料で読めるPDF資料 [NAVER まとめ]

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。