Pandas
つまりなにしたの? カテゴリデータで構成されるpandasのpd.Seriesを入力すると、One Hot Encodingをして、 pd.DataFrameとして返してくれる関数(one_hot_encoding)を用意した。
つまりなにしたの? pandas.plotting.scatter_matrixを使うと散布図行列が作れるけど、カテゴリデータも含めて表示したほうがいいなって思って紹介した。
つまりなにしたの? DataFrameのqueryを使って、条件による行の抽出を直感的に見やすい式で書いた。
つまりなにしたの? DataFrameからsampleでサンプリングしたあとに、サンプリングされなかったデータが欲しくなる時があって、 なんか毎回やり方を迷っているような気がするので、Blogにまとめた。
つまりなにしたの? Pandas.Series(Pandasの文字列が入った列データ)にはstrという文字列処理を行う関数群がある。 意外と数があってあまり把握できていなかったので、全部実行してみてすぐに思い出せるようにした。
つまりなにしたの? いままでそもそもRubyでスクレイピングしてCSVにしてから保存してたり、 BeautifulSoupでちまちまスクレイピングしてたけど、実はPandasでいきなりDataFrameに変換できるらしいので試してみた。
つまりなにしたの? PandasのDataFrameで 例えば 「曜日の入った列があった時に、月曜日フラグ列、火曜日フラグ列、…に展開する」 みたいなことをやった。 ユニークなパラメータごとにフラグ列を作るといえばいいのかな。 ベストプラクティスかはわからない…
つまりなにしたの? Twitterには過去の自分のツイート全部ダウンロードする機能があるので、今後何か遊ぶときのためにダウンロードしてPandasでDataframeにしておいた。