EnsekiTT Blog

EnsekiTTが書くブログです。

Pandas

pd.Seriesを入れるとOne Hot Encodingしてpd.DataFrameにしてくれる関数を用意した話

つまりなにしたの? カテゴリデータで構成されるpandasのpd.Seriesを入力すると、One Hot Encodingをして、 pd.DataFrameとして返してくれる関数(one_hot_encoding)を用意した。

カテゴリデータがあってもpandasのscatter_matrixで表示するといいよって話

つまりなにしたの? pandas.plotting.scatter_matrixを使うと散布図行列が作れるけど、カテゴリデータも含めて表示したほうがいいなって思って紹介した。

DataFrameのQueryを使って条件に合致する行を抽出する話

つまりなにしたの? DataFrameのqueryを使って、条件による行の抽出を直感的に見やすい式で書いた。

DataFrameからサンプリングしたあとの残りが欲しい時の話

つまりなにしたの? DataFrameからsampleでサンプリングしたあとに、サンプリングされなかったデータが欲しくなる時があって、 なんか毎回やり方を迷っているような気がするので、Blogにまとめた。

Pandas.Series.strの文字列処理を全部試した話

つまりなにしたの? Pandas.Series(Pandasの文字列が入った列データ)にはstrという文字列処理を行う関数群がある。 意外と数があってあまり把握できていなかったので、全部実行してみてすぐに思い出せるようにした。

PandasでHTMLのTableタグをひろってDataFrameに突っ込んだ話

つまりなにしたの? いままでそもそもRubyでスクレイピングしてCSVにしてから保存してたり、 BeautifulSoupでちまちまスクレイピングしてたけど、実はPandasでいきなりDataFrameに変換できるらしいので試してみた。

PandasのDataFrameでカテゴリを各カテゴリ毎のTrue/False列に展開した話

つまりなにしたの? PandasのDataFrameで 例えば 「曜日の入った列があった時に、月曜日フラグ列、火曜日フラグ列、…に展開する」 みたいなことをやった。 ユニークなパラメータごとにフラグ列を作るといえばいいのかな。 ベストプラクティスかはわからない…

他人のツイートに度し難いとか言ってたけど自分のツイートも度し難かった話

つまりなにしたの? Twitterには過去の自分のツイート全部ダウンロードする機能があるので、今後何か遊ぶときのためにダウンロードしてPandasでDataframeにしておいた。

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。