EnsekiTT Blog

EnsekiTTが書くブログです。

Pandas.Series.strの文字列処理を全部試した話

つまりなにしたの?

Pandas.Series(Pandasの文字列が入った列データ)にはstrという文字列処理を行う関数群がある。
意外と数があってあまり把握できていなかったので、全部実行してみてすぐに思い出せるようにした。
f:id:ensekitt:20180319060743j:plain

Pandas.Series.strとは?

Pandasのデータフレームの列(Series)にはstrという文字列処理を行う関数群がある。
それぞれ単体で使うこともあれば、条件に合わせてデータクリーニングに使ったりすることもある。
ただ、割りと汎用的な処理を頑張って組み合わせるよりも知ってれば簡単に終わるみたいなものもある。
うろ覚えでもいいから一発全部試して「感覚的になんかもっと簡単に出来た気がする。」とコードを書いている時に思い出せるように
Pandas 0.22.0 API Documentを読みながら全部試した。
呼んだドキュメントはこちら。
https://pandas.pydata.org/pandas-docs/stable/api.html#string-handling

実行結果はこちら


pandas.Series.strを全部試す。

使ってみてどうだった?

早く知っていればっ!って思ったものが多かった。
昔やった、
ensekitt.hatenablog.com
とか
ensekitt.hatenablog.com
も、例えばnormalizeとかしていればもっと良い結果が得られたかもしれないし、ひどい結果になったかもしれない。

やってみると覚える

なんだかんだで単純作業ではあったものの、
「この関数の効果を確認するにはどういうデータを食わせたら良いかな?」
を考えながらやっていた*1から、
自分の中で結構理解が進んだし、どこまでPandasでやればいいかの感覚がつかめたと思う。
普段はざっくり目を通して、必要に応じて都度参照でいいとは思うけど、
ドキュメントを読むきっかけにもなったしこれからも暇な時にちょこちょこテーマを決めて全部試す系をやろうと思った。

*1:サンプルがあるやつもあったけど

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。