EnsekiTT Blog

EnsekiTTが書くブログです。

arXivを浅く広く読むためにやっていることを紹介する話

こんにちは、えんせきです。
社会人になって趣味で読む論文数が減ってしまっていることに危険を感じて、なんとか浅く広く情報を集めておこうと思って色々試行錯誤しています。

つまりなにしてるの?

arXiv機械学習関連の論文を流し読みするために、arXivTimesとFeedlyで読みたいものを選んで、
時間を決めて手法と実験(評価)と参考文献(のアブストラクト)を読んでいる。
f:id:ensekitt:20171216115751j:plain
*1

読み方は大きく3ステップ

  • 選ぶ
  • 手法と実験結果(評価)読む
  • 参考文献を拾い読む

選ぶ

個人的にはこれが最初に一番大変だと思う。何を読むかを決めなきゃいけない。
大学の研究室であれば先輩が「まあ、これ明後日までに読んできてよ」って言ってくれるので、取っ掛かりは簡単に得られる。
問題は、会社だったり趣味だったりする時。サーベイ前だから業界のことがまるでわからない。
そこで自分はarXivTimesとFeedlyを使わせていただいている。

arXiv Times

github.com
いや、もうこれ読めば最初はarXivの原文読まなくてもいいでしょ。物足りなくなったらarXiv行けばいいやって思ってた。
でも割とすぐ物足りなくなる。
arXiv Times Indicatorというのもあって見やすいビジュアルで研究動向を知れるので選ぶ時はこちららからのほうがいい。
http://arxivtimes.herokuapp.com/

Feedly

feedly.com
自分はFeedlyarXivのアップデートRSSを登録している。
これで全部読むというわけではなく、FeedlyでRead Later(🔥nみたいな感じに表示される)に登録されている数が多いものに目を通すためにFeedlyから読んでいる。
あくまでトレンド程度にしかならないけど、取っ掛かりとしてはキャッチーな論文にRead Laterが付いているので興味は持ちやすいと思う。
読みやすいかは別。
自分が登録しているのは

  • cs.AI

Artificial Intelligence. 人工知能関連
https://arxiv.org/list/cs.AI/recent

  • cs.LG

Learning. コンピュータサイエンスの学習関連
https://arxiv.org/list/cs.LG/recent

  • cs.RO

Robotics. ロボティクス関連
https://arxiv.org/list/cs.RO/recent

  • eess.SP

Signal Processing. 信号処理関連(あまり活発じゃない)
https://arxiv.org/list/eess.SP/recent

  • stat.ML

統計枠のMachine Learning。
https://arxiv.org/list/stat.ML/recent
それぞれ排他じゃないみたいで言うほど数は多くならない。
ここまで選んだらアブストラクトを読んでPDFを開くものを決めている。

手法と実験(評価)読む

論文っぽい見た目にアレルギーがあるかもしれないけど、大見出しはどれも似たり寄ったりなので、あまり構えずに一旦全ページ眺める。
かっこいい図とかが乗っていたら「おー」とかいいつつ、

  • 手法

ApproachとかArchitecturesとかThe proposed HOGEHOGEとか提案手法の名前の章があるのでその辺を斜め読みする。
擬似コードがあればそっちを斜め読みすると流れをつかめて良い。

  • 実験(評価)

EvaluationとかExperiment Designの一部とかExperimental Resultsとかみたいな名前の章があるのでここはよく読む。
個人的にはここを読み慣れればもうすごい速度で他の論文も読みこなせると思う。
これは他の分野でもそうだと思うけど、みんながどうやって手法の評価をしているのかを知ると、応用できるタスクがわかりやすい。

あと、割とみんな同じデータセットとかで評価していてくれるので、自分でやってみたり、改善案を思いついた時も提案されている手法と同じ土俵で評価を始められる。
仮にじっくり読み込んで実装したあとにちゃんと実装できているのか確かめるのにも評価を再現してみるのがまずは手っ取り早い。
特殊な機材とか非常に強いマシンが要求されるかも確認できることがある。GPU数百台で2日でした!とか書いてあったら要注意。

参考文献を拾い読む

結構参考文献は多い。ただ、データセットを使ったから入れている参考文献とかもあって同じようなタスクの論文だと割と被っていることがあるので、だんだん読むべき論文は減ってくる。
全部読むのは流石に厳しいからアブストラクトを読んで今度読むものだけメモしておけばいいと思う。

時間の話

1つの論文に何時間も書けていると辛くなってくるし序盤に読んだ内容を忘れて何が何だかわからなくなるので、可能な限り早く読む。
そのためにはGoogle翻訳とかで似非日本語ブーストをかけるのも手。英語力を上げるのも大事だけど今は目の前の論文の中身を知ることのほうが大事なので、英語の勉強は別の機会にやればいい。(などど言いながらはや15年)

保存の話

読んだ内容は保存しておかないと普通に忘れるので、ひとことメモをつけて保存しておくと良い。
じっくり読んだやつは落合先生の
先端技術とメディア表現1 #FTMA15
の48pに載っている方式でまとめているけど、浅く広く読んだやつはひとことメモ程度にしちゃっている。
あれば図が見える形で保存すると思い出しやすい。

数読んでみんなが何に興味を盛っているのか知る

めちゃくちゃ投稿されているし、それだったらハードルを下げて数を読むほうが良いんじゃないかなって気がして今のこんな読み方に行き着いた。
ぼくは研究者ではないので、隙間を見つけて取り組むというより最近の面白いことを知っている方が大事だと思っているし、そのほうが楽しい。

これが正解じゃなくて、ワークスタイルにあった読み方をすると楽しく追えるよって話でした。

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。