EnsekiTT Blog

EnsekiTTが書くブログです。

先月のWikipediaをWord2Vecに突っ込んで単語を加算減算して遊んでみた話

つまりなにしたの?

WikipediaXMLデータをこないだクリーニングしたのでMeCab分かち書きにしてWord2Vecを学習してみた。
f:id:ensekitt:20171016234601j:plain

前回

ensekitt.hatenablog.com
をやったので、このデータを使いたい。

続きを読む

Wikipediaのデータを使いましたって書いてある論文は実際どうやって使える状態にしてるのか調べた話

つまりなにしたの?

Wikipediaの日本語データを使って学習してる論文を見かけたのでどうやって使える状態にしてるのか調べてみた。
もちろん、本当に今回やった方法でやったのかを論文の筆者に確かめたわけではない。
概ね近い結果が得られる程度にはクリーニングできると嬉しい程度の調査。
f:id:ensekitt:20171015020327j:plain

続きを読む

ツイッタラーの日本語に対してマシな結果が出るかと思ってJUMAN++を試したら興味深い違いが出た話

つまりなにしたの?

先日やったツイッタラーのツイートからエンジニア:非エンジニアを分類する要素は何なのか決定木に判別してもらう。のMeCabによる形態素解析だとツイッタラーの度し難い日本語に歯が立たなかったのでJUMAN++に切り替えてやってみた。
こないだまでの記事はこちら
ensekitt.hatenablog.com
ensekitt.hatenablog.com

f:id:ensekitt:20171013000633j:plain

続きを読む

Juman++を試そうと思ったら詰まったので解決方法を模索した話

つまりなにしたの?

OSXでJuman++をPythonから呼び出せるようになるまでの手順とつまりどころ(昨年くらいのブログ記事だとだいたい引っかかるっぽい。)の解決方法。
この解決方法はGithubにすでにプルリクエストが飛んでるけどマージされてないみたいなのでとりあえず手順でまとめてみた。

f:id:ensekitt:20171010233648j:plain

続きを読む

形態素解析曰くツイッタラーの日本語は度し難く、決定木曰くエンジニアは「好き」って表明をあんまりしないらしい話

つまりなにしたの?

前回、「おっぱい」とつぶやいていたら本当にエンジニアなのか決定木に確かめてもらった話の準備をした。
一通りできたので実際にやってみたらエンジニアは「好き」をよく表明しているのかもしれない。みたいな知見が得られた。
もちろん適当実装だし乱数も使ってるし取得を開始する時刻によって結果はぜんぜん変わるんだけど、
ジニ係数の高いところによく「好き」って単語を使っているかってところが現れた。
ensekitt.hatenablog.com
f:id:ensekitt:20171008120350j:plain

続きを読む

「おっぱい」とつぶやいていたら本当にエンジニアなのか決定木に確かめてもらった話(準備編)

つまりなにしたの?

Twitterのリストを2種類突っ込むと直近のツイートを引っ張ってきて、形態素解析から名詞を抽出して、2種類のリストを分類できる決定木を作ってみた。
f:id:ensekitt:20171006233030j:plain
*1

続きを読む

学習しても予測に使わなきゃ電気代の無駄なんだよ!ってことでTensorFlowのResNetをFlask使ってWebサービスっぽくする話

つまりなにしたの?

TensorFlowのModelsにあるResNetを学習できたので学習した分類器をFlaskに組み込んでWebサービスっぽくした。
追記 2017年10月5日 2時00分: 公開しようと思ったけど思った以上にリソースを食うのとセキュリティとかガバガバなのでコードだけ公開することにしました。*1
追記2 同 2時15分: なんかClassの順番間違えてるっぽい()
f:id:ensekitt:20171004211657j:plain*2

*1:みんなのお家(LAN)で試してください。

*2:unsplash.com NASA

続きを読む