EnsekiTT Blog

EnsekiTTが書くブログです。

DeepLearning

Python+OpenCVのディープラーニング(CNN)でテキスト領域検出をやってみた話

つまりなにしたの? PythonとOpenCV Contribに含まれているディープラーニングベースのテキスト領域を検出するCNNを試してみた。 思いの外ガバガバ判定で、領域を使ったアプリケーションを考えるなら結構大変そうだなって感じだった。

DeepLearningの手法の一つ、Yolo v2で物体検出して遊ぶ話(動画編)

つまりなにしたの? 街で撮ってきた動画をYolo v2とTiny Yoloで解析して、速度と精度のトレードオフがどの程度か肌感覚で知ることが出来た。

DeepLearningの手法の一つ、Yolo v2で物体検出して遊ぶ話(画像編)

つまりなにしたの? Yolo v2を使うために、Darkflowをインストールしたので、早速検出できるものが写った画像を入れて、 検出結果を可視化して保存した。

DeepLearningの手法の一つ、Yolo v2で物体検出して遊ぶ話(CUDA,Darkflowインストール編)

つまりなにしたの? DarkflowでYolo v2を動かしてみたらいい感じにバウンディングボックスを描くことができそうなので今日はまず環境構築の部分を紹介する。

OpenCVとWebカメラで撮った画像をリアルタイムでChainerのDNNに突っ込んだ話

つまりなにしたの? 目線検出のために、OpenCVとWebカメラで撮った画像をChainerのDNN(GoogLeNet for 目線検出)に突っ込んでリアルタイムにネットワークを通してみた。

今日は目線検出AIのためにデータセットを作ろうと思いますって話

つまりなにしたの? ひたすらディスプレイの各点を見つめる苦行に耐えた。耐えるための工夫をまとめる。目標枚数はとりあえず21000枚。足りなきゃ足す。まだ目線検出はできていません。今回作る21000枚でできるかが勝負です。

とりあえず取得したオタクの顔700枚で転移学習せずにGoogLeNetを目線検出に使ってみた話

つまりなにしたの? 前回画面上に5*7点の注視点を用意してそれぞれをガン見しているオタクこと私のキャプチャをノートPC据え付けのWebカメラで撮影した。 今回はこれを使ってGoogLeNetにどこを見ている画像なのかを判別してもらおうと思う。 ただ、今回は動…

CIFAR10を混ぜたままChainerのDCGANに突っ込んだら名状しがたい何かが生成された話

つまりなにしたの? 前回、モノクロ画像(MNIST)をDCGANで学習させたし、今度はカラー画像をやろうと思ってCIFAR10を学習させた。 ただ、飛行機と自動車と鳥と猫と鹿と犬とカエルと馬と船とトラックを混ぜたまま入れたせいか、生成されたものはクリーチャー…

DCGANをChainerのTrainerで学習して100連MNISTガチャを回した話

つまりなにしたの? 高解像度GANができるようになったという話をきいたけど基礎が抜けてるのでDCGANをChainerのTrainerを使って作ってみた。 作ってる途中で公式がDCGANのTrainer使った実装を公開していることを知るものの写経も辞さない構えで作った。

音声生成のHMMの代わりにDeepLearningを適用してみようとしてる話(計算中)

つまりなにしたの? 友人の会社の勉強会にお邪魔して音声生成するために必要なことを勉強しつつ、 DeepNeuralNetworkを無理やり適用する方法を提案してみた。 でも、まだ計算が終わっていないし、なんなら収束しなさそう()

ChainerのMNISTチュートリアルをdata.py使わずにやってみた。

いや、毎度思うのは。 アルゴリズム実現するところより、自分の扱いたいデータを適切にライブラリに合わせるところがめんどくさいと言うかなんというか… TensorFlowの時と同じモチベーション データセットも同じくhttp://deeplearning.net/tutorial/gettings…

TensorFlowのMNISTチュートリアルをinput_data使わずにやってみた。

今回使ったデータセットはこちら http://deeplearning.net/tutorial/gettingstarted.html の mnist.pkl.gz これが、train,testが分かれていない曲者で、でもデータ構造的にはわかりやすくてまさに getting startedなんだけど。直接TensorFlowのチュートリア…

クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。