つまりなにしたの? 友人の会社の勉強会にお邪魔して音声生成するために必要なことを勉強しつつ、 DeepNeuralNetworkを無理やり適用する方法を提案してみた。 でも、まだ計算が終わっていないし、なんなら収束しなさそう()
つまりなにしたの? 音声データをSTFTして、スペクトログラムを用意してそのスペクトログラムからまた音声データに戻せるのか確認してみた。 一旦スペクトログラムにすればCNNとかと相性が良いから面白いかもなーと試してみた。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。