【IT】人工知能を用いて元の性別や声質関係なく自在に声を変換できるシステムをドワンゴが開発　ボイチェンより良さそう　Web版デモあり

嫌儲

2020.09.15 02:53

1 : 2020/09/15(火) 01:58:16.19 ID:7FtUkzCM0: 誰の声でも100人の声に変えられる声変換システム
https://dmv.nico/ja/articles/seiren_voice/
動画
https://dmv.nico/assets/audio/seiren_voice/movie.mp4
Webデモ
https://seiren-voice.dmv.nico/
2 : 2020/09/15(火) 01:58:33.14 ID:EnK6uiM5M: うんこ
3 : 2020/09/15(火) 01:58:51.93 ID:7FtUkzCM0: 著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。
概要
Dwango Media Villageの廣芝です。誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します
4 : 2020/09/15(火) 01:58:59.73 ID:7FtUkzCM0: 声変換
声の変換技術には、リアルタイム性と品質のトレードオフがあります。
既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。品質を優先した声変換システムがあると応用の幅が広がると思い、研究開発に挑戦しました。
5 : 2020/09/15(火) 01:59:10.02 ID:7FtUkzCM0: 声変換を含む音声合成の品質は、ここ数年の深層学習技術の進歩により大きく向上しました。
中でも、音声サンプルを少しずつ生成していく自己回帰という手法を取り入れた深層学習モデルWaveNet[1]により、実際の音声とほぼ変わらない品質の音声を生成できるようになりました。
6 : 2020/09/15(火) 01:59:17.12 ID:7FtUkzCM0: 続きはソースで
7 : 2020/09/15(火) 01:59:34.68 ID:0FHU4fiF0: 何か非常に生命に対する冒涜を感じます
8 : 2020/09/15(火) 02:01:27.70 ID:+QsEGg260: ボイチェンボイチェンって言われてるけど
実際本物のボイチチェンとか聞いたことないわ
9 : 2020/09/15(火) 02:01:44.27 ID:sPPG+4IpM: 声優いらんくなるな
10 : 2020/09/15(火) 02:01:47.00 ID:sHAhOY/u0: これでワイも美少女になれるんか!（57歳男性）
11 : 2020/09/15(火) 02:01:51.77 ID:go/yEWNRa: オレオレ！
12 : 2020/09/15(火) 02:02:39.29 ID:uKkd/1Nz0: つんくも復活できるな
13 : 2020/09/15(火) 02:02:47.69 ID:ES2r5cA00: ネカマのVtuberデビューできるじゃん
14 : 2020/09/15(火) 02:03:36.64 ID:LTGKwLyud: ドワンゴって時点で期待出来ない
どうせi-modeみたいなポンコツだろ
16 : 2020/09/15(火) 02:03:54.95 ID:+QsEGg260: このデモ使い方がわからん
自分の声入れないとダメなのか？
17 : 2020/09/15(火) 02:05:03.01 ID:H3ll/bZl0: 動画のやつ最後の方で元の音声のイントネーションが変なんだけどこれはボイチェンに釣られちゃってるの？
これ長時間使ったらしゃべり方おかしくなりそうで怖いな
18 : 2020/09/15(火) 02:05:15.25 ID:wqBsDDu20: リアルタイムじゃないのかよ
19 : 2020/09/15(火) 02:05:39.94 ID:LTGKwLyud: オレオレ詐欺が進化しそう
20 : 2020/09/15(火) 02:05:45.92 ID:WF7Tlhmm0: ニコニコ動画wwwwwwww
22 : 2020/09/15(火) 02:08:22.57 ID:6mV5GaAX0: 女装で女声vtuberが増える
23 : 2020/09/15(火) 02:08:49.68 ID:huAuYTEM0: 音声認識で文字を出力してそれをVOICEROIDに入力して喋らせるのとどう違うんだ？
33 : 2020/09/15(火) 02:15:54.19 ID:9XJFQUzJ0: >>23
音高が保たれるから歌や方言なんかも自然に変換できるんじゃない？
24 : 2020/09/15(火) 02:08:51.10 ID:7FtUkzCM0: 多分だけど既存のボイチェンは元音声を直接いじってるけど
これは発言した単語情報＋速度＋抑揚データを生成してからVOICEROIDにぶっこんで生成してる気がするわ
25 : 2020/09/15(火) 02:08:59.32 ID:NsYLEXLfd: だれでも釘宮理恵の声になれるのか
26 : 2020/09/15(火) 02:09:02.67 ID:dlORhfQUM: ネカマ詐欺に使えるな
27 : 2020/09/15(火) 02:12:30.05 ID:yd/MoReN0: wavenet使ってんのかよ
数年前にQiitaに全く同じようなもん作って解説記事あげられてた気がするんだがドワンゴパクったの?
30 : 2020/09/15(火) 02:13:51.21 ID:oX2mMlz20: 声優いらんくなるな
もしリアルタイムでラグなく変換できるようになればVtuberでも使える
31 : 2020/09/15(火) 02:13:57.66 ID:f5Ll1tf40: そんなにVのネカマ増やしたいんか
32 : 2020/09/15(火) 02:15:35.16 ID:LwJTm6Gi0: これ自体は良い技術だと思うけど、ドワンゴねぇ…
35 : 2020/09/15(火) 02:16:11.83 ID:f5Ll1tf40: 動画だけ見たけどゆっくりの上位互換レベルじゃないの
37 : 2020/09/15(火) 02:18:54.83 ID:9p2jw/Se0: これもほとんど実験みたいなもんなんか！？
39 : 2020/09/15(火) 02:19:15.62 ID:7om6pZwr0: 悪事に使えるね
40 : 2020/09/15(火) 02:19:17.85 ID:kUHVFvnK0: 本当に変換できるだけだから生配信では使えんな
41 : 2020/09/15(火) 02:20:47.29 ID:dYH0pTBya: 実際にやってみたけど
酷いレベルだったわｗ
42 : 2020/09/15(火) 02:20:58.74 ID:LwJTm6Gi0: まぁリアルタイムの普通の声と遜色の無いボイスチェンジャーは現代技術ならその気になれば作れるんだろうけど、やっぱり犯罪利用が懸念されるから一般向けには出し難いとかあんのかねぇ
43 : 2020/09/15(火) 02:22:08.76 ID:U8o2n8DZ0: サウンドブラスターについてるボイスチェンジャーのが出来が良さそう
46 : 2020/09/15(火) 02:25:16.79 ID:jNhltGly0: これ２０年くらい前からあるけど声紋がどうとかで実現しないよな
47 : 2020/09/15(火) 02:25:52.04 ID:ANfjZBx70: 嫌著バ美肉部待ったないじゃねーのこれw（歓喜
48 : 2020/09/15(火) 02:27:06.97 ID:aQSwEWccd: >>47
お前は脳みそが破壊されてるからaiに補完されてこいよ
49 : 2020/09/15(火) 02:27:10.92 ID:qyKvZCxMM: オタクでホモとか救いようが無いな
50 : 2020/09/15(火) 02:27:53.95 ID:LwJTm6Gi0: てか思ったけど、音紋から声を再現して特定の声質のボイスを作り、使う奴の声と自然同期して違和感のない声を作る。なんかの荒業もいずれは可能になるのか？
52 : 2020/09/15(火) 02:34:58.85 ID:jNhltGly0: ヤマハの何たらが商品化してごにょごにょだった気が
53 : 2020/09/15(火) 02:42:16.80 ID:+QsEGg260: これで俺もエ口ゲ声優デビューできるのか
54 : 2020/09/15(火) 02:43:37.43 ID:SYAoO4H40: 生声でもボイチェン言われるからな
変換なんてゴミ
55 : 2020/09/15(火) 02:44:13.90 ID:huAuYTEM0: というか今始めてNAMAROIDとかいうソフトを知ったんだけど
これ使って長時間録画を垂れ流せば多少は客が戻ったんじゃねーの？
センスねーなドワンゴ
56 : 2020/09/15(火) 02:44:23.89 ID:NE+lgKk7a: これを蝶ネクタイに組み込めるのはいつ頃？