HeyGenという、AIを用いて自分のアバターを作成できるWebサービスがあります。作成したアバターには自分を模した身振り手振りと音声が生成され、テキストのセリフを読み上げる動画が作成されます。
試してみた結果が以下の動画です。この動画を作成するにあたって行ったことは、学習用に5分程度カメラを向いて喋った映像を撮影したくらい。たったそれだけで、セリフをポチポチタイピングして、5分弱待てばこのクオリティの動画が仕上がってくる世界。デジタルヒューマンの時代ですね。
音声合成周りがちょっと微妙(自分のケースだと実際の声よりやや低い?)で、日本語はカタコト(これはほとんどのモデルでカタコトなので仕方ない)な点くらいが気になるポイントで、ほかはあんまり気にならない。
LipSyncも自然だし、動きの生成はかなり自然で言われないと気づかないと思います。
周りの知人に見せた反応としては、「あまりsatoと交流がない人なら気づかないと思う」という感想が多かったです。声や瞬き、癖に少し違和感はあるが、だいたい似ていて驚いたという人がほとんど。
撮影時に感じた学習用データの撮影TIPSとしては、何本か撮った感じだと以下の2点に気をつけると良さそうです。学習映像内での細かい癖がかなり誇張されて出てきてしまうので、その意識だけ持って撮影するとクオリティの高いアウトプットが出やすいと思います。
- 顔に手を被せない(映像生成時にたまに手がバグるので)
- よそ見をしすぎない(生成した映像がめっちゃよそ見して気になる・説得力なくなる)
気になる方はぜひ、HeyGenやってみよう!
月$29支払えば動画作り放題だぞ(僕はHeyGenのためにU-NEXT解約しました)。