スパソーン・スワジャナコーン

スパソーン・スワジャナコーン: 実在の人物の偽映像の作り方と、その見分け方

有名人が実際には言っていないことを言っているように見せかけた偽映像を、あなたはうまく見分けられますか? この驚くべき講演とデモで、それがどのように作られるのかをご覧ください。コンピューター科学者スパソーン・スワジャナコーンは、大学院での研究として、AIと3次元モデリングを使い、本物にしか見えないような音声と同期した人物の映像を作りました。この技術の倫理的問題と創造的可能性、そしてその悪用への対策として行われていることについて学びましょう。

Translated by Yasushi Aoki
Reviewed by Claire Ghyselen

この映像を見てください 本物のオバマ大統領は どれでしょう?

(バラク・オバマ) 住宅ローンを 借り換える家庭を助けること ハイテク製造業 クリーンエネルギー インフラといったものに 投資することで 良い仕事が創出されます

(講演者) 分かりますか? 答えは 全部ニセ者です

(笑)

どれ1つ本物ではありません これまでの道のりについて お話ししましょう この研究をする ヒントになったのは ホロコーストの生存者たちから 学ぶ最後の機会を 保存しようという プロジェクトでした 「証言の新局面」(New Dimensions in Testimony) という名前で ホロコースト生存者の ホログラムと 対話することができます

(男) どうやってホロコーストを 生き延びたんですか?

(ホログラム) どうやって生き延びたか? 私が生き残れたのは— 神が見守っていて くれたからだと 私は思っています

(講演者) 答えはスタジオで あらかじめ録画されたものですが その効果は劇的です その人の話や その人自身に対する 強い結び付きを感じます 人間同士のやり取りには 特別な力があるのでしょう 本や講義や映画 などよりもずっと 深く個人的な体験を 与えてくれます

それで私は 思うようになりました こういうモデルを 誰に対しても作れたら? その人自身のように見え 語り 振る舞うモデルです それが可能か検討を始め 既存の写真や映像だけから その人物のモデルを作る方法を 考案しました その人物のモデルを作る方法を 考案しました こういう その辺にある 写真や映像といった ありあわせの素材 だけでよいなら 誰に対してもモデルを 作れるようになります

ちなみに この人物は リチャード・ファインマンで ノーベル物理学賞の 受賞者であるのみならず 優れた教師として よく知られていました もしファインマンを蘇らせ 何百万という若者に話をして 刺激を与えてもらい さらには他の言語でも語らせられたなら 素晴らしいでしょう あるいは もうこの世を去ってしまった おじいさん おばあさんに アドバイスや心温まる言葉を かけてもらえたなら またこのツールを使えば 存命か否かにかかわらず 著者自身に本の朗読を してもらうこともできるでしょう

これが持つ創造的可能性は 限りがなく すごくワクワクさせられます その仕組みを お話ししましょう

まず 顔の精細な 3次元モデルを 3Dスキャンデータなしに 任意の画像から作れる 手法を開発しました これは同じモデルを 別の視点から見たものです この技術は映像にも使えます 映像の各フレームに 同じアルゴリズムを適用し 動きのある3次元モデルを 生成します こちらは同じモデルを 違う角度から見たものです

この問題は とても難しいのですが あらかじめ その人物の 大量の写真を 解析することが 鍵になります ジョージ・W・ブッシュなら Googleで画像検索するだけでよく そこから平均モデルを 作ることができ 段階的にモデルを 改善していって 皺のような 表情の 細部を再現します これのいいところは 写真は ごく普通のもので よいということです どういう表情かとか どこで撮られたかとかは あまり問題ではありません 大事なのは写真が たくさんあるということです まだ色が付いていないので 次に新しいブレンディング技法を開発し 平均モデルを改良して くっきりとした顔の 質感や色を付けます これはどんな表情に 対しても行えます

これで人物の動かせる モデルができました 動きは一連の写真に 合わせたものになります 表情に応じて皺が現れたり 消えたりするのに注意してください モデルを動かすのに 映像を使うこともできます

(ダニエル・クレイグ) ええ しかし私達はどうにか さらに素晴らしい人たちを 引き入れました

(講演者) これで面白いことができます ここに出ているのは ネット上の写真から作った 有名人のモデルです 入力源となる映像の 動きに合わせて 全部の顔を動かす ことができます

(ブッシュ) これは 通すのが難しい法案で 構成要素がたくさんあり 立法の過程は見苦しいものに なるかもしれません

(拍手)

(講演者) 少し話を戻すと 私達の究極の目標は それぞれの人が話したり笑ったりする時の 独特なやり方や癖を捉えるということです その人物が話している 映像を見せるだけで コンピューターが その人の話し方を 真似られるように できるのでしょうか? それで オバマが演説している 14時間の映像を コンピューターに 見せることにしました これはオバマが話す声だけから 生成した映像です

(オバマ) 結果は明らかです アメリカの産業界は 75ヶ月にわたり 1450万の新たな仕事を 生み出したのです

(講演者) ここで合成されているのは 口の部分だけで こんな風にしています 私達のシステムは ニューラルネットワークを使って 入力された音声を 口の位置を表す点に変換します

(オバマ) 仕事や メディケア メディケイドを通じて得ています

(講演者) それから質感を合成し 細部や歯を補い 元の映像の頭部と背景に 埋め込みます

(オバマ) 女性は無料の 健康診断を受けられ 女性というだけで 余分に支払うことはありません 子供は26歳になるまで 親の保険が使えます

(講演者) 結果としてできたものは とてもリアルで興味深いものですが 同時に私自身でも 怖いと感じます 私達の目標は人物の正確なモデルを作ることで 誰かを騙ることではありません しかしこれが悪用される可能性を 危惧しています この問題については フォトショップが現れて以来 みんなずっと考えてきました 研究者として 私は 対策技術の開発もしていて AI Foundationでの 取り組みに参加しています それは機械学習と 人間のモデレーターの組み合わせにより 偽物の画像や映像を 検出しようという 私自身の研究に 対抗するものです 公開を予定しているツールに Reality Defender があり これはブラウザーのプラグインで 偽物の可能性のあるコンテンツに対して 警告を出すようになっています

(拍手)

それでも真偽の確認が なされる前に 偽の映像が大きな被害を もたらすこともありうるので 偽の映像が大きな被害を もたらすこともありうるので 現在どのようなことが 可能になっているのかを みんな理解していることが重要で それにより適切な仮定をし 批判的な目で物事を見られるようになるでしょう

人物の完全なモデルを作れ 安全性も確保できるまでには まだまだ時間がかかるでしょう でも私は希望と熱意を持っています この技術を正しく 注意して使うなら 誰もが広く世界に 良い影響を与えられるようになり みんなが望む未来を築く 助けになるはずだからです

ありがとうございました

(拍手)