ハクソク

世界を動かす技術を、日本語で。

ガウシアン・スプラッティング – A$AP Rockyの「ヘリコプター」ミュージックビデオ

概要

  • A$AP Rockyの「Helicopter」MVはダイナミックガウススプラッティングを大規模に採用
  • EvercoastGrin Machineなど複数チームが技術面を担当
  • ほぼ全ての人間パフォーマンスをボリュメトリックキャプチャで収録
  • 撮影後の編集や再照明などポストプロダクションの自由度が飛躍的に向上
  • AI生成と誤解されがちだが、全て実演・実空間での収録

A$AP Rocky「Helicopter」MVにおけるダイナミックガウススプラッティングの実践

  • A$AP RockyはRadiance Fields技術の熱心なファン
  • 「Helicopter」MVでは初期MTV的なカオス感と動きが特徴
  • 視聴者が気付きにくい点として、ほぼ全ての人間パフォーマンスがボリュメトリックキャプチャで記録
  • Evercoast、Grin MachineのChris Rutledge、WildCaptureのWilfred Driscollらによる技術協力体制
  • Dan Strait監督が、ポストプロダクションの自由度を重視してボリュメトリック撮影を選択

撮影と技術的背景

  • メイン撮影は2023年8月、ロサンゼルスで実施
  • Evercoastが56台のRGB-Dカメラアレイを使用し、2台のDellワークステーションで同期
  • パフォーマーはワイヤーで吊るされ、天井バーで懸垂、プロップを使ったスタント等を実演
  • 実際のセットでは木製の板や実物プロップを使い、後からデータ上で除去や再構成が可能
  • 10TB超の生データを収録し、最終的に約30分分のスプラット映像(PLYシーケンスで1TB)を出力

ポストプロダクションとワークフロー

  • HoudiniでCG Nomads GSOPsを使い、シーケンス操作や編集
  • OTOYのOctaneRenderで最終レンダリング、スプラットの再照明も可能
  • Evercoastのシステムで、撮影現場での空間プレビューや即時メッシュプレビューが可能
  • 大容量データをダウンロードする前にWebプレイヤーでレンダリング確認が可能
  • これにより、迅速かつ低コストでクリエイティブな判断が可能なワークフローを実現
  • Blenderもレイアウト・プリビズに活用、軽量なプロキシキャッシュでシーン計画
  • WildCaptureのツールでポーズ推定スケルトンを生成し、動作転送や物理シミュレーションに活用

視聴者の反応と技術の意義

  • 視聴者の多くはAI生成と誤解するが、全て実演・実空間でキャプチャ
  • ボリュメトリックキャプチャにより、カメラアングルや構図の制約から解放
  • 撮影後に自由なカメラ配置やパフォーマンスの再合成が可能
  • Radiance Fieldsは現実を置き換えるのではなく、現実を保存・拡張する技術

関連事例と今後の展望

  • A$AP Rockyは2023年の「Shittin’ Me」MVでもNeRFやInstant-NGPのGUIを導入
  • 今回の「Helicopter」はメジャーな音楽リリースで最大規模のダイナミックガウススプラッティング実装
  • 今後はシミュレーション的な映像制作ワークフローが主流になる可能性

参考リンク

Hackerたちの意見

A$APに関することがHNで見られるなんて思ってもみなかったよ。ここが大好きだ。
ハハ、昨日からずっとヘリコプターのミュージックビデオ/アルバムをなんとかHNに提出しようとしてたんだ。誰かがガウスの角度を見つけてくれて嬉しい!
彼、ヘアカーラーつけてるの?
HNのトップにほぼCartiの投稿があるね。
なんでそれが「クール」だったり、望ましいの?
ミュージックビデオへの直接リンク: https://www.youtube.com/watch?v=g1-46Nu3HxQ
いいアイデアだね!そのリンクもトップテキストに入れよう。ありがとう!
ビデオ自体もぜひ見てみてほしいな。ほんとに素晴らしい作品だよ。エネルギーがすごくて、効果のシュールさと人間のパフォーマンスのリアルさが絶妙にバランス取れてる。*(音楽が嫌ならミュートにしてね、他のみんなも文句言う人にはそうするから)
同様に、テイラー・スウィフトのミュージックビデオ(A$AP Rockyの別のトラック)も、最高の意味で超現実的で変わってるけど、東欧の風味があるよね(撮影場所やテーマにぴったり合ってるから、明らかに意図的だと思う)。0. https://youtu.be/5URefVYaJrA
動画は最後まで見てね:最後のスプラットはガウスじゃないよ。
正直言うと、古いバージョンのUnreal Engineでレンダリングされたみたいに見えるね。それが意図的な選択かもしれないけど、ガウススプラッティングがどれだけリアルに見えるか気になるな。元の忠実さとリアリズムを保ちながら、光や影を再調整したり、シーンの一部を移動したりできるのかな?テレビや映画の制作が進化してる今(何百時間もの映像を複数の角度から撮影して、後で編集するスタイル)、これが最終形態なのかも。人間にはガウススプラッティング、他にはグリーンスクリーンって感じ?
そうそう、記事でもこのことについて話してるし、まさにその通りだよ。
ここでの美学は、ガウススプラッティングによって生じるアーティファクトを意図的に取り入れる選択でもあるよ。特にダイナミック(4DGS)スプラッティングの場合、こういうパフォーマンスをキャプチャする時に時間的な不一致が生じて、再照明によって悪化するんだ。それでも、技術は急速に進化していて、このタイプのボリュメトリックキャプチャは確実に残るよ。特に静的な環境では品質もかなり良いことがあるしね。 https://www.linkedin.com/posts/christoph-schindelar-79515351....
このビデオのアーティストについて知っていることからすると、これは予算よりも技術の新しさやクリエイティブな自由度に関するものだったんじゃないかな。
自分にとっては、Teardownの高解像度版って感じだった。ボクセルベースの3D破壊ゲームね。確かにスプラッツだけど、カメラとライティングが強いボクセルゲームの雰囲気を出してる。
ほんとに素晴らしいビデオだね。残念ながらこの記事は60%くらい理解できないけど、それでもこういう専門用語がたくさん使われた文を読むのが好きなんだ。内部の人には普通だけど、外部の人には全然わからないやつね。「そのデータはHoudiniに持ち込まれ、ポストプロダクションチームが操作やシーケンシングにCG Nomads GSOPsを使い、最終レンダリングにはOTOYのOctaneRenderを使用しました。この組み合わせのおかげで、制作チームはスプラットを再照明することもできました。」
こんにちは、私はSideFX HoudiniのGSOPsのクリエイターの一人です。要するに、ガウススプラットは多くの3D楕円体(ポイントクラウドの一種として保存)を使って現実をかなり効果的に再現できるんです。Houdiniは膨大な数のポイントを操作するのが得意なソフトウェアで、Octaneのようなレンダラーはこのタイプのデータを利用して、従来のコンピュータグラフィックスのプリミティブやライティング、技術と統合できるようになりました。
Corridorはガウススプラットを使って素晴らしいことをやってるよ。このビデオをおすすめ! https://youtube.com/watch?v=cetf0qTZ04Y
読んでてすごく面白いけど、誰かガウススプラッティング(または放射場)について簡単に説明してくれない?特にこの記事で「成熟した」と言ってる部分について。何が変わったから今これが可能になったの?
最近のスーパーマン映画のVFXの解説が、これが何で何を可能にするのかをうまく説明してるよ: https://youtu.be/eyAVWH61R8E?t=232 要約すると、カメラに映る色のスポットをキャッチする代わりに、色のスポットとそれが世界のどこに存在するかをキャッチするんだ。これを複数のカメラで組み合わせることで、映像から3D作品を作り、仮想カメラを回せるようになるんだ。
ELI5のために言うと、ガウススプラッティングはシーンを3D空間の中で何百万もの小さくてぼやけた色の塊として表現し、素早く「スプラット」して画面に表示することで、放射場のようなニューラルネットモデルを使って画像を計算するよりもずっと速くレンダリングするんだ。最近の変化については詳しくないけど。
ガウススプラッティングは3次元ビデオを記録する方法なんだ。多くの角度から同時にシーンをキャプチャして、それを一つの表現にまとめる。理想的には、その表現が十分に良ければ、ポストプロダクションで元々記録していなかったカメラアングルをシミュレートできるんだ。例えば、このミュージックビデオのパフォーマーの周りをカメラが回る動きは、実際の空間では想像しにくいよね。ロボットのモーションコントロールアームを使って実現できたとしても、撮影前に全ての振り付けを固定する必要がある。だから、このビデオは、最終的に合成されたシーンの3Dバーチャル空間でアーティストが望むカメラの動きを自由に指示できることをうまく活用してる。これを実現するためには、表現が放射場を推定する必要があるんだ。つまり、3Dボリューム内の各ポイントで見える光の量や色を、あらゆる角度から見る必要がある。ボクセルに分割して高解像度でこれを行うのは不可能で、スケールが悪くなる(O(n^3))。メッシュジオメトリを推測して、カメラビューに合ったテクスチャを塗ることもできるけど、自動化するのは難しい。ガウススプラッティングは、放射が空間に配置され、伸ばされ、回転された何百万ものふわふわしたカラーボールから構成されると仮定して、これらの放射場を推定するんだ。これがガウススプラットだよ。表現ができたら、仮想カメラを配置して角度を調整するだけで新しいカメラアングルを作るのは簡単で、見えるスプラットの色や位置を記録するだけなんだ。このアプローチは、現代のディープラーニングに似た技術にもかなり適していることが分かったよ。基本的には、スプラットの位置や形状、回転を勾配降下法でトレーニングするんだ。主に研究室で探求されてきたけど、最近はHoudiniのような人気の3Dモーショングラフィックスツール向けにプロダクション指向のツールが作られて、より利用しやすくなってる。
これはポイントクラウドで、各ポイントは半透明の塊で、視点によって色が変わるんだ。つまり、見る方向によって色が変わるってこと。反射や虹色の効果をキャプチャできるんだよ…シーンやオブジェクトの複数の画像からポイントクラウドを生成して、機械学習の魔法を使うんだ。
1. シーンからポイントクラウドを作成する(ライダーか、複数の画像からフォトグラメトリで) 2. ポイントクラウドの各ポイントを、位置やサイズ、向き、視点依存の色(低次の球面調和を使って)を持つファジー楕円体に置き換える 3. この楕円体を微分可能なレンダラーでレンダリングすると、得られた画像を元の写真(グラウンドトゥルース)から引くことができて、レンダラーに入力した何百万もの楕円体パラメータに対するエラーの偏微分を計算できる 4. これで、微分可能なレンダラーを使って勾配降下法を実行できるようになり、ファジー楕円体がグラウンドトゥルース画像をよく再現するものに収束する 5. 楕円体が3Dポイントクラウドの位置から始まったので、勾配降下中にシーンの3D構造が保たれる可能性が高く、結果として得られるシーンは新しいカメラアングルでもリアルに見える結果をサポートするだろう。
こんにちは、デイビッド・ローズです。CG Nomadsの共同創設者で、SideFX Houdini用のGSOPs(ガウシアン・スプラッティング・オペレーター)の開発者です。GSOPsは、OTOYのOctaneRenderと組み合わせてこのミュージックビデオを制作するのに使われました。技術やその機能に興味があれば、https://www.cgnomads.com/ をチェックするか、AMAしてください。自分でGSOPsを試してみてください: https://github.com/cgnomads/GSOPs(サンプルコンテンツも含まれています)。
記事から: >Evercoastは56台のカメラRGB-Dアレイを展開しました。どの深度カメラを使ったか知ってる?
ちょっとした質問なんだけど、ユーザー名が緑だから気になった。ここに投稿されてるのをどうやって知ったの?それと、素晴らしい仕事だね!
残念だけど、動画を30秒くらい見たところで酔っちゃった。でも、すごくクールな技術みたいだね。他の人も同じ反応だったのかな、それとも私だけ?
動画めっちゃ良かった!私は酔わなかったよ。
妻も同じこと言ってたけど、イントロの後は良くなるよ。
ちょっと脱線するけど、私はガウススプラッティングを写真やアートのメディアとして探求してて、データがない状態のモデル出力の表現主義的な質が大好きなんだ。 https://bayardrandel.com/gaussographs/
クールな美学だね!