ハクソク

世界を動かす技術を、日本語で。

未加工の写真の見た目

概要

  • カメラセンサーの生データは人間の目で見える写真と大きく異なる
  • ダイナミックレンジや色再現の課題により、適切な画像処理が必要
  • 非線形カーブやホワイトバランス補正が重要な役割
  • カメラ内JPEGも多くの自動補正が行われている
  • 人間の視覚を再現するには追加の編集も有効

カメラセンサー画像処理の流れ

  • カメラのセンサーは光の強さのみを測定

  • 出力される生データは14bit ADC値を0-255のRGBにマッピングしたもの

  • 実際のADC値の範囲は2110〜136000程度に限定

  • 黒と白の基準値を設定し、コントラスト調整

  • センサー自体は色を認識できないため、カラーフィルター(Bayer配列)を利用

    • 各ピクセルはRGBのうち1色のみ取得
    • ピクセルごとにフィルター色を割り当てて仮色付け
    • 近隣ピクセルの値を平均化するデモザイキングで色再現
  • デモザイキング後も画像が暗い理由

    • 人間の目やセンサーのダイナミックレンジとディスプレイの違い
    • 線形データをそのまま表示すると暗く見える
    • 人間の明るさ知覚は非線形なため、sRGBなどの非線形カーブが必要

色再現とホワイトバランス

  • 線形データに非線形カーブを適用すると色被りが目立つ場合あり
  • 緑チャンネルの感度が高く、またピクセル数も多いため緑が強調される傾向
  • ホワイトバランス補正で各チャンネルを一定比率で調整
  • 非線形カーブ適用前にホワイトバランスを行う必要性
  • ハイライトの彩度低下(デサチュレーション)はフィルム風の効果も与える

編集とカメラ内JPEGの違い

  • カメラ内JPEGも様々な自動補正(コントラスト、ホワイトバランス、ノイズ除去など)を実施
  • 編集ソフトでの調整も、カメラ内部処理と本質的に同じデータの別表現
  • 人間の視覚再現は難しく、ディスプレイやプリントの制約も影響
  • 自動処理がうまくいかない場合は手動編集も正当な手段

まとめ

  • 写真編集は「偽物」ではなく、データの解釈のひとつ
  • カメラセンサーから最終画像までには多くの数学的処理
  • 人間の視覚とディスプレイのギャップを埋める工夫の重要性

Hackerたちの意見

とても興味深いけど、著者が説明に選んだ例があまりにも悪いのが残念だね(低い、人工的で多色の光)。それが「グラウンドトゥルース」と期待される結果が何かを理解するのを本当に難しくしてる。
あなたの不満がよくわからないな。「期待される結果」は最後の2枚の画像のどちらか(好みによる)だし、投稿の主なポイントの一つはそもそも「グラウンドトゥルース」の概念に挑戦することだから。
>「線形データを直接表示すると、実際よりもずっと暗く見える。これはモニターの制限のようだ。もしビット深度が非常に大きければ、ガンマ補正なしで線形光で画像を表示できるんじゃない?」
修正は、モニターに関連する理由だけじゃなくて、いろんな理由で役立つよ。表示が関与しないISPパイプラインでも、通常はハイライトやシャドウにもっとビットを割り当てるために修正を行う。古いCRTは、電子銃が非線形の応答を持っていたから、ガンマ曲線が出力を線形化してたんだ。フィルム処理や対数CMOSセンサーも、感知媒体が光レベルに対して非線形の感度を持っているからそうなる。
夕日について話してるなら、モニターが画像の中の太陽の位置に応じて、目が痛くなるくらいのまぶしい光を発してるってことだよね。それはあんまり快適じゃないよね。
いや、曲線の形についての話だよ。人間の光の強さの知覚は線形じゃないから、パイプラインのどこかで非線形にしなきゃいけない。でも、計算には通常、高解像度(>=16ビット/チャンネル)の線形カラーを使って、表示の直前にガンマカーブを適用するのが一般的だよ。伝統的にこれが行われなかったために、非線形のRGB値に線形操作(ブレンドなど)が適用されて、Photoshopのような高級アプリケーションでも、醜い暗い色のバンドができちゃったんだ。
デジタル写真にはダイナミックレンジの圧縮やデ・ベイヤリングが必要だってみんな同意してると思うけど、反対側には「AIを使って物体を認識し、'あるべき姿'を幻覚させる」っていうのがあるよね。みんながそれはもう本物の写真じゃないって言うだろうけど、メーカーはその方向に強く押し進めてるみたいで、証拠の受け入れ可能性みたいな問題も出てきてる。
写真をちょっとかじって学んだことの一つは、「偽物」の画像なんて存在しないってこと。だって「本物」の画像もないから。カメラがデータを解釈する過程で、いろんな選択をしてるからね。この投稿がそれを見事に示してる。より良い区別は、グローバルな編集とローカルな編集で、ローカルな編集っていうのは画像の特定の部分を修正して望ましい変更を加えること。ローカルな編集はグローバルな編集より「もっと偽物」だって言えるかもしれないけど、それも千差万別で、最も重要なのは意図だよ。「偽物」の画像っていうのは、欺く意図がある画像のこと。そういう定義なら、カメラから出たままの画像でも、見せているものが本来の意図と違うなら「偽物」になり得る(例えば、警察の暴力の本物の写真だけど、違う国だってラベルが付いてるのは偽物の写真)。でも、ほとんどの人が「偽物」って言うときに思い浮かべるのは、フィルターがかけられた写真で、これは全く意味がない。投稿が示しているように、すべての写真にはフィルターがかけられている。特定の編集プロセスを乗り越えるべきだよ、それは他の何よりも偽物じゃないから。
「画像」の抽象的な層を剥がしてくれる投稿が大好きだ。現代の写真が実は信号処理で、マーケティングがうまくやってるだけってことを強調してる。投稿で言及されている「緑のかぶり」についての面白い話:バイエルパターンがRGGB(50%緑)なのは、色のバランスだけじゃなくて、空間的解像度にも関係してる。人間の目は緑の光に最も敏感だから、そのチャンネルが明るさや詳細のデータの大部分を担ってる。多くの高度なデモザイキングアルゴリズムでは、まず緑のチャンネルを再構築して高解像度の明るさマップを作り、その上に赤と青の信号を補間する。人間の視覚システムは、低解像度の色データには寛容だけど、低解像度の明るさデータには厳しいから、これが可能なんだ。同じ心理視覚的原則が、動画圧縮における4:2:0のクロマサブサンプリングを正当化している。あと、どれだけ深くこの穴が続いているかに興味がある人は、dcraw(またはlibraw)のソースコードを見るのは通過儀礼だよ。異なるセンサー製造元からの「生」の電圧を解釈するためだけに、どれだけ多くのエッジケースが存在するかはすごい。
関連するエピソードがあるよ。アマゾンでKindle Special Offersチーム(スリープ中のeink Kindleに広告を表示する)で働いていたとき、初めての自動生成広告の実装をしたのは、RGBをグレースケールに適切に変換するのが、RGBチャンネルを単に平均するよりも少し複雑だって知らない人だったんだ。だから、2015年頃の約6ヶ月間、かなり粗い広告を見たかもしれない。FFmpegの呼び出しにフラグを追加して、RGBを明るさに変換してから4ビットのグレースケールにマッピングする必要があっただけなんだ。
だからこそ、写真を「編集したのか」とか「オリジナルか」とか聞かれるのが大嫌いなんだよね。まるで綺麗な画像を偽物だって説明しようとしてるみたいでさ。カメラが出すJPEGはかなり加工されてるし、全然「オリジナル」じゃない。手動でそのプロセスをコントロールして、異なるカーブやマッピング、キャリブレーションを使ったJPEGを作るのは全然悪いことじゃないよ。
いや、何かを疑ってるわけじゃないんだけど(悪い仮定は良い会話にはならないからね)、このコメントを書くのにAIを使ったり手伝わせたりした?これは完全に自分の興味から来てるだけで、内容には問題ないよ。
ベイヤーパターンは、無知から来る本当に理不尽な怒りを引き起こすものの一つなんだよね。なんで緑がそんなに特別なの?目が緑に敏感だからって、カメラセンサーの面積を緑に倍にしなきゃいけないの?多分そうだろうけど、やっぱり納得いかないな。(⩺_⩹)
大学でリモートセンシングを勉強して、センサーや信号処理を理解するのにすごく役立った。そこで得た一番好きな考え方は、見ているものが「真実の地面」じゃないってこと。データの一部の視点に過ぎないんだ。自分の目、猫の目、カメラはそれぞれ異なるデータの部分を集めて、対象を違った視点で見せてくれる。空間と時間を追加の信号次元として捉えると、さらに面白くなる。宇宙が絶対的な現実だと想像していて、私たちはみんなその一部を観察しているセンサーシステムなんだ。
手作業で仕上げた最終製品の見た目が大好き(比較用のやつじゃなくて)。なんかすごくリアルで、心温まる感じがするんだよね。AIやインスタのフィルターで10倍に加工されたものじゃなくて。
加工されていない写真は「見えない」。それはRGGBのピクセル値で、どんな表示メディアよりもダイナミックレンジがはるかに超えてる。データを戦略的に捨てて、画面の小さなダイナミックレンジに合わせること(中立的なグレー点を発明することなど)が、実際にそれらを理解させるし、創造的な作業なんだ。
すごいウォークスルーだね。僕はキャリアの大部分を画像処理の仕事に費やしてきたんだ。最初の画像は、まさに生のベイヤーフォーマットそのものだよ。
これ、めっちゃ面白いね。読んだらまた戻ってくるよ。
これ、いくつかのことを思い出させるな。== ティムのヴェルメール == 特にティムの言葉「アートとテクノロジーは決して交わるべきではないという現代の考え方もある。テクノロジーの学校に行くか、アートの学校に行くか、両方はダメなんだ…でも黄金時代には、両方が同じ人だった。」 https://en.wikipedia.org/wiki/Tim%27s_Vermeer https://www.imdb.com/title/tt3089388/quotes/?item=qt2312040 == ジョン・リンドの写真の科学 == 写真の科学について読んだ中で一番の説明だよ。 https://johnlind.tripod.com/science/scienceframe.html == ビル・アトキンソン == ビル(そう、ハイパーカードのビルね)は、フィリップ・グリーンスプンが運営していた頃のphoto.netにリンクされていた素晴らしい写真科学の記事をいくつか持ってたんだ。デジタルセンサーの基本(例えば、なぜ大きなウェルが本質的に良いのか)についての詳しい説明が特に印象に残ってる。フィルがphoto.netを売ってから、そのコンテンツを見つけられなくてさ。見つけられる人には、すごい感謝するよ。