写真の物理学 ㊻ 人間の眼の光学
このシリーズでは、写真にまつわる現象を物理学の言葉で記述する。「なんとなくそうなる」を「なぜそうなるか」に変換することが目的である。
最も身近なカメラは、あなたの頭の中にある。人間の眼は角膜と水晶体からなる光学系、虹彩による可変絞り、網膜というセンサーを備えた完成度の高い撮像装置だ。本稿ではカメラとの類似だけでなく両者の決定的な違いを明確にすることで、写真の物理学が人間の知覚にどこまで接続できるかを探る。
角膜と水晶体の光学系
人間の眼の光学系は、主に二つの屈折要素で構成されている。角膜と水晶体だ。
角膜は眼球の最前面にある透明な組織で、全屈折力の約3分の2を担う。屈折率は約1.376で、空気(屈折率1.0)との界面で大きな屈折が生じる。残りの約3分の1を水晶体が担う。水晶体の屈折率は中心部で約1.41、周辺部で約1.38と、内部で連続的に変化する勾配屈折率(GRIN: Gradient Index)構造を持つ。この構造は球面収差を自己補正する効果があり、単純な均質レンズよりも優れた結像性能をもたらす。
この二枚のレンズからなる光学系の等価焦点距離は、遠方に合焦した状態で約17mmとされる。これは屈折力に基づく計算値(約59ディオプトリーの逆数)であり、角膜の前面から網膜までの物理的距離(約24mm)とは異なる。眼球内部は空気ではなく硝子体液(屈折率約1.336)で満たされているため、空気中のレンズと同じ焦点距離の計算が直接適用できない。
カメラのレンズとの比較でいえば、初めてのレンズに迷ったらで触れた50mmレンズが「人間の目に近い」という言説は、眼の焦点距離17mmとは数値上まったく一致しない。50mmが「自然に見える」のは、35mmフルサイズセンサーにおける水平画角約40度が、人間の有効視野の下限に偶然近いためだ。光学的な等価性ではなく、知覚的な自然さの一致にすぎない。
虹彩と瞳孔の可変絞り
虹彩は、瞳孔の径を変化させることで網膜に届く光量を調節する。これはカメラの絞り機構と機能的に等価だ。
瞳孔径は環境の明るさに応じて約2mmから8mm程度の範囲で変動する。等価焦点距離17mmを用いてF値を計算すると、明所で $F = 17/2 \approx 8.5$ 、暗所で $F = 17/8 \approx 2.1$ となる。つまり人間の眼は、およそF2.1からF8.5の範囲で自動的に絞りを調節している。
ただし、この変動による光量の制御は限定的だ。F2.1とF8.5の差は約4段にすぎない。瞳孔径の変化だけでは、日光下(約10万ルクス)から星明かり(約0.001ルクス)までの約8桁に及ぶ照度範囲に対応できない。残りは、後述する桿体細胞と錐体細胞の感度切り替えと暗順応が担う。
カメラの絞りとの違いもある。カメラの絞りは撮影者が意図的に制御する(あるいは自動露出で制御される)独立したパラメータだが、瞳孔の調節は瞳孔対光反射によるほぼ完全な自律的制御であり、意図的に瞳孔径を変えることは通常できない。
調節と焦点合わせ
カメラは、レンズを光軸方向に移動させることでフォーカスを合わせる。人間の眼は、レンズそのものの形を変える。この焦点調節メカニズムを調節(アコモデーション)という。
ヘルムホルツの調節理論(1856年)は、現在も広く支持されている説明だ。遠方を見るとき、毛様体筋は弛緩し、チン小帯(毛様体と水晶体を結ぶ線維)が緊張して水晶体を扁平に引き伸ばす。これにより屈折力が低下し、遠方に焦点が合う。近くを見るとき、毛様体筋が収縮してチン小帯の張力が緩み、水晶体は自身の弾性で厚みを増す。屈折力が増加し、近距離に焦点が合う。
若年者では約12ディオプトリーの調節力を持ち、これは約8cmの距離まで合焦できることを意味する。しかし加齢とともに水晶体の弾性が失われ、調節力は低下する。40代半ばでは約4ディオプトリーまで低下し、近点距離が約25cmまで後退する。これが老視(老眼)だ。
カメラのレンズには経年劣化はあっても、焦点調節範囲が体系的に縮小していくことはない。人間の光学系は、時間とともに性能が不可逆的に変化するという、カメラにはない特性を持っている。
網膜の構造と視細胞の分布
網膜はカメラのセンサーに相当する。しかし、カメラのセンサーが均一な画素配列を持つのに対して、網膜の構造は極めて不均一だ。
網膜には二種類の視細胞がある。錐体細胞と桿体細胞だ。
錐体細胞は色覚と高い空間分解能を担い、網膜全体で約600万個存在する。中心窩(fovea centralis)と呼ばれる網膜中心部の直径約1.5mmの領域に高密度に集中しており、中心窩の最中心部(中心小窩、foveola)は錐体細胞のみで構成される。錐体細胞にはL錐体(長波長、赤)、M錐体(中波長、緑)、S錐体(短波長、青)の三種類があり、これらの応答比から色が知覚される。
桿体細胞は暗所視を担い、約1億2000万個が網膜の周辺部に広く分布する。錐体細胞の500倍から1,000倍の光感度を持つが、色の弁別能力はほとんどない。星空を眺めるで述べた「逸視」の技法は、この分布の不均一性を利用している。暗い星を直視すると桿体がない中心窩で捉えようとしてしまうため見えないが、視線をわずかにずらすと桿体が豊富な周辺部で光を捉えることができる。
この不均一な分布は、カメラのセンサー設計とは根本的に異なる発想だ。カメラは画面全体で均一な解像度を提供する。眼は、ごく狭い中心部にリソースを集中させ、周辺部は解像度を犠牲にして感度に振る。この設計上の選択が、後述するサッカードという戦略を必要にする。
中心窩の解像力とメガピクセルの誤解
中心窩の角度分解能は、正常視力(20/20視力)で約1分角(1/60度)だ。これは1mm離れた二つの点を約3.4m先から区別できることに相当する。最適条件下では、さらに高い約0.5分角の分解能が報告されている。
この数値から「人間の目は何メガピクセル相当か」という議論がしばしば行われるが、この問い自体に構造的な問題がある。
中心窩のうち最も解像度が高い領域は視野のわずか約2度に限られ、この範囲の錐体は数万個にとどまる。中心窩全体(約5度)まで広げても錐体は約20万個だ。前述の1分角の分解能を視野全体(約160度 × 120度)に当てはめると約7,000万画素、中心窩の錐体間隔(約0.3分角)を基準に約120度四方で計算すると約5億7,600万画素と、前提を変えるだけで結果は一桁変わる。実際の網膜はそのような均一な構造を持たず、周辺部の解像度は中心の数十分の一以下だ。
「576メガピクセル」や「50メガピクセル」といった数字が流通しているが、これらは人間の視覚体験を画素数という単一の指標に還元しようとする試みであり、物理的な意味は乏しい。人間の視覚は、高解像度の狭い窓を高速で動かしながら、脳が時間的に統合して「全体が鮮明に見えている」という印象を構成するシステムだ。静止した均一なセンサーとの比較は、比喩としては面白いが、工学的な対応関係としては成立しない。
周辺視野の物理的特性
中心窩の外側、すなわち周辺視野では、桿体細胞が優勢になる。
桿体の密度は中心窩から約20度の偏心角でピーク(約15万個/mm²)に達し、その後は周辺に向かって緩やかに減少する。周辺視野の角度分解能は、偏心角30度で中心窩の約10分の1以下まで低下する。
しかし周辺視野は、解像度以外の点で重要な機能を持つ。動き検出の感度は周辺部のほうが高い。視野の隅で何かが動いたとき即座に注意が向くのは、周辺視野の運動検出能力による。また、周辺部では時間分解能(フリッカー検出の上限周波数)が中心部より高いことも知られている。
カメラのセンサーは画面全体で同じ時間分解能を持つが、人間の網膜は空間的に異なる時間特性を持つ。中心は空間解像度が高く時間分解能がやや低い。周辺は空間解像度が低く時間分解能が高い。この非対称性は、「形を認識する」と「動きに反応する」という二つの要求に対する、進化的な最適化の結果と考えられる。
サッカードと視覚の時間戦略
人間の眼は、1秒間に3回から4回、サッカード(急速眼球運動)と呼ばれる素早い跳躍運動を行う。一回のサッカードで眼球は数十ミリ秒のうちに新しい注視点に移動する。
サッカードが必要な理由は明確だ。高解像度を提供する中心窩の視野角がわずか2度しかないため、広い視野を高解像度で「見る」には、中心窩を次々と異なる位置に向けるしかない。いわば、狭いスポットライトを高速で走査しているようなものだ。
興味深いのは、サッカード中の視覚が抑制される現象(サッカード抑制)だ。眼球が高速で移動している間、網膜上の像は大きくぶれるはずだが、私たちはその像ブレを知覚しない。脳がサッカード中の視覚情報を積極的に抑制し、移動前後の静止画像だけを採用しているからだ。
カメラにおける手ぶれ補正は、像のブレを物理的に補正する。人間の視覚系は、ブレた像を使わずに捨てるという、まったく異なる戦略をとっている。
暗順応と明順応
暗い場所に移動した直後は何も見えないが、時間が経つにつれて徐々に見えるようになる。これが暗順応だ。
暗順応には二段階ある。最初の5分から7分で錐体細胞の感度が上昇し、約100倍の感度増加が得られる。その後、桿体細胞の感度上昇が始まり、30分から40分かけて完了する。桿体の暗順応が完了すると、明所視に比べて約10万倍の感度に達する。
この時間経過は、視物質の再合成速度によって決まる。桿体細胞の視物質であるロドプシンは、光を吸収すると構造変化(11-シスレチナールからオールトランスレチナールへの異性化)を起こし、分解される。暗所では逆反応によってロドプシンが再合成されるが、この酵素反応には時間がかかる。
明順応は暗順応よりもはるかに速い。暗い場所から明るい場所に出ると、数秒でまぶしさが和らぎ、1分から2分でほぼ完全に適応する。これは、過剰な視物質の光による分解が速やかに進むためだ。
まぶたの裏に残る灰色の光で述べたように、暗順応で感度が上がるということは、同時に熱ノイズも拾いやすくなるということだ。カメラのISO感度を上げたときにノイズが増えるのと、構造的に同じトレードオフが生じている。
眼のダイナミックレンジ
人間の視覚系が対応できる輝度範囲は、瞳孔径の変化と暗順応を組み合わせると約20EVに及ぶとされる。
ただし、この約20EVは同時に知覚できる範囲ではない。ある瞬間に知覚可能なダイナミックレンジは、10EVから14EV程度と推定されている。残りは、瞳孔の調節と暗順応による感度のシフトで補われる。
カメラのセンサーとの比較でいえば、現代のフルサイズセンサーはベースISOで14EVから15EV程度のダイナミックレンジを持つ。瞬間的なダイナミックレンジでは、カメラは人間の眼に匹敵するか、場合によっては上回る。しかし、カメラはISO感度を上げるとダイナミックレンジが縮小するのに対して、人間の眼は暗順応によって感度域全体をシフトさせながらも、ある程度のダイナミックレンジを維持する。
HDR撮影とトーンマッピングは、複数の露出を合成することで人間の知覚に近い広いダイナミックレンジを再現しようとする技術だ。しかしそれは、眼が時間的に行っている感度調整を、空間的な合成で模倣しているにすぎない。
色順応とフォン・クリース適応
白い紙を蛍光灯の下で見ても、白熱灯の下で見ても、ろうそくの灯りの下で見ても、私たちは「白い」と知覚する。実際には、それぞれの照明下で紙から反射される光の分光分布はまったく異なるにもかかわらず、だ。
これが色順応であり、カメラのホワイトバランスに相当する機能を、人間の視覚系は自動的に行っている。
フォン・クリース適応(1902年)は、この現象を説明するもっとも基本的なモデルだ。三種類の錐体(L, M, S)それぞれが、照明条件に応じて独立にゲイン(感度)を調整するというものである。白い面を照明したときの各錐体の応答を基準として、各チャネルのゲインを逆数に設定する。数学的には、順応後の錐体応答 $(L_a, M_a, S_a)$ は次のように表される。
$$ L_a = \frac{L}{L_w}, \quad M_a = \frac{M}{M_w}, \quad S_a = \frac{S}{S_w} $$
ここで $(L_w, M_w, S_w)$ は照明光のもとでの白色面に対する錐体応答だ。
このモデルは単純だが、驚くほど多くの実験データを説明する。カメラのホワイトバランスがセンサーのRGB値に対してほぼ同じ操作(チャネルごとのゲイン乗算)を行うのは、フォン・クリース適応をデジタル的に再現しているからだ。ストロボ撮影で色がずれる理由と対策で述べた色ずれの問題も、カメラのホワイトバランスが人間の色順応ほど柔軟に対応できないことに一因がある。
ただし、フォン・クリース適応は完全ではない。急激な照明変化に対しては順応に時間がかかるし、極端に偏った分光分布のもとでは色恒常性が崩壊する。また、色順応は網膜だけでなく、より高次の脳の処理にも依存することがわかっている。
カメラとの決定的な違い
ここまで、眼とカメラの類似点を多く見てきた。レンズ、絞り、センサー、ISO感度、ホワイトバランス。対応関係は確かに存在する。
しかし、もっとも根本的な違いは、眼が画像を記録しないということだ。
カメラはシャッターを切った瞬間の光をセンサー上に記録し、固定されたデジタルデータとして保存する。その画像は後から誰が見ても同じだ。一方、人間の視覚系はそのような「スナップショット」を一度も作らない。
網膜は常に信号を出力し続けている。その信号は視神経を通じて外側膝状体を経由し、一次視覚野に到達する。そこから腹側経路(「何」を認識する経路)と背側経路(「どこ」を認識する経路)に分かれ、複数の皮質領域で並列に処理される。私たちが「見ている」と感じている視覚世界は、この多段階の処理を経て脳が構成した表象だ。
まぶたの裏に残る灰色の光で詳述したように、外部入力が途絶えても脳は視覚情報の「生産」をやめない。盲点を補完し、ノイズからパターンを抽出し、サッカード間の不連続な入力を滑らかな視覚体験に統合する。この能動的な構成作業は、カメラの画像処理パイプラインとは質的に異なる。
カメラのRAW現像やトーンマッピングは、記録されたデータに対する後処理だ。元のデータは常に参照可能であり、処理を元に戻すこともできる。しかし人間の視覚においては、「元のデータ」に当たるものにアクセスする手段がない。網膜の出力信号を「生」のまま知覚することは原理的にできない。私たちが見ているのは、常に脳の解釈済みの出力だ。
この事実は、写真を見る行為にも影響する。同じプリントを見ても、照明条件、鑑賞距離、直前に見ていた画像、そして観者の視覚系の個体差によって、知覚される画像は異なる。写真の物理学が扱えるのは、光源からセンサー(あるいはプリント面、ディスプレイ)までの物理的なプロセスだ。そこから先、光が網膜に到達してから「見える」に至るまでの過程は、物理学の管轄を超える。
まとめ
人間の眼は、等価焦点距離約17mmの二枚レンズ光学系、F2.1からF8.5の可変絞り、約600万個の錐体と約1億2000万個の桿体からなる不均一なセンサーを持つ。中心窩の最高解像度領域は約1分角の角度分解能を提供するが、その視野角はわずか約2度にすぎない。暗順応と瞳孔径変化を合わせた総ダイナミックレンジは約20EVに及び、色順応(フォン・クリース適応)が自動ホワイトバランスとして機能する。
しかしこれらの数値的な対応は、眼とカメラの本質的な違いを覆い隠す。カメラは光を記録する装置であり、眼は光を素材として世界の表象を構成するシステムの入力部にすぎない。眼が「見ている」のではなく、脳が「見せている」のだ。
写真の物理学は、光がレンズを通過してセンサーに到達するまでのプロセスを記述する。人間の眼の光学を知ることは、そのプロセスの終着点、つまり写真が最終的にどのような装置で鑑賞されるかを理解することだ。次回は、その先にある視覚の知覚心理物理学に踏み込む。