デジタルの紙を超えて

紙の資料がPDFになった。たったそれだけのことが、実際にはどれほど革命的だったか。そしてなぜ、それだけでは足りないのか。

紙からPDFへ

少し前まで、「資料」といえば紙のことだった。コピー機を通すたびに劣化する文字。数世代のコピーを経て原形をとどめないページ。手書きの注釈が入り混じった印刷物。回覧のために物理的に持ち運ばなければならない書類の束。それが「資料を配布する」ということの実態だった。

コロナ禍を契機にオンライン化が一気に進み、紙の資料は急速にPDFへと置き換わった。コミュニケーションツールが普及し、ファイル共有が当たり前になった。

この変化の大きさを、過小評価すべきではないと心から思う。

ニール・アームストロング船長の有名な言葉が頭に浮かぶ。

That's one small step for a man, one giant leap for mankind.
一人の人間にとっては小さな一歩だが、人類にとっては偉大な飛躍である。

紙からPDFへ。ファイルを送るだけで同じ文書が相手の画面に表示される。文字を検索できる。拡大しても潰れない。地球の裏側にいる人にも一瞬で届けられる。紙の時代には夢物語だった。これは確実に「偉大な飛躍」だった。

しかしPDFは「デジタルの紙」である

ここで立ち止まって考えたい。PDFとは結局のところ何なのか。

PDF(Portable Document Format)は1993年にAdobe Systemsが開発し、2008年にISO 32000として国際標準化された文書フォーマットだ。設計思想は明確で、「どの環境で開いても同じ見た目で表示されること」を保証する。フォント、余白、行間、図の配置。すべてが固定され、再現される。

ここが核心だ。PDFが保存しているのは、文書の「見た目」なのだ。

PDFの内部は、座標を指定して描画命令を並べた構造になっている。「この座標にこの大きさでこの文字を描け」、「ここに画像を配置しろ」という指示の集合体であって、「ここは見出しである」、「これは本文の段落である」、「この文は前の段落に続く」といった意味的な構造は、基本的に保持していない。

「改行」すらPDFの内部には存在しない。視覚的な改行は、次の描画命令のY座標が変わることで表現されているにすぎない。

つまりPDFは、デジタルの力で完全に再現された「紙」なのだ。紙と同じように、レイアウトは完璧に保存される。紙と同じように、中身を別の用途に再構成することは容易ではない。

PDFからテキストをコピーしたとき、文字の順番がばらばらになったり、改行位置がおかしくなったり、表が崩壊したりした経験のある人は少なくないだろう。これはPDFの不具合ではなく、そもそもPDFが文章の論理構造を記録するようには設計されていないことの帰結だ。同じPDFでもビューアによって抽出結果が異なるのは、ビューアが座標情報から文の順序や行の区切りを「推測」しているためにすぎない。

なお、PDFの仕様にはTagged PDFと呼ばれる構造情報を埋め込む仕組みも存在する。見出しや段落などの論理構造をタグとして付与するものだ。しかし現実には、この機能が適切に実装されているPDFはごく少数であり、ほとんどのPDFはやはり「見た目の記録」にとどまっている。

コンテンツと見た目の分離という未解決問題

PDFの限界を目にすると、自然に一つの問いにたどり着く。文書の「内容」と「見た目」を分離して扱えないのか、と。

「コンテンツとプレゼンテーションの分離」は、情報技術の世界で繰り返し挑戦され、そして完全には達成されていない課題だ。多くの人が取り組み、苦心し、それでもなお決定的な解決には至っていない。

HTMLとCSSは、Webの世界でこの分離を試みた最も広く知られた例だろう。HTMLが文書の構造と意味を記述し、CSSが見た目を制御する。理念としては美しい。しかし実際のWeb開発の現場では、構造と見た目は複雑に依存し合い、きれいな分離が保たれることは稀だ。

LaTeXは学術分野で独自のアプローチを取った。著者は \section{}\begin{theorem} といった論理的な構造だけを記述し、組版の細部はエンジンに委ねる。学術論文の組版においては強力だが、記法の学習コストの高さもあって、一般に広く普及するには至っていない。

Markdownは軽量さと読みやすさを武器にした。構造を最低限の記法で表現でき、書く側の負担は小さい。ただし表現力には限界があり、複雑なレイアウトや細かな視覚的制御には向かない。

どれも一長一短であり、「これさえ使えば万事解決」というフォーマットは存在しない。

そして、この問題が技術的に難しいのには理由がある。そもそも「コンテンツ」と「見た目」の境界そのものが曖昧なのだ。文字の太字強調は「意味」だろうか、「装飾」だろうか。箇条書きという形式は「論理構造」だろうか、「表示方法」だろうか。段落の間隔は「構造の区切り」だろうか、「視覚的余白」だろうか。こうした問いに一意の答えはない。見た目とコンテンツの分離は、言うほど簡単ではないのだ。

情報は散らばり、集めても使えない

フォーマットの問題と並行して、情報そのものの管理にも深刻な課題がある。

組織ではミーティングが日常的に開かれ、そこで共有された情報は議事録に残ることもあれば、そのまま流れていくこともある。チャットツールには膨大なやり取りが蓄積され、その中に重要な決定や貴重な知見が埋もれている。ファイルサーバには無数のフォルダが並び、同名の文書の異なるバージョンが散在する。

「すべてを一カ所に集約すればいい」という提案はよく聞く。しかし、それだけでは解決にならない。情報が一カ所に集まっても、構造化されていなければ、巨大な文書の山の前で途方に暮れるだけだ。

これは身近な場面で容易に想像できる。百科事典のような教科書を頭から通読しても、体系的な理解は得られない。あらゆる情報が一冊に収まっていることと、その情報を実際に理解し活用できることは、まったく別の問題だ。

情報には、適切な構造と、必要に応じて異なる角度から参照できる柔軟性が求められる。同じ内容であっても、全体を俯瞰したい場面と特定の詳細に集中したい場面がある。そのどちらにも対応するためには、情報が固定的な「見た目」に閉じ込められていてはならない。

発表と参考資料のジレンマ

ここで正直に一つの矛盾を認めたい。

情報は柔軟なデータとして保存されるべきだと主張しておきながら、自分自身が発表する側に回ったとき、実際にはどうしているか。スライドにはほとんど文字を載せない。長い文章を並べても、人には伝わらないからだ。図や図解を中心に構成し、説明は口頭で補う。発表原稿は別途作り込むが、聴衆に配布するわけではない。

そして、そうやって作った発表資料を後から「参考資料」として渡されたとしたら。はっきり言って、使い物にならない。図だけでは文脈がわからず、発表時の口頭説明なしには意味をなさないからだ。

これは個人の力量不足の問題ではなく、構造的なジレンマだ。

良い発表資料と良い参考資料は、求められる性質が根本的に異なる。 発表資料は、限られた時間で聴衆の注意を引き、要点を視覚的に印象づけることが目的だ。文字は最小限に抑え、図を大きく、テンポが重視される。一方、参考資料は、網羅性と正確性が要求される。文脈を自ら補い、後日読み返しても単体で意味をなす必要がある。

同じ知識を伝えるのに、最適な「形」が文脈によって全く異なる。ここにも、コンテンツとプレゼンテーションの問題が顔をのぞかせる。

もし情報が見た目から独立したデータとして保存されていれば、同じ内容を発表用のスライドとしても、後から参照する詳細資料としても、自在に出力できるはずだ。内容は一つ。見た目は用途に応じて変える。それが理想だ。しかし現実には、そのような仕組みはまだ広く実現されていない。

データとしての文書へ

率直な願望を言えば、見た目はどうでもいい。元のデータがほしい。

すべての文書をMarkdownで記述しろとは言わない。しかし、少なくともソースファイルにアクセスできるだけで状況は大きく変わる。PDFしか手に入らない現状では、内容を再利用するためにOCRや手作業による再入力が必要になることも珍しくない。元の構造化されたデータがあれば、検索、翻訳、要約、引用、形式変換のいずれも格段に容易になる。

見た目は必要なときに必要な形で生成すればいい。大切なのは、内容のデータが構造を保ったまま保存されていることだ。

次の一歩を

PDFは偉大な発明だった。紙を電子化し、どこでも誰でも同じ文書を同じ形で読めるようにした。その功績は揺るがない。

しかしPDFは到達点ではなく、通過点だ。

月面に降り立ったアームストロング船長の一歩は、宇宙開発の終わりではなく始まりだった。紙からPDFへの移行がデジタル文書における偉大な一歩だったとすれば、次の一歩は「見た目」から「コンテンツ」への転換ではないだろうか。

見た目に閉じ込められた情報を、構造を持ったデータとして解放すること。固定されたレイアウトの再現から、用途に応じた柔軟な表示への移行。それが次に踏み出すべき一歩だと思う。

その一歩を、切に待ち望んでいる。

Read more

Capture Oneに待望のネガフィルム変換機能が来た

2026年4月3日、Capture One 16.7.4 がリリースされた。目玉はなんといっても Negative Film Conversion(ネガフィルム変換) の搭載だ。これまで Cultural Heritage エディション限定だったネガ反転処理が、ついに通常の Capture One Pro / Studio でも使えるようになった。 何が変わったのか 従来、Capture One でネガフィルムをポジに変換するには、Cultural Heritage(CH)エディションを使う必要があった。CH は文化財デジタル化向けの専用製品で、Base Characteristics ツールに Film Negative / Film Positive モードが用意されていた。しかし一般の写真愛好家がフィルムスキャンのためだけに CH を導入するのは現実的ではなく、多くのユーザーは Lightroom とそのプラグイン(Negative Lab

By Sakashita Yasunobu

雨の中、歩くべきか走るべきか

傘を忘れた日の永遠の問い、歩くか、走るか、いやいっそ雨宿りをするのか。物理で決着をつける。 モデル 人体を直方体で近似。上面積 $A_{\text{top}}$(頭・肩)、前面積 $A_{\text{front}}$(胸・顔)。雨は鉛直一様(落下速度 $v_r$、数密度 $n$)、距離 $d$ を速度 $v$ で直線移動する。 人体の直方体モデルは、上から見た水平断面が $A_{\text{top}}$、正面から見た鉛直断面が $A_{\text{front}}$ の二面で構成される。移動方向は水平、雨は鉛直に降る。 受ける雨滴数は、上面が $n v_r A_{\text{top}

By Sakashita Yasunobu

T-GRAIN・Core-Shell・旧式乳剤の定量比較

Kodak T-GRAIN、Ilford Core-Shell、旧式立方晶乳剤。写真フィルムの性能を左右する三つの乳剤技術を、特許文献と数式に基づいて比較する。 1. 出発点: 旧式乳剤の構造と限界 T-MAXやDeltaが何を改良したのかを理解するには、まず従来の乳剤がどのようなものだったかを押さえておく必要がある。 1980年代以前、標準的なハロゲン化銀乳剤はAgBrやAgBr(I)の結晶が立方体(cubic)か不定形(irregular)の形をしていた。Tri-XやHP5の祖先にあたるこれらの乳剤では、結晶のアスペクト比(直径対厚さの比)はおおむね1:1から2:1。三次元的にほぼ等方的な粒子が乳剤層にランダムに散らばっていた。 この形態が感度と粒状性のトレードオフに直結する。立方晶粒子を一辺 $a$ の立方体として近似すると、表面積と体積、そしてその比は次のとおりである。 $$ S_{\text{cubic}} = 6a^2, \quad V_{\text{cubic}} = a^3, \quad \frac{S}{V} = \frac{6}

By Sakashita Yasunobu

クジラはなぜがんにならないのか

体が大きい動物ほど細胞の数が多い。細胞が多ければ、そのうちどれかががん化する確率も高くなるはずだ。ところが現実には、クジラやゾウのがん発生率はヒトよりも低い。1977年、疫学者リチャード・ピートがこの矛盾を指摘した。以来この問いは「ピートのパラドックス」と呼ばれ、比較腫瘍学における最大の謎のひとつであり続けている。 種の中では予測通り、種の間では崩れる 同じ種の中では、直感どおりの傾向が確認されている。身長の高いヒトはそうでないヒトよりがんの発生率がやや高く、年齢を重ねるほどがんは増える。細胞の数が多いほど、細胞分裂の回数が多いほど、がん化の確率は上がる。 しかし種を超えて比較すると、この関係が崩壊する。シロナガスクジラの細胞数はヒトの約1000倍にのぼるが、がんの発生率がヒトの1000倍になるわけではない。哺乳類全体を見渡しても、体サイズとがんリスクの間に明確な正の相関は長い間見つかっていなかった。がんの発生率は種が異なっても約2倍の範囲にしか収まらないとされてきた。体サイズの差は100万倍を超えるにもかかわらず。 ゾウが持つ余分ながん抑制遺伝子 最もよく知られた説明は

By Sakashita Yasunobu