PDF から画像を抽出する完全ガイド — ページラスタライズ vs 埋め込み画像取り出し
Tomoda Hinataツール作者・運営公開 2026年4月26日約6分
「PDF から画像を抽出」には 2 つのまったく違う意味があります。モード A — 各ページをラスタライズ — はテキスト + 写真 + 図をまとめて 1 ページ 1 枚の画像にします (大半のユーザーが欲しいのはこちら)。モード B — 埋め込み画像抽出 — は PDF 制作者が挿入した元写真のバイトを無加工で取り出します。間違った方を選ぶと時間の無駄。本記事はどちらが必要かを判断する基準と、それぞれのブラウザ完結ワークフローを解説します。
このガイドで使うツール
「PDF から画像を抽出」とは具体的に?
同じ呼び名で 2 つのまったく異なる操作が存在します。ページラスタライズ: PDF の各ページがテキスト・写真・図をすべて焼き込んだ 1 枚のフラット画像になります。スライドデッキ・スキャン文書・OCR パイプラインへの投入には、これが必要です。埋め込み画像抽出: PDF.js が PDF のオブジェクトグラフを歩き、制作者が挿入した画像ストリームをそのまま取り出します。デザイナーがパンフレットに置いたヒーロー写真を「ページのスクショ」ではなく「写真そのもの」で欲しいときは、こちらです。
ページラスタライズが正しい用途
代表的な 5 ケース: (1) スライド PDF を Instagram カルーセル用の画像にプレデッキ化。(2) スキャン文書を OCR への投入用に変換。(3) 講義ノートをスマホ閲覧用に取り出す。(4) 契約書をプレビューサムネイルにする。(5) 1 ページポスターを高解像度 JPG としてアーカイブ。いずれもページ全体 (テキスト + 視覚要素を含む) が欲しい場面 — 埋め込み抽出ではレイアウト情報が失われます。
埋め込み画像抽出が正しい用途
代表的な 3 ケース: (1) PDF 制作者が高解像度ヒーロー写真をパンフレットに置いており、その元写真をページの縮小ラスタではなく原寸で欲しい。(2) ベンダーの商品 PDF から元品質の画像を回収して再利用。(3) PDF に含まれる画像を著作権チェック目的で監査。出力は 1 ページ 1 画像ではなく N 画像なので、30 ページのパンフレットからは 80 枚の個別画像が出てくることもあります。
DPI はいくつにすべき?
DPI が意味を持つのはラスタライズモードだけ。72 DPI は多くのビューワの画面表示と一致し、ファイルが最も小さい。150 DPI は Retina ディスプレイでの画面閲覧に最適点。300 DPI が印刷品質。300 を超えるとサイズは増えますが、A4 より大きい印刷で虫眼鏡を使わない限り目では見分けがつきません。OCR への投入なら 200〜300 DPI が標準で、150 未満になると OCR 精度が急落します。
出力は PNG と JPG どちら?
テキスト主体のページや細線図のあるページには PNG — エッジの鮮明さを保てる代わりにサイズが大きくなる。写真主体のページには JPG 品質 90 — 通常閲覧サイズで差が見えずファイルサイズは 5〜10 倍小さい。両方混在するスライドは JPG 品質 92 がバランス良。
暗号化 PDF やスキャン PDF は?
パスワード付き PDF はラスタライズ前に解錠が必要 — ツールが入力フォームをインライン表示します。スキャン専用 PDF (各ページが画像) も問題なく動作 — 抽出モードはオリジナルスキャンを返し、ラスタライズモードは選択した DPI で再描画します。フォーム入力可能な PDF も対応 — ラスタライズは下地のフォームと入力済みの値の両方を取り込みます。
手順
所要時間 約1分PDF をドロップ
1 ファイル (最大 200MB) をツールにドラッグ。暗号化 PDF はパスワードフォームが表示。
モードと設定を選ぶ
モード: 「ページをラスタライズ」(既定) または「埋め込み画像を抽出」。DPI 既定 150、形式 JPG 品質 90 既定。
処理を実行
PDF.js が各ページを順次レンダー。プログレスバーがページ単位で進む。途中キャンセル可能。
ZIP でダウンロード
出力画像はすべて 1 つの ZIP に、ページ番号と一致する連番ファイル名で格納。
| 設定 | 処理時間 (M2) | 出力 ZIP サイズ |
|---|---|---|
| 72 DPI JPG 品質 90 | 5 秒 | 4 MB |
| 150 DPI JPG 品質 90 | 8 秒 | 11 MB |
| 150 DPI PNG | 12 秒 | 32 MB |
| 300 DPI JPG 品質 90 | 21 秒 | 38 MB |
よくある質問
100 ページ PDF でも動く?
動きます — PDF.js はページをストリーミングするため、合計ページ数に関わらずメモリ使用量は一定。100 ページ 150 DPI のラスタライズはモダンノート PC で 25〜35 秒、出力 ZIP は約 30MB の JPG。
特定のページだけ抽出できる?
できます — ページ範囲セレクタで「5」 (5 ページ目のみ) や「5-10」 (5〜10 ページ) を指定可能。既定は「全ページ」。
DPI を上げると OCR 精度は上がる?
ある程度までは。OCR の最適点は 200〜300 DPI。150 DPI 未満は文字形状が曖昧になり OCR 精度が顕著に低下、300 DPI を超えると逓減し OCR 処理時間も伸びます。
PDF から元写真を取り出せる?
はい — モードを「埋め込み画像を抽出」に切り替えてください。PDF 内のすべての Image XObject を歩き、制作者が埋め込んだ通りの元解像度で保存します。
暗号化 PDF は対応?
パスワードがあれば対応 — ツールが処理前にインラインで入力を求めます。パスワードなしには PDF を解析できません。
アップロードされる?
いいえ。PDF.js は PDF をブラウザ内だけでパースし、レンダリングも ZIP 化もすべてクライアント側。PDF は端末から外に出ません。
今すぐ試す
PDFの各ページをPNG/JPGに一括変換
PDF → 画像 変換