AI 图片放大原理 — 2× 何时优于 4×
Tomoda Hinata工具作者与维护者发布于 2026年4月26日约 3 分钟阅读
AI 放大用经过百万级低/高分辨率配对训练的神经网络,去合成 bicubic 复原不出来的‘合理’细节。能拯救老缩略图、从手机裁切照片、把小档案照放大到打印分辨率。但它无法复原从未拍到的细节,4× 下脸常常变得违和——除非有特别原因,请优先选 2×。
本指南使用的工具
AI 放大到底在做什么?
经典插值(bicubic、Lanczos)只能在已有像素上插值,无法发明缺失的细节。AI 放大跑训练好的 CNN 或 Transformer 网络,输入 256×256 输出 512×512,多出的像素与训练分布一致。Real-ESRGAN 之所以普及,是因为训练时使用了人为劣化的高质量图像,专门学会了反转模糊、JPEG 压缩与降采样。
什么时候放大是正解?
经典获胜:救老缩略图、把 720p 老扫描放大到打印、补救裁切手机照。经典失败:合成新视角(不可能)、从模糊照片复原文字(少数成功)、对 AI 生成图再放大(噪点累积)。
为什么 2× 是安全默认?
2× 时网络的幻觉受到约束:每输出 1 像素有 4 个输入像素。4× 是 1:16,需发明 15/16 的像素,纹理还行但脸会变怪。需要 4× 时,请连续做两次 2× 而不是一次 4×。
浏览器模型工作机制
工具自带 ONNX 格式的 Real-ESRGAN-x2 模型(约 50MB),首次下载并缓存;推理用编译为 WebAssembly 的 ONNX Runtime Web,环境支持时启用 WebGPU(Chrome 113+/Edge 113+/Safari 17+)。M2 上 1024×1024 → 2048×2048 约 4 秒,iPhone 14 约 12 秒。
现实极限
脸:4× 时可能出现细微特征漂移。文字:极小印刷文字基本救不回来。已严重压缩的图:JPEG 块噪声常被‘当成特征’放大。AI 生成图:噪点叠加。拿不准时停在 2×。
操作步骤
约 1 分钟拖入源图
JPG/PNG/WebP,4MP 以内拖入。更大也行,但推理时间按面积平方增加。
选择倍率
默认 2× 适合绝大多数;4× 仅在你有特别理由且画面里没有 2 像素高的脸时使用。
等待推理
首次下载约 50MB 模型(之后缓存)。M2 约 4 秒,iPhone 14 约 12 秒。
对比并下载
用 Before/After 滑块对比。脸违和就降到 2× 或放弃放大。
| 输入 → 输出 | Apple M2(WebGPU) | iPhone 14(Wasm) | 输出文件大小 |
|---|---|---|---|
| 256×256 → 512×512 | 0.4 秒 | 1.1 秒 | +150% 字节 |
| 512×512 → 1024×1024 | 1.3 秒 | 3.8 秒 | +220% 字节 |
| 1024×1024 → 2048×2048 | 4.1 秒 | 12.0 秒 | +280% 字节 |
常见问题
能放大到 4× 以上吗?
把两次 2× 串起来等效 4×。再往上噪点会主导。
脸为什么有时违和?
网络不知道是谁,只是按局部上下文填出最‘合理’的脸。
模型会上传我的照片吗?
不会。约 50MB 的 ONNX 模型只首次下载并缓存,所有推理都在本地。
可以批量处理吗?
可以——按队列处理,只有第一张承担冷启动。
能去 JPEG 噪点吗?
轻微的可以;强块噪点常被放大。
对 AI 生成图有效吗?
通常不好——会叠加噪点。
立即试用
ONNX Runtime Web + WebGPU 2× / 4× super-resolution
AI Upscale (Real-ESRGAN) — 100% in-browser本文包含 AI 翻译,如发现错误欢迎告知。