跳到正文

AI 图片放大原理 — 2× 何时优于 4×

工具作者与维护者发布于 2026年4月26日约 3 分钟阅读

AI 放大用经过百万级低/高分辨率配对训练的神经网络,去合成 bicubic 复原不出来的‘合理’细节。能拯救老缩略图、从手机裁切照片、把小档案照放大到打印分辨率。但它无法复原从未拍到的细节,4× 下脸常常变得违和——除非有特别原因,请优先选 2×。

AI 放大到底在做什么?

经典插值(bicubic、Lanczos)只能在已有像素上插值,无法发明缺失的细节。AI 放大跑训练好的 CNN 或 Transformer 网络,输入 256×256 输出 512×512,多出的像素与训练分布一致。Real-ESRGAN 之所以普及,是因为训练时使用了人为劣化的高质量图像,专门学会了反转模糊、JPEG 压缩与降采样。

什么时候放大是正解?

经典获胜:救老缩略图、把 720p 老扫描放大到打印、补救裁切手机照。经典失败:合成新视角(不可能)、从模糊照片复原文字(少数成功)、对 AI 生成图再放大(噪点累积)。

为什么 2× 是安全默认?

2× 时网络的幻觉受到约束:每输出 1 像素有 4 个输入像素。4× 是 1:16,需发明 15/16 的像素,纹理还行但脸会变怪。需要 4× 时,请连续做两次 2× 而不是一次 4×。

浏览器模型工作机制

工具自带 ONNX 格式的 Real-ESRGAN-x2 模型(约 50MB),首次下载并缓存;推理用编译为 WebAssembly 的 ONNX Runtime Web,环境支持时启用 WebGPU(Chrome 113+/Edge 113+/Safari 17+)。M2 上 1024×1024 → 2048×2048 约 4 秒,iPhone 14 约 12 秒。

现实极限

脸:4× 时可能出现细微特征漂移。文字:极小印刷文字基本救不回来。已严重压缩的图:JPEG 块噪声常被‘当成特征’放大。AI 生成图:噪点叠加。拿不准时停在 2×。

操作步骤

约 1 分钟
  1. 拖入源图

    JPG/PNG/WebP,4MP 以内拖入。更大也行,但推理时间按面积平方增加。

  2. 选择倍率

    默认 2× 适合绝大多数;4× 仅在你有特别理由且画面里没有 2 像素高的脸时使用。

  3. 等待推理

    首次下载约 50MB 模型(之后缓存)。M2 约 4 秒,iPhone 14 约 12 秒。

  4. 对比并下载

    用 Before/After 滑块对比。脸违和就降到 2× 或放弃放大。

Real-ESRGAN-x2 三种输入大小推理时间
输入 → 输出Apple M2(WebGPU)iPhone 14(Wasm)输出文件大小
256×256 → 512×5120.4 秒1.1 秒+150% 字节
512×512 → 1024×10241.3 秒3.8 秒+220% 字节
1024×1024 → 2048×20484.1 秒12.0 秒+280% 字节
环境:ONNX Runtime Web 1.21,Real-ESRGAN-x2(约 50MB),M2 Chrome 139 / iPhone 14 Safari 17,输出 JPG 质量 90(2026-04-26)。

常见问题

  • 能放大到 4× 以上吗?

    把两次 2× 串起来等效 4×。再往上噪点会主导。

  • 脸为什么有时违和?

    网络不知道是谁,只是按局部上下文填出最‘合理’的脸。

  • 模型会上传我的照片吗?

    不会。约 50MB 的 ONNX 模型只首次下载并缓存,所有推理都在本地。

  • 可以批量处理吗?

    可以——按队列处理,只有第一张承担冷启动。

  • 能去 JPEG 噪点吗?

    轻微的可以;强块噪点常被放大。

  • 对 AI 生成图有效吗?

    通常不好——会叠加噪点。

立即试用

ONNX Runtime Web + WebGPU 2× / 4× super-resolution

AI Upscale (Real-ESRGAN) — 100% in-browser

本文包含 AI 翻译,如发现错误欢迎告知。

我们使用无 Cookie 的分析工具,记录匿名使用数据。详见隐私政策