AI 사진 업스케일의 실상 — 2×가 4×보다 나은 순간
Tomoda Hinata도구 작성자 및 유지 관리자게시 2026년 4월 26일약 4분 읽기
AI 업스케일은 수백만 쌍의 저해상→고해상으로 학습한 신경망을 이용해 bicubic으로는 복원할 수 없는 ‘그럴듯한’ 디테일을 합성합니다. 오래된 썸네일, 잘라낸 스마트폰 사진, 인쇄용으로 키워야 하는 작은 아카이브 사진을 살릴 수 있지만, 찍히지 않은 디테일은 복원할 수 없고 4×에서는 얼굴이 어색해질 수 있어 특별한 이유가 없으면 2×를 고르세요.
이 가이드에서 사용하는 도구
AI 업스케일이 실제로 하는 일
고전 리샘플링(bicubic, Lanczos)은 기존 픽셀을 보간할 뿐 새로운 디테일은 만들 수 없습니다. AI 업스케일은 저해상/고해상 쌍으로 학습한 CNN/Transformer를 돌려 256×256 입력에 대해 512×512를 출력합니다. 가장 널리 쓰이는 Real-ESRGAN은 의도적으로 열화된 고화질 이미지로 학습되어 블러/JPEG/다운샘플링을 되돌리는 것을 학습했습니다.
업스케일이 정답인 상황
전형적인 성공 셋: 옛 썸네일 복원, 아카이브 스캔, 잘라낸 스마트폰 사진. 전형적인 실패 셋: 새 시점 합성(불가능), 흐릿한 사진의 글자 복원(일부 성공이지만 실용성 낮음), 이미 AI가 만든 이미지 업스케일(잡티 누적).
왜 2×가 안전 기본값인가?
2×는 출력 1픽셀에 입력 4픽셀이 대응해 신경망의 환각이 제한됩니다. 4×는 16:1이라 15픽셀을 ‘발명’해야 하므로 텍스처는 살려도 얼굴이 어색해지고 글자가 흐트러집니다. 4×가 필요하면 한 번에 4×보다 2×를 두 번 연속 적용하세요.
브라우저 모델 작동 방식
ONNX 형식 Real-ESRGAN-x2(~50MB)를 첫 사용 시만 받아 캐시. 추론은 WebAssembly로 컴파일된 ONNX Runtime Web에서, WebGPU 가능 환경에선 가속(Chrome 113+, Edge 113+, Safari 17+). M2에서 1024×1024 → 2048×2048가 약 4초, iPhone 14에서 약 12초.
현실적 한계
얼굴: 4×에서는 미묘한 얼굴 변화. 글자: 작은 글씨 복원은 어렵다. 이미 압축된 이미지: 강한 JPEG 블록 잡티는 ‘특징’으로 잘못 인식되어 강조됨. AI 생성 소스: 잡티 누적.
단계
약 1분 소요원본 드롭
JPG/PNG/WebP, 4MP 이하를 도구에 드롭. 더 큰 입력도 가능하지만 추론 시간이 제곱으로 늘어남.
배율 선택
기본 2×가 대부분 정답. 4×는 특별한 이유가 있고 얼굴 픽셀이 충분할 때만.
추론 대기
처음엔 ~50MB 모델 다운로드(이후 캐시). M2 약 4초, iPhone 14 약 12초.
비교 후 다운로드
Before/After 슬라이더로 확인. 얼굴이 어색하면 2×로 낮추거나 업스케일 포기.
| 입력 → 출력 | Apple M2 (WebGPU) | iPhone 14 (Wasm) | 출력 파일 크기 |
|---|---|---|---|
| 256×256 → 512×512 | 0.4 초 | 1.1 초 | +150% 바이트 |
| 512×512 → 1024×1024 | 1.3 초 | 3.8 초 | +220% 바이트 |
| 1024×1024 → 2048×2048 | 4.1 초 | 12.0 초 | +280% 바이트 |
자주 묻는 질문
4× 이상 가능?
2×를 두 번 적용해 실효 4×. 그 이상은 잡티가 지배적.
왜 얼굴이 어색해 보이나?
신경망은 누구의 얼굴인지 모르고 가장 그럴듯한 특징을 채우기 때문.
사진이 업로드되나?
아니요. 모델은 캐시되고 추론은 모두 로컬.
여러 장 일괄 가능?
가능 — 큐에 넣어 순차 처리, 첫 한 장만 콜드 스타트 비용.
JPEG 잡티 제거에 좋은가?
약한 압축은 청소되지만 강한 블록 잡티는 종종 강조됨.
AI 생성 이미지에도?
보통 안 좋음 — 잡티가 누적됨.
지금 사용해 보기
ONNX Runtime Web + WebGPU 2× / 4× super-resolution
AI Upscale (Real-ESRGAN) — 100% in-browser이 글은 AI 번역을 포함합니다. 오류가 있으면 알려 주세요.