Appearance
3-1. AI 안구인식 및 가상착용 엔진
개요
AI 안구인식 및 가상착용 엔진은 본 과제의 핵심 기술로, 사용자의 안구를 정밀하게 인식하고 투명 배경 컬러렌즈 PNG 이미지를 실시간으로 합성하는 시스템입니다.
CV 기반 4단계 캐스케이드 파이프라인
본 과제는 클래식 CV 알고리즘과 MediaPipe를 결합한 4단계 캐스케이드 파이프라인으로 높은 정확도와 실시간 성능을 동시에 달성합니다:
- 1단계: Haar/HOG 조기 검출 (얼굴·눈 영역 ROI)
- 2단계: MCT 전처리 (조명 정규화)
- 3단계: MediaPipe 홍채 추적 (정밀 10포인트 랜드마크)
- 4단계: LBP 텍스처 분석 + 렌즈 PNG 합성 (알파 블렌딩)
이 전략은 2년 사업 기간 내 실현 가능한 범위에 맞춰 단계적으로 개발합니다.
기술 아키텍처 (4단계 캐스케이드)

기술 선택 근거
왜 CV 기반 캐스케이드 전략인가?
| 시나리오 | 요구사항 | CV 캐스케이드 해결 |
|---|---|---|
| 스마트미러 | 실시간 (<50ms) | 4단계 파이프라인 전체 50ms 이내 |
| 모바일 웹 | 브라우저 실행 | MediaPipe WASM + 경량 CV → 서버 의존 최소화 |
| 커머스 썸네일 | 높은 품질 | 고해상도 렌즈 PNG + 정밀 블렌딩으로 품질 확보 |
핵심 기술 구성
| 기술 | 역할 | 성능 |
|---|---|---|
| Haar/HOG | 얼굴·눈 영역 조기 검출 (ROI) | <5ms |
| MCT | 조명 정규화 전처리 | <3ms |
| MediaPipe FaceMesh | 홍채 10포인트 정밀 추적 | <8ms |
| LBP | 홍채 텍스처·색상 분석 | <2ms |
| SIFT | 합성 품질 검증 (오프라인 QA) | — |
| 알파 블렌딩 | 렌즈 PNG 합성 | <16ms |
단계별 기술 상세
① 얼굴·눈 영역 조기 검출 — Haar/HOG
| 항목 | 사양 |
|---|---|
| 기술 | Haar Cascade (OpenCV) + HOG (Histogram of Oriented Gradients) |
| 역할 | 저해상도·원거리에서도 얼굴·눈 영역을 빠르게 검출하여 ROI 크롭 |
| 속도 | <5ms |
| 장점 | CPU에서 실행, 학습 불필요, 대화면(스마트미러)에서 유리 |
| 효과 | MediaPipe 입력을 고해상도 ROI로 제한 → 정확도·속도 동시 개선 |
② 조명 정규화 — MCT (Modified Census Transform)
| 항목 | 사양 |
|---|---|
| 기술 | MCT (Modified Census Transform) |
| 역할 | 매장·팝업스토어 등 다양한 조명 환경에서 이미지 정규화 |
| 속도 | <3ms |
| 장점 | 픽셀 간 상대적 밝기 비교 → 조명 변화에 강건 |
| 효과 | 형광등, 자연광, 스포트라이트 등 환경 차이에도 일관된 인식 품질 |
③ 홍채 정밀 추적 — MediaPipe FaceMesh
| 항목 | 사양 |
|---|---|
| 모델 | MediaPipe FaceMesh (refine_landmarks=True) |
| 랜드마크 | 478포인트 (468 얼굴 + 10 홍채) |
| 홍채 포인트 | LEFT_IRIS(468-472), RIGHT_IRIS(473-477) — 각 5포인트 |
| 성능 | 30-60 FPS (모바일 포함) |
| 라이선스 | Apache 2.0 (오픈소스) |
| 배포 | TFLite (모바일), WASM (브라우저), Python (서버) |
왜 MediaPipe인가: 홍채 전용 10포인트 랜드마크를 제공하는 유일한 경량 모델. 별도 학습 없이 즉시 사용 가능하며, 브라우저(WASM)에서도 실시간 실행 가능.
④ 홍채 특성 분석 + 렌즈 PNG 합성
MediaPipe 랜드마크를 기반으로 클래식 CV 특징 검출기를 결합하여 정확도를 향상하고, 투명 배경 렌즈 PNG를 합성합니다.
알고리즘 상호보완 구조
각 알고리즘의 고유 단점을 다른 알고리즘이 보완하는 캐스케이드 구조입니다:
MediaPipe 약점(저해상도) ←── Haar/HOG가 고해상도 ROI 크롭으로 보완
MediaPipe 약점(조명 불안정) ←── MCT가 조명 정규화로 보완
MediaPipe 약점(텍스처 무정보) ←── LBP가 텍스처 분석으로 보완
LBP 약점(노이즈 민감) ←── SIFT가 가중치 부여로 보완 (w-LBP)
LBP 약점(조명 극단 변화) ←── MCT가 조명 정규화로 보완
SIFT 약점(느림, 100ms+) ←── Ferns가 실시간 매칭으로 대체
Haar 약점(정면만 검출) ←── MediaPipe/HOG가 Fallback홍채 분석 세부 구성
| 분석 항목 | 핵심 기술 | 보조 기술 | 활용 | 학술 근거 |
|---|---|---|---|---|
| 홍채 중심·반지름 | MediaPipe 5포인트 타원 피팅 | — | 렌즈 PNG Affine Transform 기준점 | μED=0.736 (IEEE Access, 2025) |
| 홍채 색상·패턴 | HSV 히스토그램 | LBP — 텍스처 코드 추출 | 개인화 렌즈 추천 | Zhang et al. (ICPR, 2010) |
| 조명 보정 | 하이라이트 검출 | MCT — 상대 비교 기반 정규화 | 매장 환경 대응 | Froba & Ernst (AVBPA, 2004) |
| 동공 크기 | 중심점-경계점 거리 | — | 렌즈 합성 시 동공 반영 | — |
| 품질 검증 | 합성 전/후 비교 | SIFT — 특징점 정합 | 오프라인 QA | Lowe (ICCV, 1999) |
| 실시간 매칭 | — | Ferns — SIFT 대비 10-100배 빠름 | 렌즈 DB 빠른 검색 | Ozuysal et al. (TPAMI, 2010) |
조합 효과 (검증된 수치)
| 조합 | 단독 대비 효과 | 출처 |
|---|---|---|
| SIFT + w-LBP | iris 분류 정확도 84% (단독 LBP 78% 대비 +6%) | IJBM, 2017 |
| HOG + BSIF (Multi-ICA) | iris 인식 정확도 97.5% | ResearchGate, 2018 |
| MediaPipe + MCT | 조명 변화 환경에서 Haar 대비 +30% 강건 | Froba & Ernst (AVBPA, 2004) |
| MediaPipe + Haar ROI | 저해상도 입력 대비 정밀도 향상 (최적 입력 186×186) | Kurdthongmee et al. (IEEE Access, 2025) |
기술별 역할 종합
| 기술 | 역할 | 속도 | 정밀도 | 학술 근거 |
|---|---|---|---|---|
| MediaPipe | 홍채 중심·크기 추적 (핵심) | 177 FPS | μED=0.736 (SOTA) | IEEE Access, 2025 |
| Haar Cascade | 눈 영역 ROI 빠른 추출 | ~27 FPS | 98% (얼굴) | Viola & Jones (CVPR, 2001) |
| HOG (Dlib) | 68-point 랜드마크 (Fallback) | ~27 FPS | 안정적 | Dalal & Triggs (CVPR, 2005) |
| MCT | 조명 정규화 전처리 | 빠름 | Haar 대비 +30% 강건 | Froba & Ernst (AVBPA, 2004) |
| LBP | 홍채 텍스처 분석 (추천 핵심) | 매우 빠름 | 78-84% (w-LBP) | Ojala et al. (TPAMI, 2002) |
| SIFT | LBP 가중치 + 품질 검증 | ~10 FPS | 스케일 불변 | Lowe (ICCV, 1999) |
| Ferns | 실시간 키포인트 매칭 | SIFT×100 | SIFT 근접 | Ozuysal et al. (TPAMI, 2010) |
렌즈 PNG 합성 프로세스
홍채 5포인트 → 타원 파라미터 추출 → 렌즈 PNG Affine Transform
→ 홍채 영역에 알파 블렌딩 → 눈꺼풀 마스크 적용 → 품질 보정 → 실시간 출력| 항목 | 사양 |
|---|---|
| 입력 | 투명 배경 렌즈 PNG (인터로조 클라렌 전 제품) |
| 변환 | Affine Transform — 홍채 타원에 맞춰 크기·각도·위치 정합 |
| 합성 | 알파 블렌딩 (투명도 기반 자연스러운 합성) |
| 마스킹 | 눈꺼풀 영역 마스크 적용 (가려진 부분 자동 처리) |
| 속도 | <16ms/프레임 (60+ FPS) |
| 장점 | 학습 불필요, 즉시 구현, 모든 디바이스 실행 가능 |
| 개발 기간 | 1차년도 Q2~Q3 (2개월) |
⑤ 개인화 추천 엔진
| 항목 | 사양 |
|---|---|
| 입력 | 홍채 특성 벡터 (색상, 크기, LBP 텍스처 코드), 사용자 프로필 (성별, 연령, TPO) |
| 알고리즘 | Content-based Filtering + Collaborative Filtering |
| 출력 | 상위 5개 추천 렌즈 (매칭 점수 포함) |
| 개발 기간 | 2차년도 Q1~Q2 |
연차별 개발 로드맵
| 시기 | 개발 단계 | 기술 | 품질 | 속도 |
|---|---|---|---|---|
| 1차 Q2 | MVP (기본 합성) | MediaPipe + 알파 블렌딩 | 기본 | <16ms |
| 1차 Q3 | + CV 전처리 | + Haar/HOG ROI 검출 + MCT 조명 정규화 | 향상 | <30ms |
| 1차 Q4 | + 텍스처 분석 | + LBP 홍채 텍스처 분석 + 개인화 추천 기반 | 고도화 | <50ms |
| 2차 Q1~Q2 | 고품질 블렌딩 | 고급 알파 블렌딩 + 조명·반사 보정 + 품질 최적화 | 최적화 | <50ms |
| 2차 Q2~Q3 | 최적화 + 통합 | 전체 파이프라인 통합, API 안정화 | — | — |
| 2차 Q3~Q4 | 커머스 썸네일 AI | Qwen-Image + LoRA + ControlNet 활용 개인화 썸네일 서비스 | 고품질 | 서버 배치 |
실현 가능성 근거
- 1차년도: MediaPipe는 오픈소스 즉시 사용, Haar/HOG/MCT/LBP는 OpenCV 내장 함수로 즉시 구현 가능
- 2차년도 전반: 고급 블렌딩 알고리즘 및 조명 보정은 기존 영상처리 논문 기반으로 구현 가능
- 2차년도 후반: 커머스 썸네일은 Qwen-Image (오픈소스) + LoRA 경량 파인튜닝으로 상용 서비스 구축 — 기초 R&D가 아닌 기존 모델 활용
- 전체 파이프라인: 모든 구성요소가 오픈소스(OpenCV, MediaPipe, Qwen-Image)이므로 라이선스·비용 위험 없음
⑥ 커머스 썸네일 AI 서비스 (2차년도)
1~2차년도 전반의 실시간 가상착용은 CV 기반 파이프라인으로 완성한 후, 2차년도 후반에 오픈소스 이미지 AI 모델을 활용한 개인화 커머스 썸네일 서비스를 추가합니다.
| 항목 | 사양 |
|---|---|
| 목적 | 쇼핑몰에서 유저 본인의 눈에 렌즈를 착용한 고품질 제품 썸네일 자동 생성 |
| 기술 | Qwen-Image (오픈소스 이미지 모델) + LoRA (경량 파인튜닝) + ControlNet (홍채 윤곽 조건 제어) |
| 처리 방식 | 서버 사이드 배치 생성 (오프라인 — 실시간 불필요) |
| 입력 | 유저 얼굴 사진 + 렌즈 제품 정보 |
| 출력 | 유저 맞춤 렌즈 착용 고품질 이미지 (쇼핑몰 썸네일용) |
| 성격 | 기초 R&D가 아닌, 기존 검증된 오픈소스 모델을 상용 서비스에 적용 |
| 개발 기간 | 2차년도 Q3~Q4 |
실시간 가상착용 vs 커머스 썸네일 역할 분리:
| 실시간 가상착용 (1차년도~) | 커머스 썸네일 (2차년도 후반) | |
|---|---|---|
| 기술 | CV 파이프라인 (MediaPipe + 알파 블렌딩) | 이미지 AI (Qwen-Image + LoRA + ControlNet) |
| 속도 | <50ms (실시간) | 수 초 (배치) |
| 용도 | 스마트미러, 모바일 앱 | 쇼핑몰 제품 페이지 썸네일 |
| 처리 | 온디바이스 / 엣지 | 서버 사이드 GPU |
| 품질 | 양호 (투명 PNG 합성) | 고품질 (AI 이미지 생성) |
API 사양
POST /api/v1/virtual-tryon
Content-Type: multipart/form-data
Request:
- image: 얼굴 이미지 (JPEG/PNG)
- lens_id: 적용할 렌즈 ID
- mode: "realtime" | "highquality"
- options: { format: "jpeg"|"png" }
Response (realtime — <50ms):
- result_image: 합성 결과 (Base64)
- iris_features: 홍채 분석 결과 (중심, 반지름, LBP 텍스처 코드)
- recommendations: 추천 렌즈 목록
Response (highquality — 수 초):
- result_image: 고품질 합성 결과 (Base64)
- quality_score: 합성 품질 점수 (SIFT 특징점 정합 기반)
- thumbnail_url: CDN 저장 URL (커머스 썸네일용)