3-1. AI 안구인식 및 가상착용 엔진

개요

AI 안구인식 및 가상착용 엔진은 본 과제의 핵심 기술로, 사용자의 안구를 정밀하게 인식하고 투명 배경 컬러렌즈 PNG 이미지를 실시간으로 합성하는 시스템입니다.

CV 기반 4단계 캐스케이드 파이프라인

본 과제는 클래식 CV 알고리즘과 MediaPipe를 결합한 4단계 캐스케이드 파이프라인으로 높은 정확도와 실시간 성능을 동시에 달성합니다:

1단계: Haar/HOG 조기 검출 (얼굴·눈 영역 ROI)
2단계: MCT 전처리 (조명 정규화)
3단계: MediaPipe 홍채 추적 (정밀 10포인트 랜드마크)
4단계: LBP 텍스처 분석 + 렌즈 PNG 합성 (알파 블렌딩)

이 전략은 2년 사업 기간 내 실현 가능한 범위에 맞춰 단계적으로 개발합니다.

기술 아키텍처 (4단계 캐스케이드)

기술 선택 근거

왜 CV 기반 캐스케이드 전략인가?

시나리오	요구사항	CV 캐스케이드 해결
스마트미러	실시간 (<50ms)	4단계 파이프라인 전체 50ms 이내
모바일 웹	브라우저 실행	MediaPipe WASM + 경량 CV → 서버 의존 최소화
커머스 썸네일	높은 품질	고해상도 렌즈 PNG + 정밀 블렌딩으로 품질 확보

핵심 기술 구성

기술	역할	성능
Haar/HOG	얼굴·눈 영역 조기 검출 (ROI)	<5ms
MCT	조명 정규화 전처리	<3ms
MediaPipe FaceMesh	홍채 10포인트 정밀 추적	<8ms
LBP	홍채 텍스처·색상 분석	<2ms
SIFT	합성 품질 검증 (오프라인 QA)	—
알파 블렌딩	렌즈 PNG 합성	<16ms

단계별 기술 상세

① 얼굴·눈 영역 조기 검출 — Haar/HOG

항목	사양
기술	Haar Cascade (OpenCV) + HOG (Histogram of Oriented Gradients)
역할	저해상도·원거리에서도 얼굴·눈 영역을 빠르게 검출하여 ROI 크롭
속도	<5ms
장점	CPU에서 실행, 학습 불필요, 대화면(스마트미러)에서 유리
효과	MediaPipe 입력을 고해상도 ROI로 제한 → 정확도·속도 동시 개선

② 조명 정규화 — MCT (Modified Census Transform)

항목	사양
기술	MCT (Modified Census Transform)
역할	매장·팝업스토어 등 다양한 조명 환경에서 이미지 정규화
속도	<3ms
장점	픽셀 간 상대적 밝기 비교 → 조명 변화에 강건
효과	형광등, 자연광, 스포트라이트 등 환경 차이에도 일관된 인식 품질

③ 홍채 정밀 추적 — MediaPipe FaceMesh

항목	사양
모델	MediaPipe FaceMesh (`refine_landmarks=True`)
랜드마크	478포인트 (468 얼굴 + 10 홍채)
홍채 포인트	LEFT_IRIS(468-472), RIGHT_IRIS(473-477) — 각 5포인트
성능	30-60 FPS (모바일 포함)
라이선스	Apache 2.0 (오픈소스)
배포	TFLite (모바일), WASM (브라우저), Python (서버)

왜 MediaPipe인가: 홍채 전용 10포인트 랜드마크를 제공하는 유일한 경량 모델. 별도 학습 없이 즉시 사용 가능하며, 브라우저(WASM)에서도 실시간 실행 가능.

출처: Google AI Edge 공식 문서

④ 홍채 특성 분석 + 렌즈 PNG 합성

MediaPipe 랜드마크를 기반으로 클래식 CV 특징 검출기를 결합하여 정확도를 향상하고, 투명 배경 렌즈 PNG를 합성합니다.

알고리즘 상호보완 구조

각 알고리즘의 고유 단점을 다른 알고리즘이 보완하는 캐스케이드 구조입니다:

MediaPipe 약점(저해상도) ←── Haar/HOG가 고해상도 ROI 크롭으로 보완
MediaPipe 약점(조명 불안정) ←── MCT가 조명 정규화로 보완
MediaPipe 약점(텍스처 무정보) ←── LBP가 텍스처 분석으로 보완
LBP 약점(노이즈 민감) ←── SIFT가 가중치 부여로 보완 (w-LBP)
LBP 약점(조명 극단 변화) ←── MCT가 조명 정규화로 보완
SIFT 약점(느림, 100ms+) ←── Ferns가 실시간 매칭으로 대체
Haar 약점(정면만 검출) ←── MediaPipe/HOG가 Fallback

홍채 분석 세부 구성

분석 항목	핵심 기술	보조 기술	활용	학술 근거
홍채 중심·반지름	MediaPipe 5포인트 타원 피팅	—	렌즈 PNG Affine Transform 기준점	μED=0.736 (IEEE Access, 2025)
홍채 색상·패턴	HSV 히스토그램	LBP — 텍스처 코드 추출	개인화 렌즈 추천	Zhang et al. (ICPR, 2010)
조명 보정	하이라이트 검출	MCT — 상대 비교 기반 정규화	매장 환경 대응	Froba & Ernst (AVBPA, 2004)
동공 크기	중심점-경계점 거리	—	렌즈 합성 시 동공 반영	—
품질 검증	합성 전/후 비교	SIFT — 특징점 정합	오프라인 QA	Lowe (ICCV, 1999)
실시간 매칭	—	Ferns — SIFT 대비 10-100배 빠름	렌즈 DB 빠른 검색	Ozuysal et al. (TPAMI, 2010)

조합 효과 (검증된 수치)

조합	단독 대비 효과	출처
SIFT + w-LBP	iris 분류 정확도 84% (단독 LBP 78% 대비 +6%)	IJBM, 2017
HOG + BSIF (Multi-ICA)	iris 인식 정확도 97.5%	ResearchGate, 2018
MediaPipe + MCT	조명 변화 환경에서 Haar 대비 +30% 강건	Froba & Ernst (AVBPA, 2004)
MediaPipe + Haar ROI	저해상도 입력 대비 정밀도 향상 (최적 입력 186×186)	Kurdthongmee et al. (IEEE Access, 2025)

기술별 역할 종합

기술	역할	속도	정밀도	학술 근거
MediaPipe	홍채 중심·크기 추적 (핵심)	177 FPS	μED=0.736 (SOTA)	IEEE Access, 2025
Haar Cascade	눈 영역 ROI 빠른 추출	~27 FPS	98% (얼굴)	Viola & Jones (CVPR, 2001)
HOG (Dlib)	68-point 랜드마크 (Fallback)	~27 FPS	안정적	Dalal & Triggs (CVPR, 2005)
MCT	조명 정규화 전처리	빠름	Haar 대비 +30% 강건	Froba & Ernst (AVBPA, 2004)
LBP	홍채 텍스처 분석 (추천 핵심)	매우 빠름	78-84% (w-LBP)	Ojala et al. (TPAMI, 2002)
SIFT	LBP 가중치 + 품질 검증	~10 FPS	스케일 불변	Lowe (ICCV, 1999)
Ferns	실시간 키포인트 매칭	SIFT×100	SIFT 근접	Ozuysal et al. (TPAMI, 2010)

렌즈 PNG 합성 프로세스

홍채 5포인트 → 타원 파라미터 추출 → 렌즈 PNG Affine Transform
→ 홍채 영역에 알파 블렌딩 → 눈꺼풀 마스크 적용 → 품질 보정 → 실시간 출력

항목	사양
입력	투명 배경 렌즈 PNG (인터로조 클라렌 전 제품)
변환	Affine Transform — 홍채 타원에 맞춰 크기·각도·위치 정합
합성	알파 블렌딩 (투명도 기반 자연스러운 합성)
마스킹	눈꺼풀 영역 마스크 적용 (가려진 부분 자동 처리)
속도	<16ms/프레임 (60+ FPS)
장점	학습 불필요, 즉시 구현, 모든 디바이스 실행 가능
개발 기간	1차년도 Q2~Q3 (2개월)

⑤ 개인화 추천 엔진

항목	사양
입력	홍채 특성 벡터 (색상, 크기, LBP 텍스처 코드), 사용자 프로필 (성별, 연령, TPO)
알고리즘	Content-based Filtering + Collaborative Filtering
출력	상위 5개 추천 렌즈 (매칭 점수 포함)
개발 기간	2차년도 Q1~Q2

연차별 개발 로드맵

시기	개발 단계	기술	품질	속도
1차 Q2	MVP (기본 합성)	MediaPipe + 알파 블렌딩	기본	<16ms
1차 Q3	+ CV 전처리	+ Haar/HOG ROI 검출 + MCT 조명 정규화	향상	<30ms
1차 Q4	+ 텍스처 분석	+ LBP 홍채 텍스처 분석 + 개인화 추천 기반	고도화	<50ms
2차 Q1~Q2	고품질 블렌딩	고급 알파 블렌딩 + 조명·반사 보정 + 품질 최적화	최적화	<50ms
2차 Q2~Q3	최적화 + 통합	전체 파이프라인 통합, API 안정화	—	—
2차 Q3~Q4	커머스 썸네일 AI	Qwen-Image + LoRA + ControlNet 활용 개인화 썸네일 서비스	고품질	서버 배치

실현 가능성 근거

1차년도: MediaPipe는 오픈소스 즉시 사용, Haar/HOG/MCT/LBP는 OpenCV 내장 함수로 즉시 구현 가능
2차년도 전반: 고급 블렌딩 알고리즘 및 조명 보정은 기존 영상처리 논문 기반으로 구현 가능
2차년도 후반: 커머스 썸네일은 Qwen-Image (오픈소스) + LoRA 경량 파인튜닝으로 상용 서비스 구축 — 기초 R&D가 아닌 기존 모델 활용
전체 파이프라인: 모든 구성요소가 오픈소스(OpenCV, MediaPipe, Qwen-Image)이므로 라이선스·비용 위험 없음

⑥ 커머스 썸네일 AI 서비스 (2차년도)

1~2차년도 전반의 실시간 가상착용은 CV 기반 파이프라인으로 완성한 후, 2차년도 후반에 오픈소스 이미지 AI 모델을 활용한 개인화 커머스 썸네일 서비스를 추가합니다.

항목	사양
목적	쇼핑몰에서 유저 본인의 눈에 렌즈를 착용한 고품질 제품 썸네일 자동 생성
기술	Qwen-Image (오픈소스 이미지 모델) + LoRA (경량 파인튜닝) + ControlNet (홍채 윤곽 조건 제어)
처리 방식	서버 사이드 배치 생성 (오프라인 — 실시간 불필요)
입력	유저 얼굴 사진 + 렌즈 제품 정보
출력	유저 맞춤 렌즈 착용 고품질 이미지 (쇼핑몰 썸네일용)
성격	기초 R&D가 아닌, 기존 검증된 오픈소스 모델을 상용 서비스에 적용
개발 기간	2차년도 Q3~Q4

실시간 가상착용 vs 커머스 썸네일 역할 분리:

	실시간 가상착용 (1차년도~)	커머스 썸네일 (2차년도 후반)
기술	CV 파이프라인 (MediaPipe + 알파 블렌딩)	이미지 AI (Qwen-Image + LoRA + ControlNet)
속도	<50ms (실시간)	수 초 (배치)
용도	스마트미러, 모바일 앱	쇼핑몰 제품 페이지 썸네일
처리	온디바이스 / 엣지	서버 사이드 GPU
품질	양호 (투명 PNG 합성)	고품질 (AI 이미지 생성)

API 사양

POST /api/v1/virtual-tryon
Content-Type: multipart/form-data

Request:
- image: 얼굴 이미지 (JPEG/PNG)
- lens_id: 적용할 렌즈 ID
- mode: "realtime" | "highquality"
- options: { format: "jpeg"|"png" }

Response (realtime — <50ms):
- result_image: 합성 결과 (Base64)
- iris_features: 홍채 분석 결과 (중심, 반지름, LBP 텍스처 코드)
- recommendations: 추천 렌즈 목록

Response (highquality — 수 초):
- result_image: 고품질 합성 결과 (Base64)
- quality_score: 합성 품질 점수 (SIFT 특징점 정합 기반)
- thumbnail_url: CDN 저장 URL (커머스 썸네일용)

3-1. AI 안구인식 및 가상착용 엔진 ​

개요 ​

기술 아키텍처 (4단계 캐스케이드) ​

기술 선택 근거 ​

왜 CV 기반 캐스케이드 전략인가? ​

핵심 기술 구성 ​

단계별 기술 상세 ​

① 얼굴·눈 영역 조기 검출 — Haar/HOG ​

② 조명 정규화 — MCT (Modified Census Transform) ​

③ 홍채 정밀 추적 — MediaPipe FaceMesh ​

④ 홍채 특성 분석 + 렌즈 PNG 합성 ​

알고리즘 상호보완 구조 ​

홍채 분석 세부 구성 ​

조합 효과 (검증된 수치) ​

기술별 역할 종합 ​

렌즈 PNG 합성 프로세스 ​

⑤ 개인화 추천 엔진 ​

연차별 개발 로드맵 ​

⑥ 커머스 썸네일 AI 서비스 (2차년도) ​

API 사양 ​