Skip to content

3-1. AI 안구인식 및 가상착용 엔진

개요

AI 안구인식 및 가상착용 엔진은 본 과제의 핵심 기술로, 사용자의 안구를 정밀하게 인식하고 투명 배경 컬러렌즈 PNG 이미지를 실시간으로 합성하는 시스템입니다.

CV 기반 4단계 캐스케이드 파이프라인

본 과제는 클래식 CV 알고리즘과 MediaPipe를 결합한 4단계 캐스케이드 파이프라인으로 높은 정확도와 실시간 성능을 동시에 달성합니다:

  • 1단계: Haar/HOG 조기 검출 (얼굴·눈 영역 ROI)
  • 2단계: MCT 전처리 (조명 정규화)
  • 3단계: MediaPipe 홍채 추적 (정밀 10포인트 랜드마크)
  • 4단계: LBP 텍스처 분석 + 렌즈 PNG 합성 (알파 블렌딩)

이 전략은 2년 사업 기간 내 실현 가능한 범위에 맞춰 단계적으로 개발합니다.

기술 아키텍처 (4단계 캐스케이드)

하이브리드 AI 엔진 아키텍처

기술 선택 근거

왜 CV 기반 캐스케이드 전략인가?

시나리오요구사항CV 캐스케이드 해결
스마트미러실시간 (<50ms)4단계 파이프라인 전체 50ms 이내
모바일 웹브라우저 실행MediaPipe WASM + 경량 CV → 서버 의존 최소화
커머스 썸네일높은 품질고해상도 렌즈 PNG + 정밀 블렌딩으로 품질 확보

핵심 기술 구성

기술역할성능
Haar/HOG얼굴·눈 영역 조기 검출 (ROI)<5ms
MCT조명 정규화 전처리<3ms
MediaPipe FaceMesh홍채 10포인트 정밀 추적<8ms
LBP홍채 텍스처·색상 분석<2ms
SIFT합성 품질 검증 (오프라인 QA)
알파 블렌딩렌즈 PNG 합성<16ms

단계별 기술 상세

① 얼굴·눈 영역 조기 검출 — Haar/HOG

항목사양
기술Haar Cascade (OpenCV) + HOG (Histogram of Oriented Gradients)
역할저해상도·원거리에서도 얼굴·눈 영역을 빠르게 검출하여 ROI 크롭
속도<5ms
장점CPU에서 실행, 학습 불필요, 대화면(스마트미러)에서 유리
효과MediaPipe 입력을 고해상도 ROI로 제한 → 정확도·속도 동시 개선

② 조명 정규화 — MCT (Modified Census Transform)

항목사양
기술MCT (Modified Census Transform)
역할매장·팝업스토어 등 다양한 조명 환경에서 이미지 정규화
속도<3ms
장점픽셀 간 상대적 밝기 비교 → 조명 변화에 강건
효과형광등, 자연광, 스포트라이트 등 환경 차이에도 일관된 인식 품질

③ 홍채 정밀 추적 — MediaPipe FaceMesh

항목사양
모델MediaPipe FaceMesh (refine_landmarks=True)
랜드마크478포인트 (468 얼굴 + 10 홍채)
홍채 포인트LEFT_IRIS(468-472), RIGHT_IRIS(473-477) — 각 5포인트
성능30-60 FPS (모바일 포함)
라이선스Apache 2.0 (오픈소스)
배포TFLite (모바일), WASM (브라우저), Python (서버)

왜 MediaPipe인가: 홍채 전용 10포인트 랜드마크를 제공하는 유일한 경량 모델. 별도 학습 없이 즉시 사용 가능하며, 브라우저(WASM)에서도 실시간 실행 가능.

출처: Google AI Edge 공식 문서

④ 홍채 특성 분석 + 렌즈 PNG 합성

MediaPipe 랜드마크를 기반으로 클래식 CV 특징 검출기를 결합하여 정확도를 향상하고, 투명 배경 렌즈 PNG를 합성합니다.

알고리즘 상호보완 구조

각 알고리즘의 고유 단점을 다른 알고리즘이 보완하는 캐스케이드 구조입니다:

MediaPipe 약점(저해상도) ←── Haar/HOG가 고해상도 ROI 크롭으로 보완
MediaPipe 약점(조명 불안정) ←── MCT가 조명 정규화로 보완
MediaPipe 약점(텍스처 무정보) ←── LBP가 텍스처 분석으로 보완
LBP 약점(노이즈 민감) ←── SIFT가 가중치 부여로 보완 (w-LBP)
LBP 약점(조명 극단 변화) ←── MCT가 조명 정규화로 보완
SIFT 약점(느림, 100ms+) ←── Ferns가 실시간 매칭으로 대체
Haar 약점(정면만 검출) ←── MediaPipe/HOG가 Fallback

홍채 분석 세부 구성

분석 항목핵심 기술보조 기술활용학술 근거
홍채 중심·반지름MediaPipe 5포인트 타원 피팅렌즈 PNG Affine Transform 기준점μED=0.736 (IEEE Access, 2025)
홍채 색상·패턴HSV 히스토그램LBP — 텍스처 코드 추출개인화 렌즈 추천Zhang et al. (ICPR, 2010)
조명 보정하이라이트 검출MCT — 상대 비교 기반 정규화매장 환경 대응Froba & Ernst (AVBPA, 2004)
동공 크기중심점-경계점 거리렌즈 합성 시 동공 반영
품질 검증합성 전/후 비교SIFT — 특징점 정합오프라인 QALowe (ICCV, 1999)
실시간 매칭Ferns — SIFT 대비 10-100배 빠름렌즈 DB 빠른 검색Ozuysal et al. (TPAMI, 2010)

조합 효과 (검증된 수치)

조합단독 대비 효과출처
SIFT + w-LBPiris 분류 정확도 84% (단독 LBP 78% 대비 +6%)IJBM, 2017
HOG + BSIF (Multi-ICA)iris 인식 정확도 97.5%ResearchGate, 2018
MediaPipe + MCT조명 변화 환경에서 Haar 대비 +30% 강건Froba & Ernst (AVBPA, 2004)
MediaPipe + Haar ROI저해상도 입력 대비 정밀도 향상 (최적 입력 186×186)Kurdthongmee et al. (IEEE Access, 2025)

기술별 역할 종합

기술역할속도정밀도학술 근거
MediaPipe홍채 중심·크기 추적 (핵심)177 FPSμED=0.736 (SOTA)IEEE Access, 2025
Haar Cascade눈 영역 ROI 빠른 추출~27 FPS98% (얼굴)Viola & Jones (CVPR, 2001)
HOG (Dlib)68-point 랜드마크 (Fallback)~27 FPS안정적Dalal & Triggs (CVPR, 2005)
MCT조명 정규화 전처리빠름Haar 대비 +30% 강건Froba & Ernst (AVBPA, 2004)
LBP홍채 텍스처 분석 (추천 핵심)매우 빠름78-84% (w-LBP)Ojala et al. (TPAMI, 2002)
SIFTLBP 가중치 + 품질 검증~10 FPS스케일 불변Lowe (ICCV, 1999)
Ferns실시간 키포인트 매칭SIFT×100SIFT 근접Ozuysal et al. (TPAMI, 2010)

렌즈 PNG 합성 프로세스

홍채 5포인트 → 타원 파라미터 추출 → 렌즈 PNG Affine Transform
→ 홍채 영역에 알파 블렌딩 → 눈꺼풀 마스크 적용 → 품질 보정 → 실시간 출력
항목사양
입력투명 배경 렌즈 PNG (인터로조 클라렌 전 제품)
변환Affine Transform — 홍채 타원에 맞춰 크기·각도·위치 정합
합성알파 블렌딩 (투명도 기반 자연스러운 합성)
마스킹눈꺼풀 영역 마스크 적용 (가려진 부분 자동 처리)
속도<16ms/프레임 (60+ FPS)
장점학습 불필요, 즉시 구현, 모든 디바이스 실행 가능
개발 기간1차년도 Q2~Q3 (2개월)

⑤ 개인화 추천 엔진

항목사양
입력홍채 특성 벡터 (색상, 크기, LBP 텍스처 코드), 사용자 프로필 (성별, 연령, TPO)
알고리즘Content-based Filtering + Collaborative Filtering
출력상위 5개 추천 렌즈 (매칭 점수 포함)
개발 기간2차년도 Q1~Q2

연차별 개발 로드맵

시기개발 단계기술품질속도
1차 Q2MVP (기본 합성)MediaPipe + 알파 블렌딩기본<16ms
1차 Q3+ CV 전처리+ Haar/HOG ROI 검출 + MCT 조명 정규화향상<30ms
1차 Q4+ 텍스처 분석+ LBP 홍채 텍스처 분석 + 개인화 추천 기반고도화<50ms
2차 Q1~Q2고품질 블렌딩고급 알파 블렌딩 + 조명·반사 보정 + 품질 최적화최적화<50ms
2차 Q2~Q3최적화 + 통합전체 파이프라인 통합, API 안정화
2차 Q3~Q4커머스 썸네일 AIQwen-Image + LoRA + ControlNet 활용 개인화 썸네일 서비스고품질서버 배치

실현 가능성 근거

  • 1차년도: MediaPipe는 오픈소스 즉시 사용, Haar/HOG/MCT/LBP는 OpenCV 내장 함수로 즉시 구현 가능
  • 2차년도 전반: 고급 블렌딩 알고리즘 및 조명 보정은 기존 영상처리 논문 기반으로 구현 가능
  • 2차년도 후반: 커머스 썸네일은 Qwen-Image (오픈소스) + LoRA 경량 파인튜닝으로 상용 서비스 구축 — 기초 R&D가 아닌 기존 모델 활용
  • 전체 파이프라인: 모든 구성요소가 오픈소스(OpenCV, MediaPipe, Qwen-Image)이므로 라이선스·비용 위험 없음

⑥ 커머스 썸네일 AI 서비스 (2차년도)

1~2차년도 전반의 실시간 가상착용은 CV 기반 파이프라인으로 완성한 후, 2차년도 후반에 오픈소스 이미지 AI 모델을 활용한 개인화 커머스 썸네일 서비스를 추가합니다.

항목사양
목적쇼핑몰에서 유저 본인의 눈에 렌즈를 착용한 고품질 제품 썸네일 자동 생성
기술Qwen-Image (오픈소스 이미지 모델) + LoRA (경량 파인튜닝) + ControlNet (홍채 윤곽 조건 제어)
처리 방식서버 사이드 배치 생성 (오프라인 — 실시간 불필요)
입력유저 얼굴 사진 + 렌즈 제품 정보
출력유저 맞춤 렌즈 착용 고품질 이미지 (쇼핑몰 썸네일용)
성격기초 R&D가 아닌, 기존 검증된 오픈소스 모델을 상용 서비스에 적용
개발 기간2차년도 Q3~Q4

실시간 가상착용 vs 커머스 썸네일 역할 분리:

실시간 가상착용 (1차년도~)커머스 썸네일 (2차년도 후반)
기술CV 파이프라인 (MediaPipe + 알파 블렌딩)이미지 AI (Qwen-Image + LoRA + ControlNet)
속도<50ms (실시간)수 초 (배치)
용도스마트미러, 모바일 앱쇼핑몰 제품 페이지 썸네일
처리온디바이스 / 엣지서버 사이드 GPU
품질양호 (투명 PNG 합성)고품질 (AI 이미지 생성)

API 사양

POST /api/v1/virtual-tryon
Content-Type: multipart/form-data

Request:
- image: 얼굴 이미지 (JPEG/PNG)
- lens_id: 적용할 렌즈 ID
- mode: "realtime" | "highquality"
- options: { format: "jpeg"|"png" }

Response (realtime — <50ms):
- result_image: 합성 결과 (Base64)
- iris_features: 홍채 분석 결과 (중심, 반지름, LBP 텍스처 코드)
- recommendations: 추천 렌즈 목록

Response (highquality — 수 초):
- result_image: 고품질 합성 결과 (Base64)
- quality_score: 합성 품질 점수 (SIFT 특징점 정합 기반)
- thumbnail_url: CDN 저장 URL (커머스 썸네일용)

2026 AI가상융합 사회기반혁신 프로젝트