#Industrial-AI#LLM-Agent#MLOps#k3s#React

AlignAI: 비전 정렬 + MLOps + 현장 LLM 에이전트

개요

규칙 기반 OpenCV를 U-Net Segmentation으로 대체해 탐지율 100%·PASS율 91% 달성. GitOps ML CI/CD(GHCR→Argo CD 자동 배포)를 Docker·k3s 엣지 클러스터에 단독 구축하고, React+TS HMI(UI/UX)와 현장 이상을 설명하는 LLM 에이전트(function calling·ReAct)까지 통합한 엔드투엔드 산업 AI 시스템.

맥락

DTK 렌즈 정렬 공정의 기존 OpenCV 필터링(Canny Edge + 수동 임계값)은 조명·배경 변화에 취약했습니다. 임계값을 수동으로 재조정해야 하는 구조적 한계로 공정 자동화가 원천적으로 불가능했고, 조명이 조금만 달라져도 정렬 실패로 이어져 숙련 작업자가 상시 대기해야 했습니다.

핵심 의사결정

규칙 기반 접근의 한계를 인정하고 학습 기반(U-Net Segmentation)으로 패러다임을 전환했습니다. 임계값 없이 조명·배경 변화에 강건한 딥러닝으로 완전 대체하고, 나아가 GitHub SSOT GitOps로 추론(Deployment)·학습(Job) 이미지 라이프사이클을 분리한 ML CI/CD와 현장 LLM 에이전트까지 통합했습니다.

구현

EfficientNet-B0 인코더

ImageNet 사전학습으로 수렴 속도 3배↑, Skip Connection으로 정렬선 위치·방향 등 공간 정보를 디코더에 직접 보존.

Dice Loss

BCE 대비 클래스 불균형(배경 99% vs 정렬선 1%)에 강건. 픽셀 수가 극히 적은 얇은 선 세그멘테이션에 최적.

과적합 방지

Albumentations 증강(회전·밝기·가우시안 노이즈) + 검증 기준 Early Stopping으로 소규모 데이터셋의 일반화 성능 확보.

GitOps ML CI/CD

code push→ci.yml(pytest→빌드)→GHCR(SHA)→Argo CD 롤링. 학습은 workflow_dispatch→GPU k3s Job→핑거프린트 스킵→ONNX. GITHUB_TOKEN 트리거·Argo Job 재생성 등 트러블슈팅 3건 ADR.

아키텍처

성과 & 회고

현장 데이터에서 정렬선 탐지 성공률 100%, PASS율 91%, CPU 추론 ~330ms 달성. 수동 임계값 조정을 완전히 제거해 완전 자동 정렬을 실현하고 작업자 대기 시간을 0으로 만들었습니다. k3s self-heal로 OOM·프로세스 비정상 종료 복원력을 로컬 검증.

기술 스택

PyTorchU-NetEfficientNet-B0ONNXDockerk3sArgo CDGitHub ActionsReact + TS