

1️⃣ 프로젝트 소개
ML 개발자들이 개발한 모델을 실시간으로 사용할 수 있도록 API 서버로 배포를 도와주는 프레임워크입니다. ML 엔지니어는 So1s에서 지정한 양식과 모델 바이너리만으로 인퍼런스 서버를 배포하여 사용할 수 있습니다. 추가적으로 배포 이후 운영을 위한 프론트엔드 백오피스 및 모니터링, 로깅과 배포 시에 GPU 설정, HPA를 활용한 고가용성을 보장하는 스케일링 그리고 AB 테스트 등의 추가적인 기능들도 제공하고 있습니다.
2️⃣ 목적 및 필요성
- 업스테이지 AI Pack의 개발 과정에서 리얼타임 인퍼런스, 서빙 프레임워크의 니즈가 생겨, 이러한 문제를 해결할 수 있는 프레임워크를 개발하고자 함
- 배포 경험이 없는 ML 엔지니어를 위해 서빙 파이프라인 및 백오피스를 제공하여 모델 개발에 집중할 수 있도록 함
- 모니터링, 테스트, 로그 정보를 제공하여 배포한 모델 분석을 쉽게 할 수 있도록 함
3️⃣ 주요 기능
- ML 모델을 도커 이미지 포맷으로 모델 빌드하여 버전을 관리하고 인퍼런스 서버로 배포 가능 하도록 제공
- 대규모 트래픽 처리를 위해 HPA를 통한 인퍼런스 서버의 고가용성을 제공
- Traffic Splitting등 기능을 통해 개발자가 테스트를 진행할 수 있도록 환경을 구축
- 모니터링을 통해서 클러스터 리소스 사용량, 트래픽, SLI, SLO 등을 서버에 문제가 생겼을 경우 실시간으로 관리자에게 알림 기능 제공
- 백오피스 프론트엔드의 형태로 웹 GUI 제공