부하 테스트 결과

1차 테스트

모델, 리소스, 인퍼런스 서버 생성에 부하가 많이 걸려서 인퍼런스 서버가 API를 받을 수 있을 정도로 안정화를 하고, 리소스를 확보하는 것에 실패했습니다.

노드들의 리소스가 한정되어있기 때문에, Pending 상태로 계속 추가되고 있어 이러한 리소스들을 정리하는 스케줄러가 필요할 듯 합니다.

추후에 빌드 안정화 + 429 조치등이 잘 된다면 인퍼런스 서버 API도 쉽게 테스트할 수 있을 것 같습니다.

Model의 Status를 확인할 수 없을 경우 해당되는 모델로 인퍼런스 서버를 생성하지 않고, 인퍼런스 서버의 Status를 확인할 수 없을 경우 리퀘스트를 쏘지 않게 핸들링했습니다.

Error ratio는 많이 좋아졌지만, 여전히 인퍼런스 서버 프로비저닝에 실패했습니다.

Screenshot from 2022-11-15 22-27-31.png

Screenshot from 2022-11-15 22-27-36.png

프로메테우스 Deployment에서 다중화가 이루어지지 않았고, 기본값으로 적게 할당된 메모리를 모두 사용하게 되어 OOMKilled 오류로 프로메테우스 Pod가 죽었습니다.