Home [MLOps Specialization / Step4] Introduction to Model Serving
Post
Cancel

[MLOps Specialization / Step4] Introduction to Model Serving

Introduction to Model Serving

이 포스트는 Coursera의 MLOps Specialization 강의 내용을 기반으로 작성되었습니다.


Introduction to Model Serving

  • 모델 서빙 패턴
    • 모델
    • interpreter and execution
    • 입력 데이터
  • 위 3가지 과정은 추론에 활용
  • ML workflows
    • 모델 학습
    • 모델 예측
  • 위 과정은 batch inference나 tlftlrks inference에 활용
  • 주요한 지표
    • Latency
    • Throughput
    • Cost

Latency

  • user의 행동과 그에 따른 어플리케이션의 반응까지의 딜레이
  • Latency는 전체 프로세스, 데이터에서 서버로의 전송시기, 추론 과정 등 모든 과정에서 발생 가능
  • 적은 latency는 고객 만족도 유지의 핵심 필수요건

Throughput

  • 1초에 성공적인 수행이 가능한 요청
  • 일부 어플리케이션은 지연율보다 처리율만 중요한 경우도 있음

Cost

  • 각 inference와 관련된 cost는 최소화되어야 함
  • 중요한 Infrastructure 요규사항은 비용이 비쌈
    • CPU
    • GPU같은 가속 HW
    • Caching infra

결과적으로 위의 3가지 요소가 조화를 이루는 것이 가장 좋습니다. 지연율은 줄이고 처리율은 높이는 것의 방향과 비용, 지연율, 처리율이 균형을 이루는 것 등 여러 관점으로 바라봐야 합니다.

This post is licensed under CC BY 4.0 by the author.

[BoostCamp AI Tech / 심화포스팅] 확률분포와 검정

[MLOps Specialization / Step4] Introduction to Model Serving Infrastructure

Comments powered by Disqus.