Model-Centric Approach and Data-Centric Approach

Model-Centric이란?

Untitled

Model-centric approach란 머신러닝(AI) 모델의 퍼포먼스를 높이기 위해 실험연구 방식으로 (experimental research) 디벨롭하는 것을 의미한다.

이 방식은 데이터는 동일하게 유지하며 코드나 모델 아키텍처를 improve한다.
코드 중심으로 작동한다.

앤드류 응에 따르면 90% 이상의 research papar는 model-centric를 사용하였다. 이에 대한 설명으로 큰 데이터 셋 (Data set)를 만들기 어렵기 때문이라고 하였으며 결과적으로 model-centric ML이 더 promising 하다고 AI 커뮤니티는 생각을 하게 되었다.

Data-Centric이란?

코드를 그대로 유지하며 데이터를 수정하거나 추가하는 식으로 모델 성능을 끌어올리는 방법, 즉 데이터의 질을 반복적으로 향상하는 것이다.

AI 모델이 서비스에 출시되기 전에는 Data-Centric과 Model-Centric의 중요도가 각각 50%, 50%으로 여겨진다. 모델 요구사항 설정 시 논의된 여러 요소들은 모델의 힘에 의해 좌지우지되지만, 정확도를 확보하기 위해서는 데이터의 힘과 모델의 힘이 모두 필요하기 때문이다. 따라서 서비스 출시 전까지는 모두 동일한 비중을 차지하는 것이 일반적이다. 하지만, 서비스를 출시하고 난 이후 사용 중인 모델의 성능을 개선하고자 할 때에는 Data-Centric에 기울이는 노력이 더욱 커진다.

그 이유로는 서비스 출시 후에 정확도에 대한 성능 개선 요구가 가장 많기 때문이다. 이때 정확도 개선을 위해 모델 구조를 변경하는 것은 처리 속도, qps, 메모리 크기 등에 대한 요구 사항의 검증도 다시 해야 하므로 비용이 크게 들기 마련인데 서비스 출시 이후에는 Data-centric approach를 사용하여 성능을 올리거나 혹은 모델 학습 방법을 조금 바꿔 성능을 개선한다.

앤드류 응은 이와 같은 Data-Centric approach로 진화하기 위해서는 MLOps를 적극적으로 활용해야 한다고 말했다.

MLOps(Machine Learning Model Operationalization Management)란?

출처: 데이터브릭

MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지 관리하고 모니터링하는 데 주안점을 둔 머신러닝 엔지니어링의 핵심 기능이다. 단순히 ML 모델뿐만 아니라, 데이터를 수집하고 분석하는 단계 (Data collection, ingestion, analysis, labeling, validation, preparation), 그리고 ML 모델을 학습하고 배포하는 단계(Model training, validation, Deployment)까지 전 과정을 AI 라이프사이클로 보고 MLOps의 대상으로 보고 있다.

Model Centric VS Data Centric

앤드류 응의 세미나에 따르면 컴퓨터 비전을 이용한 철강 합판 또는 태양광 패널의 결함을 찾는 문제에서 모델을 고치는 작업을 했을 때 Model Centric 방식보다 Data Centric 방식으로 모델 성능이 17% 정도 개선된 것을 확인했다.

결국은 Data-Centric approach 개발이 훨씬 효율적으로 모델 성능을 올릴 수 있으므로 MLOps를 통해 체계적으로 데이터의 질을 개선하는 툴 또는 프로세스를 설계해야 한다 제안했다.