무말랭이 숙성중

[COURSERA] ML strategy5 본문

DEEP LEARNING/COURSERA

[COURSERA] ML strategy5

손혜정 2018. 4. 23. 02:05

이번장에서는 dev/train set을 어떻게 설정할 것인가에 대해서 알아본다

dev set은 development set으로, hold out cross validation set으로도 불린다.



workflow는 다음과 같을 것이다.

 여러 Idea들을 적용해보기 위해 Train set을 학습하고 이를 통해 나온 모델들을 적용하고 dev set을 이용하여 평가하며 여러 Idea중 하나를 선택한다. 그래서 가장 좋다고 확신되는 Idea를 test set에 적용하여 정확도를 평가한다.


여러 Regions 이 있을때 dev set과 test set을 어떻게 설정할 것인가?

Region:

 US, UK, Other Europe, South America, India, China, Other Asia, Australia,...


처음엔 랜덤하게 앞의 4나라를 dev set, 뒤의 4 나라를 test set으로 설정한다.

(사실 이는 매우 좋지 않은 생각이다. dev와 test set이 매우 다른 분류에 속하기 때문이다)

 dev set과 test set은 비슷한 분류로 나누어지는 것이 좋다.


dev set과 single role number evaluation metric(평가지표)가 있을때, best one을 찾기 위해 Idea->Code->Experiment 과정을 수없이 빠르고 많이 진행할것이다. 여기서 문제가 되는것은, 위의 dev set과 test set을 제대로 설정하지 않는다면 dev set에 잘 예측하도록 만든 예측값들은 test set에 적용할 수 없게 되는것이다. (무려 한달이나 고생을 한다고 하더래도..)


그래서, data들을 랜덤하게 dev, test set 으로 섞어야 한다. 그래서 same distribution으로 만들어 data들이 mixed 되야한다.


Guideline:

  Choose a dev set and test set to reflect data you expect to get in the future and consider important to do well on.

 (dev, test set should come from same distribution!)



'DEEP LEARNING > COURSERA' 카테고리의 다른 글

[COURSERA] Improving Deep Neural Networks 1  (0) 2018.05.12
[COURSERA] ML strategy6  (0) 2018.05.08
[COURSERA] ML strategy4  (0) 2018.04.23
[COURSERA] ML strategy3  (0) 2018.04.23
[COURSERA] ML strategy2  (0) 2018.04.23