무말랭이 숙성중

[COURSERA] ML strategy6 본문

DEEP LEARNING/COURSERA

[COURSERA] ML strategy6

손혜정 2018. 5. 8. 01:07

dev set과 test set의 Size는 어떻게 결정해야 하는가?

이 분야에 대해서도 많은 의견변화가 있어왔다.


Old way of splitting data:

  1) Train 70% : Test 30%

  2) Train 60% : Dev 20% : Test 20%


데이터가 적었던 예전을 기준으로는 합리적일 수 있음.

그러나 100만개의 데이터가 있다면

  Train 98% : Dev 1% : Test 1%

만 하더라도 Dev, Test 각각이 1만개씩 충분한 양을 포함함.


=>데이터 양이 많은 경우 20%보다 작은 비율로 Dev, Test 데이터를 구성해도 충분함.



Size of test set:

  To be big enough to give high confidence in the overall performance of your system.



Test set의 양은, 결과에 대한 신뢰를 줄수있을만큼 충분해야함. 즉, 실제 원하는 결과가 매우 정확해야함이 아니라면, test set이 궂이 100만개, 40만개 이렇게 많아야 할 필요는 없다.



간혹, Train + Dev set으로만 구성되는 경우도 있다. (이경우 dev set이 꽤 큰)

 사실 test set으로 불려야 하지만 사람들이 dev set으로 부르는...???

이 경우는 실제로 어떻게 동작을 하는지 걱정을 안하는경우에 쓰이는데 결코 추천하는 방법은 아니다.









'DEEP LEARNING > COURSERA' 카테고리의 다른 글

[COURSERA] Improving Deep Neural Networks 2  (0) 2018.05.13
[COURSERA] Improving Deep Neural Networks 1  (0) 2018.05.12
[COURSERA] ML strategy5  (0) 2018.04.23
[COURSERA] ML strategy4  (0) 2018.04.23
[COURSERA] ML strategy3  (0) 2018.04.23