Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 한빛미디어 리뷰
- IT 서적 리뷰
- 파이썬 웹서비스
- The programmer's Brain
- JPub 리뷰어
- 개발자 수학
- 세상에 없던 금융 디파이 입문편
- tidy first
- 생성AI
- 심층학습 수학
- FastAPI
- 파이썬 자동화 교과서
- 제이펍리뷰어
- 탈중앙화 금융
- 처음 시작하는 fastapi
- 프로그래머의 뇌
- JPub리뷰어
- 멀티모달AI
- 제이펍 리뷰어
- 한빛미디어 리뷰어
- 쉽게 시작하는 캐글 데이터 분석
- 멀티모달 생성AI 인사이드
- 한빛미디어리뷰
- 데이터 과학 기본 수학
- 딥러닝을 위한 수학
- 프로그래밍 인지과학
- 한빛미디어 #인사이드머신러닝인터뷰 #머신러닝인터뷰 #머신러닝면접
- 업무 자동화
- 제이펍 IT리뷰어
- 개발자를 위한 필수 수학
Archives
- Today
- Total
무말랭이 숙성중
[COURSERA] ML strategy6 본문
dev set과 test set의 Size는 어떻게 결정해야 하는가?
이 분야에 대해서도 많은 의견변화가 있어왔다.
Old way of splitting data:
1) Train 70% : Test 30%
2) Train 60% : Dev 20% : Test 20%
데이터가 적었던 예전을 기준으로는 합리적일 수 있음.
그러나 100만개의 데이터가 있다면
Train 98% : Dev 1% : Test 1%
만 하더라도 Dev, Test 각각이 1만개씩 충분한 양을 포함함.
=>데이터 양이 많은 경우 20%보다 작은 비율로 Dev, Test 데이터를 구성해도 충분함.
Size of test set:
To be big enough to give high confidence in the overall performance of your system.
Test set의 양은, 결과에 대한 신뢰를 줄수있을만큼 충분해야함. 즉, 실제 원하는 결과가 매우 정확해야함이 아니라면, test set이 궂이 100만개, 40만개 이렇게 많아야 할 필요는 없다.
간혹, Train + Dev set으로만 구성되는 경우도 있다. (이경우 dev set이 꽤 큰)
사실 test set으로 불려야 하지만 사람들이 dev set으로 부르는...???
이 경우는 실제로 어떻게 동작을 하는지 걱정을 안하는경우에 쓰이는데 결코 추천하는 방법은 아니다.
'DEEP LEARNING > COURSERA' 카테고리의 다른 글
[COURSERA] Improving Deep Neural Networks 2 (0) | 2018.05.13 |
---|---|
[COURSERA] Improving Deep Neural Networks 1 (0) | 2018.05.12 |
[COURSERA] ML strategy5 (0) | 2018.04.23 |
[COURSERA] ML strategy4 (0) | 2018.04.23 |
[COURSERA] ML strategy3 (0) | 2018.04.23 |