Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 한빛미디어 리뷰
- 딥러닝을 위한 수학
- 세상에 없던 금융 디파이 입문편
- 파이썬 웹서비스
- 한빛미디어 리뷰어
- 생성AI
- 제이펍리뷰어
- 데이터 과학 기본 수학
- 제이펍 IT리뷰어
- 한빛미디어 #인사이드머신러닝인터뷰 #머신러닝인터뷰 #머신러닝면접
- 처음 시작하는 fastapi
- 쉽게 시작하는 캐글 데이터 분석
- 심층학습 수학
- 제이펍 리뷰어
- 탈중앙화 금융
- 프로그래머의 뇌
- FastAPI
- 개발자를 위한 필수 수학
- 업무 자동화
- JPub리뷰어
- 한빛미디어리뷰
- tidy first
- The programmer's Brain
- 파이썬 자동화 교과서
- 멀티모달 생성AI 인사이드
- IT 서적 리뷰
- 프로그래밍 인지과학
- 개발자 수학
- JPub 리뷰어
- 멀티모달AI
Archives
- Today
- Total
무말랭이 숙성중
[COURSERA] ML strategy6 본문
dev set과 test set의 Size는 어떻게 결정해야 하는가?
이 분야에 대해서도 많은 의견변화가 있어왔다.
Old way of splitting data:
1) Train 70% : Test 30%
2) Train 60% : Dev 20% : Test 20%
데이터가 적었던 예전을 기준으로는 합리적일 수 있음.
그러나 100만개의 데이터가 있다면
Train 98% : Dev 1% : Test 1%
만 하더라도 Dev, Test 각각이 1만개씩 충분한 양을 포함함.
=>데이터 양이 많은 경우 20%보다 작은 비율로 Dev, Test 데이터를 구성해도 충분함.
Size of test set:
To be big enough to give high confidence in the overall performance of your system.
Test set의 양은, 결과에 대한 신뢰를 줄수있을만큼 충분해야함. 즉, 실제 원하는 결과가 매우 정확해야함이 아니라면, test set이 궂이 100만개, 40만개 이렇게 많아야 할 필요는 없다.
간혹, Train + Dev set으로만 구성되는 경우도 있다. (이경우 dev set이 꽤 큰)
사실 test set으로 불려야 하지만 사람들이 dev set으로 부르는...???
이 경우는 실제로 어떻게 동작을 하는지 걱정을 안하는경우에 쓰이는데 결코 추천하는 방법은 아니다.
'DEEP LEARNING > COURSERA' 카테고리의 다른 글
[COURSERA] Improving Deep Neural Networks 2 (0) | 2018.05.13 |
---|---|
[COURSERA] Improving Deep Neural Networks 1 (0) | 2018.05.12 |
[COURSERA] ML strategy5 (0) | 2018.04.23 |
[COURSERA] ML strategy4 (0) | 2018.04.23 |
[COURSERA] ML strategy3 (0) | 2018.04.23 |