일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- IT 서적 리뷰
- 프로그래머의 뇌
- 한빛미디어 #인사이드머신러닝인터뷰 #머신러닝인터뷰 #머신러닝면접
- FastAPI
- 멀티모달 생성AI 인사이드
- 한빛미디어 리뷰어
- 데이터 과학 기본 수학
- 딥러닝을 위한 수학
- JPub리뷰어
- 멀티모달AI
- 파이썬 웹서비스
- 파이썬 자동화 교과서
- 제이펍리뷰어
- 세상에 없던 금융 디파이 입문편
- 탈중앙화 금융
- 제이펍 IT리뷰어
- The programmer's Brain
- 제이펍 리뷰어
- 프로그래밍 인지과학
- 개발자 수학
- 처음 시작하는 fastapi
- 한빛미디어 리뷰
- 쉽게 시작하는 캐글 데이터 분석
- tidy first
- 심층학습 수학
- 업무 자동화
- 생성AI
- 한빛미디어리뷰
- 개발자를 위한 필수 수학
- JPub 리뷰어
- Today
- Total
무말랭이 숙성중
[COURSERA] ML strategy5 본문
이번장에서는 dev/train set을 어떻게 설정할 것인가에 대해서 알아본다
dev set은 development set으로, hold out cross validation set으로도 불린다.
workflow는 다음과 같을 것이다.
여러 Idea들을 적용해보기 위해 Train set을 학습하고 이를 통해 나온 모델들을 적용하고 dev set을 이용하여 평가하며 여러 Idea중 하나를 선택한다. 그래서 가장 좋다고 확신되는 Idea를 test set에 적용하여 정확도를 평가한다.
여러 Regions 이 있을때 dev set과 test set을 어떻게 설정할 것인가?
Region:
US, UK, Other Europe, South America, India, China, Other Asia, Australia,...
처음엔 랜덤하게 앞의 4나라를 dev set, 뒤의 4 나라를 test set으로 설정한다.
(사실 이는 매우 좋지 않은 생각이다. dev와 test set이 매우 다른 분류에 속하기 때문이다)
dev set과 test set은 비슷한 분류로 나누어지는 것이 좋다.
dev set과 single role number evaluation metric(평가지표)가 있을때, best one을 찾기 위해 Idea->Code->Experiment 과정을 수없이 빠르고 많이 진행할것이다. 여기서 문제가 되는것은, 위의 dev set과 test set을 제대로 설정하지 않는다면 dev set에 잘 예측하도록 만든 예측값들은 test set에 적용할 수 없게 되는것이다. (무려 한달이나 고생을 한다고 하더래도..)
그래서, data들을 랜덤하게 dev, test set 으로 섞어야 한다. 그래서 same distribution으로 만들어 data들이 mixed 되야한다.
Guideline:
Choose a dev set and test set to reflect data you expect to get in the future and consider important to do well on.
(dev, test set should come from same distribution!)
'DEEP LEARNING > COURSERA' 카테고리의 다른 글
[COURSERA] Improving Deep Neural Networks 1 (0) | 2018.05.12 |
---|---|
[COURSERA] ML strategy6 (0) | 2018.05.08 |
[COURSERA] ML strategy4 (0) | 2018.04.23 |
[COURSERA] ML strategy3 (0) | 2018.04.23 |
[COURSERA] ML strategy2 (0) | 2018.04.23 |