-
How to deal with missing dataAI ML/ML 2020. 6. 24. 21:57
MCAR - Missing Completely at Random
- 관측된 변수 X와 다른 부분 missing value Y간의 상관관계 전혀 없다.
MAR - Missing at Random
- Partly missing Variable Y 가 다른 완전한 관측지와는 연관이 있고, Y 변수 자체에는 연관이 없는 것.
MNAR - Missing not at Random
- 결측치가 변수 Y와 직접 연관된것
- for example, people who are not rich don't want to answer the question about how much money do you earn?
결측 데이터의 원인 + 각 원인에 따른 처리 방법
1. 데이터의 몇%가 결측인가?
2. 결측 데이터가 특정한 몇 개 변수에 집중되어 있는가? or 널리 퍼져 있는가?
Retain All Data
1. Mean, Median, Mode
- 정규 분포의 관측치에서는 평균으로 대체하는 것이 Reasonable 하다.
- but, 각각 다른 변수에서 결측치의 차이가 매우 불균등하면, 이는 Bias의 원인.
이때, Median이 Skewed Distrubution에서 사용 가능함
2. Last Observation Carried Forard
3. Next Observation Carried Backward
4. Linear Interpolation 앞 + 뒤 / 2
5. Median으로 대신하고 새로운 Feature 생성 Missing Value Binary.
6. Predictive / Statisticla models that impute the missing data.
- Linear Regression / Random Forest / K-NN / Maximum likelihood
m.blog.naver.com/tjdudwo93/220976082118
데이터 분석 최대의 적! 결측치(NA값)처리하기
이번 시간은 데이터 전처리 과정에서 가장 중요하다고 해도 과언이 아닌(물론 다 중요하지...
blog.naver.com
towardsdatascience.com/all-about-missing-data-handling-b94b8b5d2184
All About Missing Data Handling
Missing data is a every day problem that a data professional need to deal with. Though there are many articles, blogs, videos already…
towardsdatascience.com
'AI ML > ML' 카테고리의 다른 글
Label Encoding + One Hot Encoding (0) 2021.01.21 Cross Validation (0) 2021.01.19 딥러닝에서 Learning Rate를 최적화하는 방법 (0) 2020.06.23