플로라도의 data workout
차원의 저주(Curse of dimensionality) 본문
차원의 저주(Curse of dimensionality)는 데이터의 차원이 증가함에 따라 발생하는 문제를 말한다.
데이터의 차원이 증가하면, feature space내에서 데이터 샘플들간의 공간상의 거리가 기하급수적으로 멀어지게 된다. 이는 공간 내에 데이터 포인트들이 sparse한 형태로 자리하게 만들며, sparse data를 학습한 모델은 train data의 예외적 상황까지 학습하여 일반화 성능이 떨어지게 된다. 모델이 데이터의 구조와 패턴을 학습하기 어렵게 만드는 문제를 일으키는 것이다.
따라서 데이터의 차원이 높아짐에 따라, 모델을 효과적으로 훈련시키기 위해서는 데이터가 지수적으로 필요하게 된다.
차원의 저주를 해결하기 위해서는 결국 데이터 특성(feature)를 적절히 조정해야 하는데,
PCA,SVD,LDA,AutoEncoder와 같은 dimensionality reduction 방법을 사용하거나 feature selection의 방법을 사용할 수 있다.
'기초 노트 > DataScience' 카테고리의 다른 글
선형회귀의 4가지 기본 가정 (0) | 2024.03.11 |
---|---|
데이터의 Cardinality란 무엇인가? (1) | 2024.03.07 |
Stacking과 Blending의 차이 설명 (3) | 2024.03.06 |
원-핫 인코딩의 모든 것(feat.OneHotEncoder vs pd.get_dummies) (1) | 2024.03.05 |
편향(Bias)와 분산(Variance) 그리고 Bias-Variance Decomposition (1) | 2024.02.16 |