목록Python (45)
잡동사니 블로그
SMOTE를 활용한 Over sampling(오버샘플링)
내가 처음으로 기업의 데이터로 프로젝트를 하며 정상과 불량의 데이터 수 차이가 나는 불균형 데이터(imbalanced data)였기에 이 때 쓰는 방법인 오버샘플링(Over sampling)을 쓰며... 주로 분류(classification)에서 다수의 데이터와 소수의 데이터 차이가 많이나면 모델의 정확도가 떨어지기 때문에 이를 해결하기 위해 언더샘플링(Under sampling)과 오버샘플링(Over samplinig)이 있는데, 프로젝트를 진행하며 여러 논문을 본 결과 언더샘플링의 경우 데이터의 손실이 있어 정확성이 많이 떨어져 주로 오버샘플링을 이용한다고 한다. 즉 , 신용카드 사기와 같은 불균형 데이터에서 모델의 정확도를 올리기 위하여 오버샘플링을 한다. 데이터셋은 프로젝트에서 활용하였던 데이터셋..
Python
2022. 9. 1. 23:55