목록Python (47)
잡동사니 블로그

프로젝트를 진행하며 불량과 양품의 구분을 모델링 하였을 때 결과가 기대했던것 만큼 좋게 나오지는 않아서 차원축소를 통한 시각화로 EDA를 하고자 썼었다. 논문에 따르면 T-SNE 기법은 다른 Isomap 및 지역적선형임베딩(Locally Linear Embedding)기술보다 우수한 시각화 효과를 나타내었으며 거의 모든 데이터셋 에 적용된다고 한다. 기본적으로 정규분포를 쓰는 확률적 이웃 임베딩(stochastic neighbor embedding)에서 t-Distributed 함수를 써서 활용한것이 T-SNE라고 한다. 내가 프로젝트에서 활용 하였던 데이터셋을 활용 하였다. import pandas as pd import numpy as np from sklearn.manifold import TSNE..

파이썬 입문한지 약 3달째 연습데이터로 하기 좋은 Kaggle에 신용카드 사기 분류 데이터로 연습해보았다. 데이터셋 다운로드는 아래 링크로. https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com from sklearn.preprocessing import RobustScaler from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix, accur..

내가 처음으로 기업의 데이터로 프로젝트를 하며 정상과 불량의 데이터 수 차이가 나는 불균형 데이터(imbalanced data)였기에 이 때 쓰는 방법인 오버샘플링(Over sampling)을 쓰며... 주로 분류(classification)에서 다수의 데이터와 소수의 데이터 차이가 많이나면 모델의 정확도가 떨어지기 때문에 이를 해결하기 위해 언더샘플링(Under sampling)과 오버샘플링(Over samplinig)이 있는데, 프로젝트를 진행하며 여러 논문을 본 결과 언더샘플링의 경우 데이터의 손실이 있어 정확성이 많이 떨어져 주로 오버샘플링을 이용한다고 한다. 즉 , 신용카드 사기와 같은 불균형 데이터에서 모델의 정확도를 올리기 위하여 오버샘플링을 한다. 데이터셋은 프로젝트에서 활용하였던 데이터셋..