목록분류 전체보기 (71)
잡동사니 블로그
파이썬 입문한지 약 3달째 연습데이터로 하기 좋은 Kaggle에 신용카드 사기 분류 데이터로 연습해보았다. 데이터셋 다운로드는 아래 링크로. https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent or genuine www.kaggle.com from sklearn.preprocessing import RobustScaler from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix, accur..
교수님의 추천으로 들어오게된 빅리더 아카데미 각오보다는 설레임이 앞섰지만... 첫날 자기소개 때 다들 너무 화려한 경력에 비해 한없이 초라해지더라. 막상 나에 대한 자랑을 할려니 너무 없더라고. 그래서 열심히 해야겠다는 마음으로 첫날부터 공부한거 같다. 수업 4주동안 기억에 남는건 자연어 처리 교수님이 잘 가르쳐주셔서 자연어를 이용한 딥러닝 까지 첫 모델링에 대한 뿌듯함과 혼자 Kaggle과 백준을 4주라는 시간동안은 꾸준히 들여다보면서 한것 크롤링은 기본적으로 알고 있던거라서 따라가기 수월했었고 머신러닝 딥러닝은 이해가 잘 안되어서 개인적으로 공부를 조금 더 해봐야겠다. 백준은 나름 매일 한다고 했는데 프로젝트 시작하고 나서는 바빠서 하지도 못하고, 겨우 실버 찍었다. 꾸준함이 중요한데 아쉽네. 앞..
내가 처음으로 기업의 데이터로 프로젝트를 하며 정상과 불량의 데이터 수 차이가 나는 불균형 데이터(imbalanced data)였기에 이 때 쓰는 방법인 오버샘플링(Over sampling)을 쓰며... 주로 분류(classification)에서 다수의 데이터와 소수의 데이터 차이가 많이나면 모델의 정확도가 떨어지기 때문에 이를 해결하기 위해 언더샘플링(Under sampling)과 오버샘플링(Over samplinig)이 있는데, 프로젝트를 진행하며 여러 논문을 본 결과 언더샘플링의 경우 데이터의 손실이 있어 정확성이 많이 떨어져 주로 오버샘플링을 이용한다고 한다. 즉 , 신용카드 사기와 같은 불균형 데이터에서 모델의 정확도를 올리기 위하여 오버샘플링을 한다. 데이터셋은 프로젝트에서 활용하였던 데이터셋..