본문 바로가기

데이터사이언스/데이터사이언티스트4기

비정제 데이터 처리하기

비정제 데이터 처리하기: 데이터 분석의 첫걸음

현실의 데이터는 대부분 정제되지 않은 상태로 존재합니다. 오타, 누락, 이상값, 형식 불일치 등 다양한 문제가 섞여 있어, 분석 전에 반드시 손질이 필요하답니다..  


1. 결측값(Missing Values) 처리

데이터에서 값이 비어 있는 경우, 해당 행을 제거하거나 평균, 중위값 등으로 대체하는 방식이 일반적입니다. 상황에 따라 비워두는 것이 더 적절한 경우도 있으니, 데이터의 맥락을 고려해야 함


2. 중복 제거

같은 정보가 여러 번 들어가 있는 중복 행은 분석 결과에 과도한 영향을 줄 수 있습니다. drop_duplicates() 같은 함수로 손쉽게 제거할 수 있으며, 중복 기준 열을 잘 설정하는 것이 중요함.


3. 이상값(Outliers) 탐지

예를 들어 구매 횟수가 1000번 이상인 고객이 있다면, 실제 데이터일 수도 있지만 입력 오류일 가능성도 있습니다. 박스 플롯등을 활용해 이상값을 탐지하고, 필요 시 제거하거나 별도로 분석함.


4. 데이터 형식 통일

날짜, 숫자, 문자열이 뒤섞여 있으면 처리 과정에서 오류가 생기기 쉽습니다. 예를 들어 날짜는 datetime 형식으로, 금액은 float형으로 맞춰주는 작업이 필요함.


정제는 분석의 시작

데이터 정제는 단순해 보일 수 있지만, 분석의 품질을 좌우하는 중요한 단계입니다. 깨끗한 데이터를 기반으로 해야 정확한 인사이트와 신뢰할 수 있는 결과를 얻을 수 있습니다.