데이터사이언스 (10) 썸네일형 리스트형 시계열 데이터 분석 용어 정리 (정상성, 차분, ACF, PACF 등) 1. 시계열(Time Series)정의: 시간의 흐름에 따라 순서대로 수집된 데이터.시간 순서가 중요하며, 과거의 값이 미래 예측에 영향을 줄 수 있는 구조입니다.예: 일별 기온, 시간별 교통량, 월별 매출 등2. 정상성(Stationarity)정의: 시계열 데이터의 평균, 분산, 공분산이 시간에 따라 변하지 않는 성질조건:평균이 일정할 것분산이 일정할 것공분산이 시차(lag)에만 의존하고 시간 t에는 의존하지 않을 것예시 그래프:상승 추세가 있는 데이터 (비정상)차분 후 평균이 일정해진 데이터 (정상)3. 차분(Differencing)정의: 이전 시점의 값을 빼서 변화량(증감폭)을 구하는 방식. 비정상 시계열을 정상화할 때 사용 용도:추세 제거계절성 제거 (계절 차분: )예시 그래프:원시 시계열 vs... 자연어 처리 초보 ✔️ 전체 흐름 먼저 보기 1. 텍스트 정리하기 (HTML, 특수기호 제거 등)import redef clean_text(text): text = re.sub(r']+>', ' ', text) # HTML 태그 제거 text = re.sub(r'http\S+', ' ', text) # URL 제거 text = re.sub(r'[^가-힣a-zA-Z0-9\s]', ' ', text) # 특수문자 제거 return re.sub(r'\s+', ' ', text).strip() # 여백 정리예: 정말 좋은 영화예요!! → 정말 좋은 영화예요 2. 단어로 나누기 (형태소 분석)from konlpy.tag import Oktokt = Okt()def tokenize(text): r.. A/B 테스트의 결과가 통계적으로 유의하나 효과의 차이 자체는 매우 작은 경우 어떤 의사결정을 할 수 있을지 사례를 통한 설명:상황: 한 이커머스 회사에서 상품 상세 페이지의 '장바구니 담기' 버튼 색상을 기존 파란색에서 초록색으로 변경하는 A/B 테스트를 진행했습니다. 목표 지표는 '장바구니 담기 전환율'입니다.테스트 결과:페이지 A (파란색 버튼): 1,000,000명 노출, 100,000명 장바구니 담기 -> 전환율 10.00%페이지 B (초록색 버튼): 1,000,000명 노출, 100,100명 장바구니 담기 -> 전환율 10.01%결론: 두 그룹 간 전환율 차이는 0.01%p 증가 (상대적 개선율 0.1%). A/B 테스트 결과, p-value가 0.05보다 작게 나와 통계적으로는 유의미하다는 결과가 나왔습니다 (방대한 표본 크기 때문에 미미한 차이도 유의미하게 나옴).A.. 배움의 길과 마지막 돗대 3월 24일이 첫 수업이었으니, 얼추 한 달이 지났다. 말년에 무슨 큰일이라도 낼 것처럼 고민하고, 검색을 거듭한 끝에내게 맞는 길이 "데이터 사이언티스트"라는 신학문(?)임을 깨달았다.그 순간, 유레카! 외치며 이렇게 결심했다.그래, 이걸 해보자. 그리고는 조심스레 배움의 길로 들어섰다. 처음엔 그냥 막연했다.챗GPT가 앞으로 수요가 많을 거라며 은근한 강요(?)도 있었고,부트캠프들의 광고 문구는 "앞으로 2년 내에 3만 명이 필요할 것"이라더라.‘그럼 나도 우리 사회에 필요한 인간이 되는 거구나...ㅋㅋ’혼잣말로 그렇게 웃으며 시작했다. 공부는 할 수록 나날이 담배량이 늘어난다. 보통은 이틀에 한 갑 정도 담배를 피웠다.백수라서 하루 한 갑은 무리였고, 건강에도 안 좋은 걸 알면서도‘끊어야지’보다는 .. 비정제 데이터 처리하기 비정제 데이터 처리하기: 데이터 분석의 첫걸음현실의 데이터는 대부분 정제되지 않은 상태로 존재합니다. 오타, 누락, 이상값, 형식 불일치 등 다양한 문제가 섞여 있어, 분석 전에 반드시 손질이 필요하답니다.. 1. 결측값(Missing Values) 처리데이터에서 값이 비어 있는 경우, 해당 행을 제거하거나 평균, 중위값 등으로 대체하는 방식이 일반적입니다. 상황에 따라 비워두는 것이 더 적절한 경우도 있으니, 데이터의 맥락을 고려해야 함2. 중복 제거같은 정보가 여러 번 들어가 있는 중복 행은 분석 결과에 과도한 영향을 줄 수 있습니다. drop_duplicates() 같은 함수로 손쉽게 제거할 수 있으며, 중복 기준 열을 잘 설정하는 것이 중요함.3. 이상값(Outliers) 탐지예를 들어 구매 횟.. SQL 이란 무엇인가? SQL(Structured Query Language, 구조화된 질의 언어)은 관계형 데이터베이스(RDB, Relational Database)에서 데이터를 저장, 조회, 수정, 삭제하는 데 사용되는 프로그래밍 언어입니다. SQL의 주요 기능데이터 조회(SELECT)데이터베이스에서 원하는 데이터를 검색할 수 있습니다.예시:sql복사편집SELECT * FROM employees WHERE age > 30;데이터 삽입(INSERT)새로운 데이터를 추가할 수 있습니다.예시:sql복사편집INSERT INTO employees (name, age, department) VALUES ('John Doe', 35, 'Engineering'); 데이터 수정(UPDATE)기존 데이터를 변경할 수 있습니다.예시:sql복사.. 변수 우선순위 (LEGB Rule) ✅ 변수의 범위(Scope)전역 변수 name = "인유" → 함수 내부에서는 사용되지 않음.매개변수 name = "AIFFEL" → hello()에서 받았지만 printer()에서는 사용되지 않음.지역 변수 name = "파이썬" → printer() 안에서 선언된 새로운 변수 → 이 값이 사용됨!✅ 변수 우선순위 (LEGB Rule) 파이썬에서는 변수를 찾을 때 LEGB 규칙을 따릅니다.L (Local, 지역 범위) → printer() 내부에서 선언된 name = "파이썬"E (Enclosing, 중첩 함수 범위) → hello(name)의 name = "AIFFEL" (사용되지 않음)G (Global, 전역 범위) → name = "인유" (사용되지 않음)B (Built-in, 내장 범위) → p.. Git과 GitHub: 개발자 필수 도구 소프트웨어 개발을 하다 보면 코드의 버전을 관리하고 여러 개발자와 협업할 일이 자주 생깁니다. 이런 작업을 쉽게 해주는 도구가 바로 Git과 GitHub입니다. 이 두 도구는 매우 중요한 역할을 하며, 개발자가 효율적으로 작업을 진행할 수 있도록 돕습니다. 이번 글에서는 Git과 GitHub의 기본 개념과 차이점을 간단히 설명해드리겠습니다. 1. Git이란 무엇인가? Git은 **버전 관리 시스템(VCS)**으로, 개발자가 코드의 변경 사항을 기록하고 관리할 수 있게 해줍니다. 개발자가 작업을 하면서 코드에 변경을 가할 때마다 Git은 그 내역을 저장합니다. 이를 통해 언제든지 특정 시점으로 돌아가거나, 이전 버전과 비교할 수 있습니다. Git은 로컬에서만 작업할 수 있는 도구로, 주로 개인 프로젝트나 .. 이전 1 2 다음