본문 바로가기

전체 글

(1621)

Reuters 딥러닝 모델 import numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom tensorflow.keras import models, layersfrom tensorflow.keras import callbacksfrom tensorflow.keras import utilsfrom keras.datasets import reuters# 문제 2-1: reuters 데이터셋을 로드하고, 훈련 데이터셋에서 25%를 검증 데이터셋으로 분리합니다.(num_words, test_size, val_ratio) = (10000, 0.25, 0.25)(train_data, train_labels), (tes..

cifar10 데이터셋을 이용한 딥러닝 # 문제 3-1: cifar10 데이터셋을 로드하고, 훈련 데이터셋에서 20%를 검증 데이터셋으로 분리합니다.from tensorflow.keras.datasets import cifar10from sklearn.model_selection import train_test_splitfrom tensorflow.keras import models, layers, regularizersfrom tensorflow.keras.callbacks import ModelCheckpoint, EarlyStoppingimport matplotlib.pyplot as plt# CIFAR-10 데이터셋 로드(x_train_full, y_train_full), (x_test, y_test) = cifar10.load_dat..

딥러닝 보스턴 주택 가격 예측 모델 # 보스턴 집값 딥러닝from keras.datasets import boston_housingfrom tensorflow.keras import models, layersimport matplotlib.pyplot as pltimport numpy as np# 1. Load data(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()# 2. Manual standardization (without sklearn)# 먼저 입력 데이터의 각 특성의 평균을 뺍니다.mean = train_data.mean(axis=0)train_data -= mean# 평균을 뺀 입력 데이터에서 표준편차를 나눕니다.std = trai..

딥러닝 Fashion MNIST 🧵 Fashion MNIST 모델 정리1. 데이터셋 개요총 이미지 수: 70,000장훈련 이미지: 60,000장테스트 이미지: 10,000장이미지 크기: 28 x 28 픽셀 (흑백)클래스 수: 10개클래스 인덱스 클래스 이름0T-shirt/top1Trouser2Pullover3Dress4Coat5Sandal6Shirt7Sneaker8Bag9Ankle boot각 클래스별 이미지 수: 7,000장 (균등 분포)2. 데이터 로드 및 전처리from tensorflow.keras.datasets import fashion_mnist# 데이터셋 로드: 훈련/테스트 데이터를 한 줄로 분할(x_train_full, y_train_full), (x_test, y_test) = fashion_mnist.load_data..

Air Passengers 시계열데이터 분석흐름도 flowchart TDA[데이터 불러오기]A --> B[데이터 전처리]B -->|결측치 처리 및 보간| C[시계열 시각화]C --> D[정상성 검정 (ADF Test)]D -->|비정상성| E[차분 및 로그 변환]E --> F[이동평균 & 계절성 제거]F --> G[ACF/PACF 분석]G --> H[추세, 계절성, 잔차 분해]H --> I[정상성 확보]I --> J[train/test 데이터 분리]J --> K[ARIMA 모델 학습 및 예측]K --> L[예측 결과 시각화]L --> M[성능 평가 (MSE, MAE, RMSE)] 📈 단계별 설명✅ A: 데이터 불러오기멜버른 일일 최저기온 데이터 또는 항공 승객 데이터 로드.✅ B: 데이터 전처리데이터 타입 변환, 결측치 처리, 보간법(interpola..

삼성전자 주가 시계열 분석 설계문서 (2020-05-23 ~ 2025-05-23) 📈 삼성전자 주가 시계열 분석 설계문서 (2020-05-23 ~ 2025-05-23)📝 목적삼성전자 주가 5년간 데이터를 기반으로 시계열 분석 및 예측 진행정상성 확보를 위한 ACF/PACF 및 차분(1차 차분) 적용ARIMA (Auto-ARIMA 포함) 및 ARCH/GARCH 모델 각각 학습 및 예측Prophet으로 추세 및 계절성까지 고려한 예측 모델 추가최종적으로 VaR(Value-at-Risk) 등 리스크 분석 시각화 진행📌 1️⃣ 데이터 불러오기 및 전처리yfinance를 사용하여 삼성전자 5년간 주가 데이터 다운로드결측값 처리, 주가 클로즈 데이터 리네이밍 및 주가 보간(선형)주가 데이터 시계열 정상화를 위해 asfreq(B) 및 forward-fill 적용📌 2️⃣ 정상성 확인 및 차..

시계열 데이터 분석 용어 정리 (정상성, 차분, ACF, PACF 등) 1. 시계열(Time Series)정의: 시간의 흐름에 따라 순서대로 수집된 데이터.시간 순서가 중요하며, 과거의 값이 미래 예측에 영향을 줄 수 있는 구조입니다.예: 일별 기온, 시간별 교통량, 월별 매출 등2. 정상성(Stationarity)정의: 시계열 데이터의 평균, 분산, 공분산이 시간에 따라 변하지 않는 성질조건:평균이 일정할 것분산이 일정할 것공분산이 시차(lag)에만 의존하고 시간 t에는 의존하지 않을 것예시 그래프:상승 추세가 있는 데이터 (비정상)차분 후 평균이 일정해진 데이터 (정상)3. 차분(Differencing)정의: 이전 시점의 값을 빼서 변화량(증감폭)을 구하는 방식. 비정상 시계열을 정상화할 때 사용 용도:추세 제거계절성 제거 (계절 차분: )예시 그래프:원시 시계열 vs...

자연어 처리 초보 ✔️ 전체 흐름 먼저 보기 1. 텍스트 정리하기 (HTML, 특수기호 제거 등)import redef clean_text(text): text = re.sub(r']+>', ' ', text) # HTML 태그 제거 text = re.sub(r'http\S+', ' ', text) # URL 제거 text = re.sub(r'[^가-힣a-zA-Z0-9\s]', ' ', text) # 특수문자 제거 return re.sub(r'\s+', ' ', text).strip() # 여백 정리예: 정말 좋은 영화예요!! → 정말 좋은 영화예요 2. 단어로 나누기 (형태소 분석)from konlpy.tag import Oktokt = Okt()def tokenize(text): r..

이전 1 2 3 4 5 ··· 203 다음

티스토리툴바