본문 바로가기

전체 글

(1618)

로이터 뉴스 분류 딥러닝 실험 정리 ✅ 실험 목적로이터 뉴스 데이터(46개 카테고리)를 대상으로머신러닝 vs 딥러닝 분류 성능을 비교하고,전처리 방식에 따른 성능 차이를 확인함✅ 데이터 개요데이터셋: Keras 내장 reuters 뉴스 기사 (약 11,000개)문제: 다중 클래스 분류 (카테고리 46개)특성: 뉴스는 대체로 짧고, 핵심 단어 위주로 구성✅ 실험 1: 머신러닝 (TF-IDF + Complement Naive Bayes)구성 내용전처리CountVectorizer + TfidfTransformer모델ComplementNB, LogisticRegression 등특징단어 중요도 기반 희소 벡터 사용결과정확도 약 0.7271✅ 실험 2: 딥러닝 (TF-IDF + Dense Neural Network)구성 내용전처리위 TF-IDF 벡터..

로이터 뉴스 데이터셋 머신러닝 다중분류 📋 2025-06-18 머신러닝 & 텍스트 분류 통합 캔버스 (코드+설명 포함)1. 로이터 뉴스 데이터셋 로드 및 이해from tensorflow.keras.datasets import reuters(x_train, y_train), (x_test, y_test) = reuters.load_data(num_words=10000, test_split=0.2)print(f"훈련 데이터 개수: {len(x_train)}")print(f"테스트 데이터 개수: {len(x_test)}")뉴스는 정수 시퀀스로 표현됨46개 주제 레이블 존재특수 토큰 , , 가 0,1,2번 인덱스2. 단어 인덱스 복원 및 텍스트 변환word_index = reuters.get_word_index()index_to_word = {in..

Word2Vec & FastText 임베딩 실습 및 개념 요약(2) ✅ 1. Word2Vec 실습NLTK의 abc 말뭉치를 불러와 문장 단위로 토큰화된 데이터를 Word2Vec에 입력합니다.Word2Vec 클래스는 단어를 벡터로 임베딩하는 모델이며, 아래 설정은 CBOW 방식(sg=0)을 사용합니다.학습 후 most_similar() 함수를 통해 특정 단어와 의미적으로 유사한 단어들을 확인할 수 있습니다.import nltknltk.download('abc')nltk.download('punkt')from nltk.corpus import abccorpus = abc.sents()from gensim.models import Word2Vecmodel = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=5,..

텍스트 벡터화 · 임베딩 학습 정리(1) 1. 벡터화의 개념 및 희소성 문제문서를 수치화하여 머신러닝(Machine Learning) 또는 딥러닝(Deep Learning) 모델이 처리할 수 있도록 변환하는 과정DTM(Document-Term Matrix): 문서 × 단어로 이루어진 행렬 구조행: 문서 벡터, 열: 단어 벡터대부분의 값이 0인 희소 벡터(Sparse Vector) 발생단어장(Vocabulary): 텍스트 전체에서 중복 없이 등장한 단어들의 집합. 크기를 보통 V로 표기2. DTM vs TF-IDFDTM: 단어의 단순 등장 횟수를 카운팅하여 표현TF-IDF:TF(Term Frequency): 문장 내 단어들의 등장 빈도를 정규화한 값IDF(Inverse Document Frequency): 전체 문서 중 해당 단어가 등장한 문서 ..

텍스트 벡터화 학습노트 텍스트 벡터화 학습노트1️⃣ Bag‑of‑Words(BOW) 개념문맥을 무시하고 단어 등장 횟수로 문서를 표현장점: 단순·빠름, 선형 모델과 상성 좋음단점: 위치 정보 손실, 차원 폭발(희소 행렬)▶ 통계 기반ㆍ머신러닝 기반통계: 단어 등장 횟수 기반 → CountVectorizer, TF‑IDFML: 벡터 입력 후 분류·군집화 등 학습2️⃣ BoW 구현 및 비교📙 CountVectorizer vs Keras Tokenizer항목 CountVectorizer(sklearn) Tokenizer(Keras)반환 형식희소행렬(CSR)Numpy 배열BoW 방식fit_transform, vocabulary_texts_to_matrix(..., mode='count')시퀀스 지원❌✅ (texts_to_sequen..

Reuters 딥러닝 모델 import numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom tensorflow.keras import models, layersfrom tensorflow.keras import callbacksfrom tensorflow.keras import utilsfrom keras.datasets import reuters# 문제 2-1: reuters 데이터셋을 로드하고, 훈련 데이터셋에서 25%를 검증 데이터셋으로 분리합니다.(num_words, test_size, val_ratio) = (10000, 0.25, 0.25)(train_data, train_labels), (tes..

cifar10 데이터셋을 이용한 딥러닝 # 문제 3-1: cifar10 데이터셋을 로드하고, 훈련 데이터셋에서 20%를 검증 데이터셋으로 분리합니다.from tensorflow.keras.datasets import cifar10from sklearn.model_selection import train_test_splitfrom tensorflow.keras import models, layers, regularizersfrom tensorflow.keras.callbacks import ModelCheckpoint, EarlyStoppingimport matplotlib.pyplot as plt# CIFAR-10 데이터셋 로드(x_train_full, y_train_full), (x_test, y_test) = cifar10.load_dat..

딥러닝 보스턴 주택 가격 예측 모델 # 보스턴 집값 딥러닝from keras.datasets import boston_housingfrom tensorflow.keras import models, layersimport matplotlib.pyplot as pltimport numpy as np# 1. Load data(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()# 2. Manual standardization (without sklearn)# 먼저 입력 데이터의 각 특성의 평균을 뺍니다.mean = train_data.mean(axis=0)train_data -= mean# 평균을 뺀 입력 데이터에서 표준편차를 나눕니다.std = trai..

이전 1 2 3 4 ··· 203 다음

티스토리툴바