Reuters 딥러닝 모델

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

from tensorflow.keras import models, layers
from tensorflow.keras import callbacks
from tensorflow.keras import utils
from keras.datasets import reuters

# 문제 2-1: reuters 데이터셋을 로드하고, 훈련 데이터셋에서 25%를 검증 데이터셋으로 분리합니다.
(num_words, test_size, val_ratio) = (10000, 0.25, 0.25)

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=num_words)

# 훈련 데이터셋에서 검증용 데이터셋 분리
train_data, val_data, train_labels, val_labels = train_test_split(
    train_data, train_labels, test_size=val_ratio, random_state=42
)

# 훈련, 검증, 테스트 데이터와 레이블 종류가 몇 개인지 출력합니다.
print(len(train_data))
print(len(val_data))
print(len(test_data))
print(len(set(train_labels)))

# 문제 2-2: 텍스트 데이터의 전처리를 위해서 각 데이터셋마다 원-핫 인코딩을 수행합니다.
def one_hot_encoding(data, dim=10000):
    results = np.zeros((len(data), dim))
    for i, sequence in enumerate(data):
        results[i, sequence] = 1.0
    return results

x_train = one_hot_encoding(train_data)
x_val = one_hot_encoding(val_data)
x_test = one_hot_encoding(test_data)

# 레이블 데이터들은 범주형 형태로 to_categorical() 함수를 사용해 변환합니다.
y_train = utils.to_categorical(train_labels)
y_val = utils.to_categorical(val_labels)
y_test = utils.to_categorical(test_labels)

# 문제 2-3: 빠른 학습과 과대적합을 방지하기 위해 BatchNormalization과 Dropout을 적용한 딥러닝 모델을 구성합니다.
model = models.Sequential()
model.add(layers.Dense(128, activation='relu', input_shape=(10000,)))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.5))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dropout(0.5))
model.add(layers.Dense(46, activation='softmax'))  # 클래스 수 = 46개

model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 문제 2-4: ModelCheckpoint와 EarlyStopping 콜백 함수를 적용하여 모델 학습을 진행합니다.
checkpoint_cb = callbacks.ModelCheckpoint('best_model.h5', save_best_only=True)
earlystop_cb = callbacks.EarlyStopping(patience=5, restore_best_weights=True)

history = model.fit(x_train, y_train,
                    epochs=30,
                    batch_size=128,
                    validation_data=(x_val, y_val),
                    callbacks=[checkpoint_cb, earlystop_cb])

# 문제 2-5: 테스트 데이터셋을 이용해 모델을 평가합니다.
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"Test Loss: {test_loss:.4f}")
print(f"Test Accuracy: {test_acc:.4f}")

'데이터사이언스 > 데이터사이언티스트4기' 카테고리의 다른 글

텍스트 벡터화 · 임베딩 학습 정리(1) (0)	2025.06.17
텍스트 벡터화 학습노트 (0)	2025.06.16
cifar10 데이터셋을 이용한 딥러닝 (0)	2025.06.11
딥러닝 보스턴 주택 가격 예측 모델 (0)	2025.06.11
딥러닝 Fashion MNIST (1)	2025.06.11

최종병기 비밀병기네

Reuters 딥러닝 모델

'데이터사이언스 > 데이터사이언티스트4기' 카테고리의 다른 글

티스토리툴바

Reuters 딥러닝 모델

'데이터사이언스 > 데이터사이언티스트4기' 카테고리의 다른 글

'데이터사이언스/데이터사이언티스트4기' Related Articles

티스토리툴바