분류 전체보기 177

5. CNN Text Classification

RNN을 보기 전에 CNN Text Classification을 알아보자. RNN은 CNN Text Classification을 먼저 구현해 본 후 보면 이해가 될 것이다. 1. CNN( "Convolutional Neural Networks)* CNN은 컴퓨터 비전 분야를 위해 개발되었으며, 대중적으로 사용되고 있는 가장 보편화된 이미지 처리 알고리즘입니다.* CNN(Convolutional Neural Network)을 사용하여 텍스트 데이터를 분류하는 방법을 의미합니다.* 원래 CNN은 이미지 처리에 특화된 모델이지만, 자연어 처리(NLP)에서도 강력한 성능을 발휘할 수 있어. 특히, 문장의 패턴을 학습하는 데 효과적이라서 감성 분석(Sentiment Analysis), 뉴스 카테고리 분류, 스팸 ..

4. 신경망 기반의 벡터화

1. 워드 임베딩* 워드 임베딩(Word Embedding)은 단어를 고차원의 희소 벡터로 표현하는 기존 방식(원-핫 인코딩) 대신, 단어의 의미를 저차원의 밀집 벡터(dense vector)로 변환하는 자연어 처리 기법입니다.* 이를 통해 단어 간 유사성과 관계를 벡터 공간에 효율적으로 나타낼 수 있으며, 벡터 간의 거리 또는 방향을 통해 단어의 문맥적 의미를 학습합니다.* 대표적인 워드 임베딩 알고리즘으로는 Embedding Layer, Word2Vec, GloVe, FastText 등이 있으며, 이를 사용하면 언어 모델이 문맥을 이해하거나 추론하는 데 필요한 기초적인 언어적 의미를 학습할 수 있습니다. ### 1-1. 랜덤 초기화 임베딩* 랜덤 초기화 임베딩은 모델 학습 초기 단계에서 임베딩 벡터를..

3. 벡터화

1. 벡터화* 벡터화는 텍스트 데이터를 숫자 형태로 변환하여 머신러닝 또는 딥러닝 모델에서 처리할 수 있도록 만드는 과정입니다. * 이를 위해 단어의 빈도를 기반으로 한 Bag-of-Words(BOW), TF-IDF와 같은 방법부터, 단어 간의 의미적 관계를 학습하는 Word Embedding(단어 임베딩), 문장의 문맥과 구조를 반영하는 Transformer 기반 임베딩(BERT, GPT) 등 다양한 기법이 사용됩니다. * 벡터화는 단어, 문장, 문서와 같은 텍스트 데이터의 특징을 수치적으로 표현하며, 단순히 단어의 빈도를 반영하거나 의미적 유사성을 학습하여 벡터 공간에서 단어 간 관계를 나타냅니다. * 데이터의 특성과 분석 목적에 따라 적절한 벡터화 기법을 선택하는 것이 중요합니다. 2. 원-핫 인코..

2. IMDB Dataset를 활용한 데이터 전처리

1. IMDB Dataset* IMDB Dataset of 50K Movie Reviews는 영화 리뷰 50,000개로 구성된 대규모 텍스트 데이터셋으로, 리뷰의 감정(긍정적 또는 부정적)이 라벨링되어 있어 감정 분석(Sentiment Analysis) 연구 및 모델 학습에 자주 사용됩니다. * 이 데이터셋은 25,000개의 학습 데이터와 25,000개의 테스트 데이터로 균등하게 나뉘어 있으며, 각 리뷰는 영어로 작성되어 있습니다.* 리뷰는 텍스트 길이가 다양하며, 자연어 처리(NLP) 알고리즘의 성능 평가 및 감정 분석 기술 향상을 위한 표준 데이터셋으로 널리 활용됩니다.  * 링크 주소 : https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-o..

1. 자연어 처리

1. 자연어* 자연어는 인간이 일상적으로 의사소통에 사용하는 언어로, 말과 글을 통해 표현되는 언어를 말합니다.* 자연어는 문법, 어휘, 맥락, 뉘앙스 등 복잡한 요소들로 이루어져 있어 규칙적인 구조와 함께 다양한 변형이 가능합니다.* 컴퓨터 과학에서는 이러한 자연어를 이해하고 처리하기 위해 자연어 처리(NLP, Natural Language Processing) 기술이 사용되며, 이를 통해 텍스트 분석, 번역, 음성 인식, 챗봇과 같은 다양한 응용이 가능합니다.* 자연어는 인간의 사고와 문화적 배경을 반영하므로, 이를 다루는 기술은 인문학적 이해와 기술적 접근이 결합되어야 합니다. 2. 자연어 처리* 자연어 처리는(Natural Language Processing, NLP) 컴퓨터가 인간의 언어를 이해..

ResNet 논문

Abstract # 더 깊은 신경망은 학습이 어렵다는 문제를 해결하기 위해 잔차 학습(residual learning) 프레임워크를 제안 Deeper neural networks are more difficult to train. --> 더 깊은 신경망은 학습이 더 어렵다는 문제가 있습니다. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. ----> 우리는 이전보다 훨씬 깊은 네트워크를 학습하기 쉽게 만들기 위해 잔차 학습(residual learning) 프레임워크를 제안합니다. # 레이어를 입력에 대한 참조를 ..

카테고리 없음 2025.01.23

6. Alien vs. Predator 데이터셋

6. Alien vs. Predator 데이터셋* Alien vs Predator 데이터셋은 컴퓨터 비전과 이미지 분류 모델을 학습시키기 위해 제공되는 소규모 데이터셋입니다. * 이 데이터셋은 영화 속 캐릭터인 에일리언(Alien)과 프레데터(Predator)의 이미지로 구성되어 있습니다. * 이 데이터를 통해 이 두 클래스를 분류하는 이미지 분류 모델을 학습시킬 수 있습니다.링크 주소 : https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images Alien vs. Predator imagesSmall image classification - for transfer learningwww.kaggle.com 예시 1)#폴더 다운로드!kaggle da..

5. 손글씨 도형 분류 FastAPI로 서빙

1.손글씨 도형 분류하기 shape_classifier.py 로 저장한다. 예시 1)import torchimport torch.nn as nnimport torch.optim as optimimport torchvisionimport torchvision.transforms as transformsfrom torch.utils.data import Dataset, DataLoader# 데이터 전처리를 위한 transform 정의transform = transforms.Compose([ transforms.Resize((28, 28)), # 이미지 크기를 28x28로 조정 transforms.Grayscale(1), # 이미지를 그레이스케일로 변환 (채널 1개) transform..

4. Alexnet 구현하기

1. Alexnet* AlexNet은 2012년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 우승한 딥러닝 모델로, 딥러닝의 대중화를 이끈 중요한 합성곱 신경망(CNN)입니다. * 이 모델은 8개의 레이어(5개의 합성곱 레이어와 3개의 완전 연결 레이어)로 구성되어 있으며, ReLU 활성화 함수, 드롭아웃(dropout), 데이터 증강(data augmentation) 등을 사용해 과적합을 방지하고 학습 성능을 향상시켰습니다. * AlexNet은 대규모 데이터셋과 GPU 병렬 연산을 활용해 1,000개의 클래스 분류 문제에서 top-1, top-5 error rates가 각각 37.5%, 17.5%로 뛰어난 성능을 보여, 컴퓨터 비전에서 딥러..

4. 손글씨 도형 분류하기

1. 손글씨 도형  예시 1)# %cd 명령어는 현재 작업 중인 디렉토리를 변경할 때 사용됩니다.%cd /content/drive/MyDrive/KDT 시즌 4/11. 딥러닝/data 예시 2)# zip 파일을 압축 해제하는 명령어# !unzip은 zip 파일을 풀 때 사용하는 명령어입니다.# -qq 옵션은 "quick"의 약자로, 압축 해제 중 상태 메시지를 출력하지 않도록 설정합니다.# 압축이 풀리면 현재 디렉토리 또는 zip 파일이 포함된 디렉토리에 파일이 생성됩니다.!unzip -qq "/content/drive/MyDrive/KDT 시즌 4/11. 딥러닝/data/shape.zip" 예시 3)import torchimport torch.nn as nnimport to..