자연어 처리(3)
-
3. 벡터화
1. 벡터화* 벡터화는 텍스트 데이터를 숫자 형태로 변환하여 머신러닝 또는 딥러닝 모델에서 처리할 수 있도록 만드는 과정입니다. * 이를 위해 단어의 빈도를 기반으로 한 Bag-of-Words(BOW), TF-IDF와 같은 방법부터, 단어 간의 의미적 관계를 학습하는 Word Embedding(단어 임베딩), 문장의 문맥과 구조를 반영하는 Transformer 기반 임베딩(BERT, GPT) 등 다양한 기법이 사용됩니다. * 벡터화는 단어, 문장, 문서와 같은 텍스트 데이터의 특징을 수치적으로 표현하며, 단순히 단어의 빈도를 반영하거나 의미적 유사성을 학습하여 벡터 공간에서 단어 간 관계를 나타냅니다. * 데이터의 특성과 분석 목적에 따라 적절한 벡터화 기법을 선택하는 것이 중요합니다. 2. 원-핫 인코..
15:23:59 -
2.IMDB Dataset를 활용한 데이터 전처리
1. IMDB Dataset* IMDB Dataset of 50K Movie Reviews는 영화 리뷰 50,000개로 구성된 대규모 텍스트 데이터셋으로, 리뷰의 감정(긍정적 또는 부정적)이 라벨링되어 있어 감정 분석(Sentiment Analysis) 연구 및 모델 학습에 자주 사용됩니다. * 이 데이터셋은 25,000개의 학습 데이터와 25,000개의 테스트 데이터로 균등하게 나뉘어 있으며, 각 리뷰는 영어로 작성되어 있습니다.* 리뷰는 텍스트 길이가 다양하며, 자연어 처리(NLP) 알고리즘의 성능 평가 및 감정 분석 기술 향상을 위한 표준 데이터셋으로 널리 활용됩니다. * 링크 주소 : https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-o..
2025.01.24 -
1. 자연어 처리
1. 자연어* 자연어는 인간이 일상적으로 의사소통에 사용하는 언어로, 말과 글을 통해 표현되는 언어를 말합니다.* 자연어는 문법, 어휘, 맥락, 뉘앙스 등 복잡한 요소들로 이루어져 있어 규칙적인 구조와 함께 다양한 변형이 가능합니다.* 컴퓨터 과학에서는 이러한 자연어를 이해하고 처리하기 위해 자연어 처리(NLP, Natural Language Processing) 기술이 사용되며, 이를 통해 텍스트 분석, 번역, 음성 인식, 챗봇과 같은 다양한 응용이 가능합니다.* 자연어는 인간의 사고와 문화적 배경을 반영하므로, 이를 다루는 기술은 인문학적 이해와 기술적 접근이 결합되어야 합니다. 2. 자연어 처리* 자연어 처리는(Natural Language Processing, NLP) 컴퓨터가 인간의 언어를 이해..
2025.01.23