2024-11-13 TIL

November 13, 2024 1 분 소요

🤖 자연어 처리(NLP) 학습 일지 - Day 1

📚 오늘의 학습 내용

감정 분석 (Sentiment Analysis)
단어 임베딩 (Word Embedding)
BERT를 이용한 문장 유사도 분석
IMDB 데이터셋을 활용한 감정 분석 모델 학습

1️⃣ 감정 분석 실습

🎯 목표

Hugging Face의 Transformers 라이브러리를 사용하여 텍스트의 감정을 분석
기본 모델과 RoBERTa 모델의 성능 비교

📝 코드 및 설명

from transformers import pipeline

# 기본 감정 분석
sentiment_analysis = pipeline("sentiment-analysis")
result = sentiment_analysis("I hate using Hugging Face!")

# RoBERTa 기반 감정 분석
classifier = pipeline("sentiment-analysis", model="roberta-base")
result = classifier("This product is amazing!")

💡 알아두면 좋은 점

pipeline은 손쉽게 NLP 작업을 수행할 수 있게 해주는 도구

RoBERTa는 BERT를 개선한 모델

2️⃣ 단어 임베딩 실습

🎯 목표

Word2Vec을 사용하여 단어 간의 관계성 파악

📊 실습 구조

graph LR
    A[문장 입력] --> B[전처리]
    B --> C[Word2Vec 모델]
    C --> D[단어 유사도 계산]

📝 주요 코드

from gensim.models import Word2Vec

model = Word2Vec(sentences=processed, 
                vector_size=5,
                window=5,
                min_count=1, 
                sg=0)

🔍 파라미터 설명

vector_size: 임베딩 벡터의 차원

window: 문맥 윈도우 크기

min_count: 최소 단어 등장 횟수

sg: 학습 알고리즘 선택 (0: CBOW, 1: Skip-gram)

3️⃣ BERT 문장 임베딩

🎯 목표

BERT를 사용하여 문장 간 유사도 측정

🔄 처리 과정

BERT 모델 및 토크나이저 로드
문장 토큰화
임베딩 생성
코사인 유사도 계산

📊 시각화

graph TD
    A[문장 입력] --> B[토큰화]
    B --> C[BERT 모델]
    C --> D[임베딩 벡터]
    D --> E[유사도 계산]

4️⃣ IMDB 리뷰 감정 분석

🎯 목표

BERT를 사용하여 영화 리뷰 감정 분석 모델 학습

📈 학습 과정

데이터셋 로드 및 전처리
BERT 모델 설정
학습 파라미터 설정
모델 학습 및 평가

⚙️ 주요 설정

training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=8,
    evaluation_strategy="epoch"
)

📌 오늘의 핵심 포인트

트랜스포머 기반 모델들의 강력한 성능
단어/문장 임베딩의 중요성
사전학습 모델의 활용 방법

🔜 다음 학습 계획

다양한 언어에 대한 감정 분석
모델 성능 최적화
커스텀 데이터셋 활용

📚 참고 자료

#NLP #MachineLearning #BERT #Python #DeepLearning

Twitter Facebook LinkedIn

2024-11-13 TIL

🤖 자연어 처리(NLP) 학습 일지 - Day 1

📚 오늘의 학습 내용

1️⃣ 감정 분석 실습

🎯 목표

📝 코드 및 설명

2️⃣ 단어 임베딩 실습

🎯 목표

📊 실습 구조

📝 주요 코드

3️⃣ BERT 문장 임베딩

🎯 목표

🔄 처리 과정

📊 시각화

4️⃣ IMDB 리뷰 감정 분석

🎯 목표

📈 학습 과정

⚙️ 주요 설정

📌 오늘의 핵심 포인트

🔜 다음 학습 계획

📚 참고 자료

공유하기

댓글남기기

참고

TIL: 지원 언어로 필터링한 Steam 게임 데이터셋

Slack에서 GitHub 앱 연동하기

2024-11-20 TIL

2024-11-12 TIL