2024-11-13 TIL
๐ค ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ํ์ต ์ผ์ง - Day 1
๐ ์ค๋์ ํ์ต ๋ด์ฉ
- ๊ฐ์ ๋ถ์ (Sentiment Analysis)
- ๋จ์ด ์๋ฒ ๋ฉ (Word Embedding)
- BERT๋ฅผ ์ด์ฉํ ๋ฌธ์ฅ ์ ์ฌ๋ ๋ถ์
- IMDB ๋ฐ์ดํฐ์ ์ ํ์ฉํ ๊ฐ์ ๋ถ์ ๋ชจ๋ธ ํ์ต
1๏ธโฃ ๊ฐ์ ๋ถ์ ์ค์ต
๐ฏ ๋ชฉํ
- Hugging Face์ Transformers ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ์ ๊ฐ์ ์ ๋ถ์
- ๊ธฐ๋ณธ ๋ชจ๋ธ๊ณผ RoBERTa ๋ชจ๋ธ์ ์ฑ๋ฅ ๋น๊ต
๐ ์ฝ๋ ๋ฐ ์ค๋ช
from transformers import pipeline
# ๊ธฐ๋ณธ ๊ฐ์ ๋ถ์
sentiment_analysis = pipeline("sentiment-analysis")
result = sentiment_analysis("I hate using Hugging Face!")
# RoBERTa ๊ธฐ๋ฐ ๊ฐ์ ๋ถ์
classifier = pipeline("sentiment-analysis", model="roberta-base")
result = classifier("This product is amazing!")
๐ก ์์๋๋ฉด ์ข์ ์
- pipeline์ ์์ฝ๊ฒ NLP ์์ ์ ์ํํ ์ ์๊ฒ ํด์ฃผ๋ ๋๊ตฌ
- RoBERTa๋ BERT๋ฅผ ๊ฐ์ ํ ๋ชจ๋ธ
2๏ธโฃ ๋จ์ด ์๋ฒ ๋ฉ ์ค์ต
๐ฏ ๋ชฉํ
Word2Vec์ ์ฌ์ฉํ์ฌ ๋จ์ด ๊ฐ์ ๊ด๊ณ์ฑ ํ์
๐ ์ค์ต ๊ตฌ์กฐ
graph LR
A[๋ฌธ์ฅ ์
๋ ฅ] --> B[์ ์ฒ๋ฆฌ]
B --> C[Word2Vec ๋ชจ๋ธ]
C --> D[๋จ์ด ์ ์ฌ๋ ๊ณ์ฐ]
๐ ์ฃผ์ ์ฝ๋
from gensim.models import Word2Vec
model = Word2Vec(sentences=processed,
vector_size=5,
window=5,
min_count=1,
sg=0)
๐ ํ๋ผ๋ฏธํฐ ์ค๋ช
- vector_size: ์๋ฒ ๋ฉ ๋ฒกํฐ์ ์ฐจ์
- window: ๋ฌธ๋งฅ ์๋์ฐ ํฌ๊ธฐ
- min_count: ์ต์ ๋จ์ด ๋ฑ์ฅ ํ์
- sg: ํ์ต ์๊ณ ๋ฆฌ์ฆ ์ ํ (0: CBOW, 1: Skip-gram)
3๏ธโฃ BERT ๋ฌธ์ฅ ์๋ฒ ๋ฉ
๐ฏ ๋ชฉํ
BERT๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ ๊ฐ ์ ์ฌ๋ ์ธก์
๐ ์ฒ๋ฆฌ ๊ณผ์
- BERT ๋ชจ๋ธ ๋ฐ ํ ํฌ๋์ด์ ๋ก๋
- ๋ฌธ์ฅ ํ ํฐํ
- ์๋ฒ ๋ฉ ์์ฑ
- ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ณ์ฐ
๐ ์๊ฐํ
graph TD
A[๋ฌธ์ฅ ์
๋ ฅ] --> B[ํ ํฐํ]
B --> C[BERT ๋ชจ๋ธ]
C --> D[์๋ฒ ๋ฉ ๋ฒกํฐ]
D --> E[์ ์ฌ๋ ๊ณ์ฐ]
4๏ธโฃ IMDB ๋ฆฌ๋ทฐ ๊ฐ์ ๋ถ์
๐ฏ ๋ชฉํ
BERT๋ฅผ ์ฌ์ฉํ์ฌ ์ํ ๋ฆฌ๋ทฐ ๊ฐ์ ๋ถ์ ๋ชจ๋ธ ํ์ต
๐ ํ์ต ๊ณผ์
- ๋ฐ์ดํฐ์ ๋ก๋ ๋ฐ ์ ์ฒ๋ฆฌ
- BERT ๋ชจ๋ธ ์ค์
- ํ์ต ํ๋ผ๋ฏธํฐ ์ค์
- ๋ชจ๋ธ ํ์ต ๋ฐ ํ๊ฐ
โ๏ธ ์ฃผ์ ์ค์
training_args = TrainingArguments(
output_dir='./results',
num_train_epochs=3,
per_device_train_batch_size=8,
evaluation_strategy="epoch"
)
๐ ์ค๋์ ํต์ฌ ํฌ์ธํธ
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
- ๋จ์ด/๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ค์์ฑ
- ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉ ๋ฐฉ๋ฒ
๐ ๋ค์ ํ์ต ๊ณํ
- ๋ค์ํ ์ธ์ด์ ๋ํ ๊ฐ์ ๋ถ์
- ๋ชจ๋ธ ์ฑ๋ฅ ์ต์ ํ
- ์ปค์คํ ๋ฐ์ดํฐ์ ํ์ฉ
๐ ์ฐธ๊ณ ์๋ฃ
#NLP #MachineLearning #BERT #Python #DeepLearning
๋๊ธ๋จ๊ธฐ๊ธฐ