반응형

AI/Basic NLP 3

NLTK를 활용한 N-GRAM 언어 모델

N-gram 언어 모델이란?자연어 처리에서 많이 사용되는 N-gram 언어 모델은 문장에서 앞에 나온 단어들을 활용해 다음에 올 단어를 예측하는 방법입니다. 쉽게 말해, "앞 단어들을 보고 다음 단어가 무엇일지 맞히는 모델"입니다.N-gram에서 N은 단어의 개수를 의미합니다. 즉, 문장에서 N개의 연속된 단어 묶음(그램, gram)을 의미합니다.2-gram (Bigram): 앞 단어 1개를 보고 다음 단어를 예측 (예: "오늘 날씨" → "좋다")3-gram (Trigram): 앞 단어 2개를 보고 다음 단어를 예측 (예: "오늘 날씨가" → "좋다")4-gram (4-그램): 앞 단어 3개를 보고 다음 단어를 예측즉, N이 커질수록 더 많은 앞 단어를 참고해서 예측하는 모델이 됩니다.예제: 7-gra..

AI/Basic NLP 2025.03.01

scikit-learn을 활용한 One-hot Encoding

원핫 인코딩(One-hot Encoding)이란?원핫 인코딩(One-hot Encoding)은 범주형 데이터(Categorical Data)를 이진화된 값(Binary Value)으로 변환하는 방법입니다.텍스트 데이터를 머신러닝 모델에 입력하기 위해 숫자로 바꿔야 하는데, 이때 단순히 정수형 라벨로 변환하면 모델이 범주 간의 순서나 크기를 잘못 해석할 수 있습니다.이를 방지하기 위해 원핫 인코딩을 사용합니다.왜 원핫 인코딩을 사용할까?범주형 데이터는 순서가 없고 크기 비교가 불가능한 값들입니다.예를 들어, “개”, “고양이”, “말”이라는 세 가지 카테고리가 있다면, 이를 단순히 정수형 라벨로 변환하면 다음과 같이 표현할 수 있습니다. 정수형 라벨 인코딩 (Integer Label Encoding) 예시..

AI/Basic NLP 2025.02.27

NLTK를 활용한 Tokenizing

토크나이징(Tokenizing)이란?텍스트 데이터를 분석하거나 처리할 때 토크나이징(Tokenizing)은 매우 중요한 단계입니다. 토크나이징은 전체 텍스트를 원하는 구분 단위로 나누는 작업을 의미하며, 이를 통해 데이터를 보다 체계적이고 효율적으로 다룰 수 있습니다.토크나이징의 유형토크나이징은 나누는 단위에 따라 여러 가지 방식으로 진행할 수 있습니다. 대표적인 유형은 다음과 같습니다.1. 문장 단위 토크나이징텍스트를 문장 단위로 나누는 방식입니다. 일반적으로 문장의 끝을 나타내는 구두점(마침표, 느낌표, 물음표 등)을 기준으로 문장을 나눕니다.예시:Input : "Hello! How are you doing? I'm fine."Output : ["Hello!", "How are you doing?",..

AI/Basic NLP 2025.02.27
반응형