[NLP] 자연어 처리를 위한 텍스트 데이터 기초

아리멤모장 2024. 5. 31. 14:21

2024. 5. 31. 14:21

"Maria frapis la verda sorcistino"

6개의 토큰 존재(공백문자와 구두점으로 구분)
참고로 토큰은 문장, 줄바꿈, 공백 등 다양한 사용자 기준에 따라 나눌 수 있음
- NLTK 패키지 활용한 텍스트 전처리 (1) 토큰화 (tistory.com)
예시의 터키어는 한국어와 같이 교착어라고 부름
교착어: 실질적인 단어 또는 어간에 문법적인 요소가 차례대로 결합함으로써 문장 속에서 문법적인 역할이나 관계의 차이를 나타내는 언어

n-gram = 텍스트에 있는 고정길이(n)의 연속된 토큰 시퀀스
바이그램 = 토큰 두 개로 이루어짐
유니그램 = 토큰 한 개로 이루어짐
n-gram 계산하는 간단한 방법 및 n-gram 모델 활용할 경우 한계점을 알고 싶다면 아래 링크 클릭!
- 03-03 N-gram 언어 모델(N-gram Language Model) - 딥 러닝을 이용한 자연어 처리 입문 (wikidocs.net)

영상 분석(Video Analysis)이란? (0)	2024.06.04
LLM(Large Language Model) - LLM이란?/ 2024년 주목해야 할 LLM 모델 (0)	2024.05.31
생성형 AI - Generative AI (0)	2024.05.23
RNN 개념 및 예제 코드 (0)	2023.07.14
optuna를 활용해 하이퍼파라미터 튜닝하기 (0)	2023.01.17

아리곤듀의 개발 성장 일기