1. 텍스트 데이터의 구성
- 말뭉치 (corpus, 코퍼스) = 일반적인 원시텍스트와 이 텍스트에 연관된 메타데이터를 포함한 것
- 원시텍스트 = 문자(바이트)시퀀스이지만 일반적으로 문자를 토큰이라는 연속된 단위로 묶여 있음 - ASCII, UTF-8 형태
- 토큰 = 공백문자나 구두점으로 구분되는 단어 혹은 숫자
- 메타데이터 = 식별자, 레이블, 타임스템프 등 텍스트와 연관된 어떤 부가정보
- 샘플(Sample) or 데이터포인트 = 메타데이터가 붙어있는 텍스트
- 말뭉치 = 샘플들의 모음 = 데이터셋
2. 토큰화
- 주어진 말뭉치(코퍼스)를 토큰으로 나누는 과정을 토큰화 라고 함
"Maria frapis la verda sorcistino"
- 6개의 토큰 존재(공백문자와 구두점으로 구분)
- 참고로 토큰은 문장, 줄바꿈, 공백 등 다양한 사용자 기준에 따라 나눌 수 있음
- 예시의 터키어는 한국어와 같이 교착어라고 부름
- 교착어: 실질적인 단어 또는 어간에 문법적인 요소가 차례대로 결합함으로써 문장 속에서 문법적인 역할이나 관계의 차이를 나타내는 언어
3. 타입
- 타입 = 말뭉치에 등장하는 고유한 토큰
- 말뭉치에 있는 모든 타입의 집함 = 어휘사전 or 어휘
- 단어 = 내용어 / 불용어로 구분
- 불용어 = 관사와 전치사 같은 대부분 내용어를 보충하는 문법적인 용도로 사용
4. n-gram
- n-gram = 텍스트에 있는 고정길이(n)의 연속된 토큰 시퀀스
- 바이그램 = 토큰 두 개로 이루어짐
- 유니그램 = 토큰 한 개로 이루어짐
- n-gram 계산하는 간단한 방법 및 n-gram 모델 활용할 경우 한계점을 알고 싶다면 아래 링크 클릭!
참고: [NLP] 텍스트 데이터의 기초 / 말뭉치, 토큰화, n-gram (tistory.com)
'Data Scientist > Deep Learning' 카테고리의 다른 글
영상 분석(Video Analysis)이란? (0) | 2024.06.04 |
---|---|
LLM(Large Language Model) - LLM이란?/ 2024년 주목해야 할 LLM 모델 (0) | 2024.05.31 |
생성형 AI - Generative AI (0) | 2024.05.23 |
RNN 개념 및 예제 코드 (0) | 2023.07.14 |
optuna를 활용해 하이퍼파라미터 튜닝하기 (0) | 2023.01.17 |