1. 텍스트 데이터의 구성

  • 말뭉치 (corpus, 코퍼스) = 일반적인 원시텍스트와 이 텍스트에 연관된 메타데이터를 포함한 것
  • 원시텍스트 = 문자(바이트)시퀀스이지만 일반적으로 문자를 토큰이라는 연속된 단위로 묶여 있음 - ASCII, UTF-8 형태
  • 토큰 = 공백문자나 구두점으로 구분되는 단어 혹은 숫자
  • 메타데이터 = 식별자, 레이블, 타임스템프 등 텍스트와 연관된 어떤 부가정보
  • 샘플(Sample) or 데이터포인트 = 메타데이터가 붙어있는 텍스트 
  • 말뭉치 = 샘플들의 모음 = 데이터셋

2. 토큰화

  • 어진 말뭉치(코퍼스)를 토큰으로 나누는 과정을 토큰화 라고 함
"Maria frapis la verda sorcistino"
  •  6개의 토큰 존재(공백문자와 구두점으로 구분)
  •  참고로 토큰은 문장, 줄바꿈, 공백 등 다양한 사용자 기준에 따라 나눌 수 있음
  •  예시의 터키어는 한국어와 같이 교착어라고 부름
  •  교착어: 실질적인 단어 또는 어간에 문법적인 요소가 차례대로 결합함으로써 문장 속에서 문법적인 역할이나 관계의 차이를 나타내는 언어

 3. 타입

  • 타입 = 말뭉치에 등장하는 고유한 토큰
  • 말뭉치에 있는 모든 타입의 집함 = 어휘사전 or 어휘
  • 단어 = 내용어 / 불용어로 구분
    • 불용어 = 관사와 전치사 같은 대부분 내용어를 보충하는 문법적인 용도로 사용

4. n-gram 

참고: [NLP] 텍스트 데이터의 기초 / 말뭉치, 토큰화, n-gram (tistory.com)

 

 

 

 

 

+ Recent posts