텍스트 전처리텍스트 전처리란, 분석 하기 전 텍스트를 분석에 적합한 형태로 변환하는 작업이다.전처리 단계로는 토큰화, 형태소 분석, 품사 태깅, 원형 복원, 불용어 처리가 있다.전처리는 분석결과와 모델 성능에 직접 영향을 미치기 때문에 매우 중요하다 진리의 GIGO토큰화 (Tokenization)텍스트를 자연어 처리를 위해 분리하는 것이다.토근화는 문장별로 분리하는 문장 토큰화와, 단어별로 분리하는 단어 토큰화로 구분된다.한국어의 경우 토큰화와 형태소 분석 단계가 혼용되는데, 형태소 분석이 되어야만 토큰화가 가능하기 때문이다. * 형태소 분석 : 뜻을 가진 가장 작은 단위인 형태소로 분리하는 것문장 토큰화문장을 기준으로 토큰화하는 것으로,온점, 느낌표, 물음표 등으로 너무 단순하게 분리할 경우에..
전통적인 프로그래밍 언어가 인간이 기계 언어로 컴퓨터를 이해시키는 것이었다면,자연어 처리는 기계가 인간의 언어를 이해하여 소통하는 것이다, 즉 인간의 언어로 명령을 내리면 기계가 자연어 처리를 통해 인간 언어를 이해하여 처리할 수 있다. * 전통적인 프로그래밍 언어* 자연어 처리 이러한 자연어 처리는 온라인 매체 발달에 따라 비정형 데이터 (ex. 텍스트 파일, 소셜 미디어 등) 가 급증한 것에 중요도가 높아졌으며정보 검색, 문서 자동 분류, 신문 기사 클러스터링 등 다양한 곳에서 응용 되고 있다. 하지만, 한국어 언어는 언어적 특성 때문에 자연어 처리에 있어 어려움이 따르는데, 크게 5가지 이유가 있다.1. 구어와 문어와의 차이2. 띄어쓰기3. 높임말4, 동음이의어지만 운율적 요소에 따른 의미 변화 ..