텍스트 전처리텍스트 전처리란, 분석 하기 전 텍스트를 분석에 적합한 형태로 변환하는 작업이다.전처리 단계로는 토큰화, 형태소 분석, 품사 태깅, 원형 복원, 불용어 처리가 있다.전처리는 분석결과와 모델 성능에 직접 영향을 미치기 때문에 매우 중요하다 진리의 GIGO토큰화 (Tokenization)텍스트를 자연어 처리를 위해 분리하는 것이다.토근화는 문장별로 분리하는 문장 토큰화와, 단어별로 분리하는 단어 토큰화로 구분된다.한국어의 경우 토큰화와 형태소 분석 단계가 혼용되는데, 형태소 분석이 되어야만 토큰화가 가능하기 때문이다. * 형태소 분석 : 뜻을 가진 가장 작은 단위인 형태소로 분리하는 것문장 토큰화문장을 기준으로 토큰화하는 것으로,온점, 느낌표, 물음표 등으로 너무 단순하게 분리할 경우에..
머신러닝의 핵심 아이디어는 X와 Y의 관계를 찾는 것인데 주 관심은 Y, 즉 예측하려는 대상에 있다.Y를 설명하는 X변수는 보통 여러 개로, X변수들을 수많은 방식 조합하여 Y를 표현할 수 있기에 여러개의 X와 Y의 관계를 찾는 것이다.수학적으로 표현하면, Y = f (X1, X2, X3, ... , Xn) 이다. * 머신러닝에서 함수는 모델이 됨X와 Y의 관계 찾기 이렇게 X, Y로 함수식을 찾아야하는데, 관계가 복잡해질 수록 함수식을 찾기 어렵기에 X값 앞에 무언가가 붙을 수도 있고, X값만으로 Y값을 찾지 못할 수도 있다.X값만으로 식을 표현하지 못할 때는 앱실론 ( ε) 을 통해 식을 표현할 수 있다. Y = ?X1 + ?X2 + ε 를 좀 더 포멀하게 표현하기 위해 Y = w1X1 + w2X..
변수는 원인이 되는 X변수(독립변수) , 결과가 되는 Y변수(종속변수) 로 나눌 수 있다. 예측은 수치 예측과 범주 예측으로 나눌 수 있는데, 수치 예측은 Y변수가 연속형이고, 범주 예측은 Y변수가 범주형이다.* 연속형 데이터 : 데이터 자체가 숫자로 표현됨 ex. 가격, 길이 범주형 데이터 : 원칙적으로 데이터를 숫자로 표현할 수 없음 ex. 제품불량여부 수치 예측 (Regression)결과가 수치인 값을 예측하는 것이다.수치예측 예로는 중고차 가격 예측 등이 있다. 범주 예측 (분류, Classification)결과가 어느 분류에 포함되는지를 예측하는 것이다.범주 예측 예로는 불량 예측, 고객 이탈 여부 예측, 스팸 여부 예 등이 있다. 출처김성범 [교수 / 산업경영공학부] # 핵심 머신러닝..
전통적인 프로그래밍 언어가 인간이 기계 언어로 컴퓨터를 이해시키는 것이었다면,자연어 처리는 기계가 인간의 언어를 이해하여 소통하는 것이다, 즉 인간의 언어로 명령을 내리면 기계가 자연어 처리를 통해 인간 언어를 이해하여 처리할 수 있다. * 전통적인 프로그래밍 언어* 자연어 처리 이러한 자연어 처리는 온라인 매체 발달에 따라 비정형 데이터 (ex. 텍스트 파일, 소셜 미디어 등) 가 급증한 것에 중요도가 높아졌으며정보 검색, 문서 자동 분류, 신문 기사 클러스터링 등 다양한 곳에서 응용 되고 있다. 하지만, 한국어 언어는 언어적 특성 때문에 자연어 처리에 있어 어려움이 따르는데, 크게 5가지 이유가 있다.1. 구어와 문어와의 차이2. 띄어쓰기3. 높임말4, 동음이의어지만 운율적 요소에 따른 의미 변화 ..
머신러닝Machine LearningMachine learned / by computer languages / to perform the algorithm / created by human인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계 (컴퓨터) 에게 학습시키는 행위* 알고리즘 : 문제를 해결하기 위한 방법론들의 집합 ex. Gradient, Backpropagation* 컴퓨터 언어 : 인간과 컴퓨터가 소통하기 위한 수단 ex. C++, Python머신러닝 모델링함수가 X와 함수식을 주고 Y가 뭔지 묻는 거라면, 머신러닝은 X와 Y가 주어졌을 때 함수식을 찾는 것이다. 즉 함수식을 찾는 것이 머신러닝인데, X와 Y가 수만개 이상이 존재하면 그 사이에서 X, Y 사이 관계를 설명하는 함수식을 찾는 것..