저번주 자연어처리는 따로 글로 정리하도록 하고... 생각보다 난이도가 어려워서 위키독스와 책을 계속 보느라고 내 언어로 정리를 못했다.. # 텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해 할 수 있도록 텍스트를 적절하게 숫자로 변환하는 과정이 워드 임베딩이라는 방법을 사용한다. # 원-핫 인코딩을 통해서 나온 원-핫 벡터는 단어가 있는 index만 1로 표현하고 나머지를 1로 표현하는 희소 벡터 형태를 가진다. 하지만 matrix의 크기가 단어의 개수를 따라가기 때문에, 단어의 개수가 늘어날 수록 차원이 엄청 나게 늘어나는 문제가 있고, 이에 따라 공간적 낭비가 엄청나게 심하게 일어납니다. 그리고 무엇보다 그냥 인덱스만 나타내는 것이기 때문에 단어의 의미를 표현하지 못합니다..