사실 문제 선지 4개가 제일 헷갈렸던 문제입니다. 등장 빈도가 적은 단어 제거: 텍스트 데이터에서 특정 단어가 매우 적게 등장한다면, 그 단어는 분석에 큰 영향을 미치지 않을 가능성이 높습니다. 이러한 단어를 제거함으로써 데이터의 크기를 줄이고 계산 효율성을 높일 수 있습니다. 길이가 짧은 단어 제거: 길이가 짧은 단어(예: "a", "an", "the" 등)는 종종 노이즈로 작용할 수 있으며, 분석에 큰 의미를 가지지 않을 수 있습니다. 이러한 단어를 제거하면 분석의 정확성을 높일 수 있습니다. 대소문자 구분: 대소문자 구분은 텍스트 정제 작업에 일반적으로 포함되지 않습니다. 대소문자 구분은 분석의 목적과 데이터의 특성에 따라 선택적으로 적용될 수 있으며, 일반적인 텍스트 정제 작업과는 직접적인 관련이..