특이사항 특성상 겹치는 데이터가 많고 각 시간 마다 나올 수 있는 단어가 한정적이라고 판단 자연어 처리로 오타 및 불용어 처리 이후 주제를 찾을 수 있는 방법을 찾음 LDA 하이퍼파라미터 튜닝으로 49개의 토픽 도출 likelihood를 기반으로 주제를 추론하는데 각 주제 마다 겹치는 단어들이 너무 많음 (곡자, 교반, 온도, 수분기 등) 때문에 perplexity, coherence가 매우 좋지 않음 (논문 상 음수가 나올 수 없는데 음수로 나옴) , 심지어 BoW 방식이라 단어의 순서가 고려되지 않아서 문장의 뜻 파괴 BERTopic BERTopic은 각 문서 당 주제가 하나라고 추정해서 여러 개의 주제가 들어간 문장을 하나의 주제로 합쳐버림 ex) A + B 와 A만 있는 문장이 같은 주제로 엮임..