博文

目前显示的是 2026的博文

做bertopic时候,为了获得有用的词汇,要做的步骤

① Tokenization(分词)✅ 必做 作用 把句子切成单词 为什么和形态素分析“功能相似” 都是在决定 “最小分析单位是什么” 常用库 spaCy NLTK ② Lemmatization(词形还原)✅ 强烈推荐 作用 running → run studies → study better → good 对位韩语形态素分析的核心点 把“变形后的词”统一成“基本形” 这在主题建模(c-TF-IDF)里非常重要。 ③ Stopword Removal(停用词去除)✅ 必做 作用 去掉 the, is, are, of, to … 对 BERTopic 的意义 防止高频虚词“污染主题关键词” ④ POS Filtering(可选,但高级) 作用 只保留名词 / 形容词 提高主题可解释性 示例 NOUN + ADJ only