做bertopic时候,为了获得有用的词汇,要做的步骤

① Tokenization(分词)✅ 必做

作用

  • 把句子切成单词

为什么和形态素分析“功能相似”

  • 都是在决定 “最小分析单位是什么”

常用库

  • spaCy

  • NLTK


② Lemmatization(词形还原)✅ 强烈推荐

作用

running → run studies → study better → good

对位韩语形态素分析的核心点

把“变形后的词”统一成“基本形”

这在主题建模(c-TF-IDF)里非常重要。


③ Stopword Removal(停用词去除)✅ 必做

作用

  • 去掉 the, is, are, of, to …

对 BERTopic 的意义

  • 防止高频虚词“污染主题关键词”


④ POS Filtering(可选,但高级)

作用

  • 只保留名词 / 形容词

  • 提高主题可解释性

示例

NOUN + ADJ only

评论

此博客中的热门博文

20世纪最后十年(1990年代)被认为是企业快速发展的时期的原因

职位分析访谈案例:市场营销专员

3个财务报表的基本报告