1. 首先解释一下什么是TF-IDF。
TF-IDF(Term Frequency-Inverse Document Frequency),汉译为词频-逆文本频率指数。
一般来说,假设一篇文章中的某个词i出现的词数为Nwi,这篇文章总词数为N,则这个词对应的词频TFi=Nwi/N。
逆文本频率指数IDF一般用于表示一个词的权重,其求解办法为IDFi=log(D/Dw),这里D指的是文本总量,Dw指的是词i在Dw篇文本中出现过。
则由TF与IDF的值可以计算出某个词i与文本的相关度x=IDFi*TFi。
2. 余弦定理与文本分类
计算文本之间的相似度可以使用余弦定理,那么我们就需要将两篇文本表示成特征向量的形式。
我们假设有一个词量为6400的词典,这个词典基本涵盖了我们语料库里的词语,则每篇文章都可以表示成一个6400维的特征向量,每一维度都对应一个词语,每一维度的数值即为上述的相关度。
则通过计算两篇文章的特征向量之间的角度,即可以知道这两篇文章所使用的词汇大致方向是否相同,即可以得出两篇文章的相似度。
基于文章之间的相似度即可采取自底向上不断合并的方法(Florian,1999),首先将文本两两进行余弦相似度计算,得出的余弦值大于某个阈值的两篇文本归为一类,如此可以得到几篇小类。
再将新的小类作为一整篇新的文本,再两两计算余弦相似度,可以得到稍微大一些的几类,如此类推,直到某一类太大以致类内文本相似度太小为止。
版权声明:本文为Artemis_Wang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。