TF-IDF 术语频次-逆文档频次

术语频次-逆文档频次

用IF-IDF,而不是直接使用词语出现的次数来分析语料,主要是为了减弱语料中频繁出现而信息量很少的词语的权重。

术语频次矩阵TF中的元素TF_{ij}表示术语i在文档j中出现的频次,通常用同文档中出现频次最多的词语的出现次数进行标准化。

TF_{ij} = frac{f_{ij}}{max_{k}f_{kj}}

逆文档频次向量IDF_i = log(frac{N}{n_i})

其中:N为文档总数,n_i为包含术语i的文档数

术语频次-逆文档频次矩阵W中的元素

QQ截图20150302113753

Scikit-learn的特征提取功能中有TF-IDF的提取。注意到scikit-learn的TF-IDF提取函数需要的输入是一个词频矩阵,行代表文档,列代表词语,因此需要转置上面获得的F矩阵。并且scikit-learn中用的计算公式是:TF_{ij}times (IDF_{i} + 1),另外标准化的方式也不一样。

One thought on “TF-IDF 术语频次-逆文档频次

  1. Pingback: content based recommendation 基于内容的推荐系统 - Ryan's Cabinet of Curiosities

Leave a Reply

Your email address will not be published. Required fields are marked *