计算文章权重TF-IDF。

嗯。tf-idf是个好东西,有必要计算下。下面是python下的jieba模块实现的文章tf-idf的计算结果。

 Python |  copy code |? 
01
#coding:utf-8
02
import jieba
03
import jieba.analyse    #计算tf-idf需要调用此模块jieba.analyse
04
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()] 
05
#将停止词文件保存到列表stopkey,停止词在网上下载的。
06
neirong = open(r"ceshi1.txt","r").read()  #导入需要计算的内容
07
zidian={}
08
fenci=jieba.cut_for_search(neirong)   #搜索引擎模式分词
09
for fc in fenci:
10
        if fc in zidian:                
11
                zidian[fc]+=1           #字典中如果存在键,键值加1,
12
        else:
13
                zidian.setdefault(fc,1)   #字典中如果不存在键,就加入键,键值设置为1
14
quanzhong=jieba.analyse.extract_tags(neirong,topK=20)       #计算tf-idf,输出前20的权重词。
15
for qg in quanzhong:
16
        if qg in stopkey:       #如果qg存在停止词stopkey里面,则pass
17
                pass
18
        else:                                        #不存在的话就输出qg和出现qg的次数
19
                print qg+","+`zidian[qg]`       #输出权重词和权重词出现的次数
20

以zero以前的一篇文章“TF-IDF框架与其可以衍生到的SEO知识”内容为例,输出结果是:QQ截图20140331110724 201x300 计算文章权重TF IDF。