python实现seo词库去重脚本—定制版

之前分享了一个python实现数据去重的脚本,对付一般的需求足以满足,但是针对seo词库的特殊去重,需要做些改变,原理都一样,使用字典键的唯一性来实现我们的目标。(针对同一个词库(600w行)使用这个脚本去重比之前的脚本多去掉了一万多行的重复数据),下面贴出代码

 Python |  copy code |? 
01
#coding:utf-8
02
#词库的数据格式为:
03
#关键字,日搜索量,月搜索量
04
#爱玛,2,4
05
#雅迪,2,5
06
#绿源,3,55
07
 
08
ciku=open(r'ciku1.csv','r')   #打开需要去重文件,可自行修改
09
xieru=open(r'ciku.csv','w')  #去重的文件保存到ciku.csv去,可自行修改
10
cikus=ciku.readlines()
11
zidian={}   #创建个空字典
12
for x in cikus:
13
	try:
14
		x=x.split(',')    #sqlit 切割,通过字符串‘,’切割。
15
		x1=x[0]
16
		leng=len(x)      
17
		if leng==3:		#判断列表长度是否是3,不是3证明词库数据有一定的问题,舍弃,预防报错。
18
			x2=x[1]+','+x[2]
19
			zidian1={x1:x2}        #关键字为键,后面的为值
20
			zidian.update(zidian1)   #update添加到字典,类似列表的append的用法,向zidian里面添加zidian1
21
	except ValueError :
22
		pass
23
for key in zidian.keys():
24
	ci=key+','+zidian[key]
25
	try:
26
		print ci[0:-1].decode('utf-8').encode('gbk')
27
	except ValueError:
28
		pass
29
	xieru.writelines(ci)
30
ciku.close()
31
xieru.close()
32

One thought on “python实现seo词库去重脚本—定制版

Comments are closed.