使用python实现文件去重(一般性的文本处理)

在实际工作中经常会遇到很多重复的信息,需要我们做去重复处理,今天下午写了个python的脚本实现文件去重功能,这个脚本能够满足大部分非特定的需求,但是针对seo词库仍然无法满足需求,分享给大家(针对seo词库的去重请查看python实现seo词库去重脚本—定制版处理数据的速度一般,可以接受,测试了下,上个厕所的时间处理了600万行数据。

 Python |  copy code |? 
01
#coding:utf-8
02
ciku=open(r'all.csv','r')   #打开需要去重文件
03
xieci=open(r'quchong.csv','w')   #打开处理后存放的文件
04
cikus=ciku.readlines() 
05
list2 = {}.fromkeys(cikus).keys()     #列表去重方法,将列表数据当作字典的键写入字典,依据字典键不可重复的特性去重
06
i=1
07
for line in list2:
08
	if line[0]!=',':
09
		# print line[0:-1].decode('utf-8').encode('gbk')   #数据量太多,会出现编码报错。蛋疼
10
		print  u"写入第:"+`i`+u" 个"
11
		i+=1
12
		xieci.writelines(line)
13
xieci.close()

One thought on “使用python实现文件去重(一般性的文本处理)

Comments are closed.