支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起

这段时间最热闹的可能就是支付宝红包。今天爆出一个方案,当我们点击一个链接时,可直接在微信内唤起支付宝,并直接领取红包而不需要用户确认,被很多朋友讨论。看到这个后,我这边通过fiddler尝试抓包,轻松把包抓了下来,就两个文件。一个html文件一个js文件,我们来一个一个的解释下。

html文件222 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起

如图所示,这个很简单,就一个功能,加载一个js文件”hongbao1.js”,所有的秘密都在这个js文件里面,接下来慢慢看看。

Js文件

233 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起343434 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起

如上代码,之所以可以在微信内直接打开支付宝,是因为这里利用了微信浏览器的WeixinJSBridge方法,调起系统原生浏览器并访问链接,以此来绕过微信的屏蔽,我们同样可以通过这个方法来绕过微信内无法直接唤起app的问题。

34433434 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起

来继续说支付宝红包,我们拿到这个代码后会发现这里有个唤起链接,我最开始以为要替换后面的部分,后来经过大佬指点,将支付宝红包的推广二维码拿下来,通过其他工具解析出的URL就是这个链接。如果懒得找工具,直接在微信内识别这个二维码也能看到链接。

3434344 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起

我们将这个链接替换到这个代码里面以后,保存代码,上传到服务器后,就可以使用啦。

点击链接查看效果

关注公众号后,回复“芝麻开门”,领取源代码。

拾荒者二维码 支付宝红包跳转代码及教程分享,可用于APP在微信内直接唤起2018-01-15 15:47:02:

本方法已经被微信封了,大家不用测试了。

微信公众号怎样增粉?如何推广

今天看到一个问题“微信公众号怎样增粉?” 写了个答案,分享下。

首先这个问题太泛,没办法给予具体答案,不同行业套路都是不一样的。既然问题比较大,那就说一些虚的东西

1、产品定位

首先你的产品定位是什么?

1、行业:很多行业是不适合做公众号运营的,比如你一个卖肥皂,就比卖化妆品的难做,吸粉难度不是一个级别的。

2、吸引力:你一个卖肥皂的想做公众号运营,就必须加入一些其他的东西,比如杜蕾斯加入了“污” ,你所在的行业必须要有一个吸引力,你想增粉,必须搞定这一步。

3、用户规模:这直接决定你增粉的量级,一些小众领域也许一天增加100粉丝就非常了不起了。

4、用户在哪里:toC的产品和toB的产品用户平时喜欢活跃的地方也不一样,你要根据你产品的定位找到你的用户在哪里。QQ群,微信群,今日头条,快手这些地方可能都是你的用户所在地

 微信公众号怎样增粉?如何推广 微信公众号怎样增粉?如何推广

2、用户特性

你的用户特性是什么?你知道他们真正是怎么想的嘛?

1、价值观:不同的群体用户价值观是不同的,你的内容要符合你用户的基本价值观。比如咪蒙的文章,其实我们都知道有各种问题,但为什么有那么多粉丝?因为她比我们更懂那群人的思维方式,更了解他们的价值观。

2、平台:这里有些朋友可能不会觉得有什么,其实差距非常大,同样的定位,你会发现不同平台的用户表现是不同的,其实这里也是上面说的价值观不同,一线城市,二线城市,三线城市,男性,女性,高学历,低学历等等,我们可以划分成不同的群体,同样的一件事情,就会有无数总大家想要的答案。记住,我们写文章很多时候可能不是为了传播什么,而是让用户内心高潮。举个例子:同样写科技类文章,在微信上,说腾讯怎么怎么好,必然会得到拥护,但是如果在今日头条上面你就会被喷死,不信你可以看看我最近的一些文章。这是一个很有意思的事情。

 微信公众号怎样增粉?如何推广

3、内容为王

这是一段没用的但有必须强调的废话,所有人知道做自媒体内容是根本,但其实每个人受限于自己的能力等各个方面,这一块在短期内很难提升。且在如今微信公众号的生态里面,红利早已经没有。靠内容,没资源没钱,基本就是等死。但如果你的内容不行,同样无法搞定用户的留存和转化,所以这也是一个很有意思的事情。

 微信公众号怎样增粉?如何推广

4、推广

1、这里我相信大部分人都会想到什么点赞送礼品,文章转发活动,投票活动,QQ群,微信群求关注,这种太多了,但说这些都没价值,你百度下太多了,其实我相信你也去按照上面的做了,发现没效果吧。如果你连百度查这些基本东西的能力都没有,那么还是不建议你做自媒体了。这是个刀刀见血的行业。

2、前期冷启动阶段增粉,在现在的微信公众号生态里面,你只有3种方案:资源、钱、内容。

2.1、资源:你的公众号,你有资源可以利用?比如:中国移动推广,可以依靠自己几十年的用户积累,流量赠送等手段来快速获客。在比如:你开发了一个非常实用的H5工具放在公众号下。再比如一些其他地方需要付费才能获取的软件,书籍,音乐什么的。在或者有大佬可以依靠,一开始就给你导流。

2.2、钱:投放广点通,找大号合作给你推广,做各种付费活动。等等,花钱也是很难的事情,如何最小成本获取更多用户,就需要看我前面3大点了,当然还远远不够,需要不断的测试迭代。

2.3、内容:依靠非常好的内容来快速吸引用户。这个是所有推广手段里面最难的一种,比如你是某个领域的大牛,你写的文章非常具有颠覆性,这样你的文章就可以快速冷启动吸粉,所有的简单的推广手段都有效,哪怕是QQ群,微信群转发推广。或者你是咪蒙,但你不是,你就算知道咪蒙用户的所有特点,你都无法写出咪蒙的文章,这是需要积累的,我一直认为内容创业是门槛最高的一种,咪蒙的文章不是你学就能学的到的。所以基本上来说,如果你没有这一块的专业能力或者天分,那么就别指望了。

上面几点说完,你可能会说,我一样都不具备,我怎样去做推广,那么我告诉你,如果是你公司的公众号,建议你换个公司,不要耽误自己的青春了。如果是你自己的公众号,我建议你考虑下我说的这些对不对。毕竟,我说的都是错的。

互联网媒体的10宗罪

一个天天从36kr和虎嗅去了解互联网的人,你怎么可能把的了互联网的脉!!你怎么可能不入坑!你看到的互联网根本就是扭曲的。是媒体层面的互联网,你按照这个思路去找项目,去做事情,你不入坑谁入坑? ——曹政

什么是互联网媒体呢?

首先我们了解下这些媒体(特指互联网相关的媒体),媒体发的文章通常都是带着利益交换的,很多文章其实都是软文罢了,对于他们来说是否真实根本不重要。

为什么说媒体上面的互联网是扭曲的?

1、 媒体上的互联网趋势常常是被公关后的结果,背后推手制造出假繁荣假数据假趋势,骗投资,骗人跟他一起玩。

2、 媒体网站的编辑往往是没有实战经验的,纸上谈兵,信他们,活该你被坑。

3、 媒体上会放大很多特例极端的事件当作案例来讲解,这是媒体的本质,喜欢个案。

4、 媒体会盲目求新技术,不考虑应用场景盲目的解读新技术。为了保持自己的前沿性也是拼了。

5、 媒体会炒作起一些新概念,形成一场集体的狂欢骗局,最好的案例就是:互联网思维,呵呵,那些满嘴互联网思维的人不是为了忽悠傻逼就是自己是傻逼。

6、 不懂装懂,没关系大家都在忽悠,我也忽悠好了,各大媒体网站胡乱解说大数据,云这些东西,最后原本高大上的东西搞的谁都不敢乱说,怕被当成忽悠。
7、 制造各种假数据,标题党。一群可怜的创业者被忽悠的团团转。

8、 公知作怪,公知利用自己舆论上面的优势在互联网媒体上面发表各种长篇大论,唱衰各种行业或技术,指点江山,其实他们对这些根本就没有深入的了解过。

9、 整天这个模式,那个模式,这个生态,那个闭环。O2O才是未来,B2C必死无疑。微博已死,微信已经取代了微博。

10、暂时就这么多,想起来了再补,真要了解互联网,我们就要深入互联网,先了解他的产品,运营,技术等。然后再用自己的心和专业能力去观察吧。

浅谈意识阶梯在SEO及运营领域的运用

通过意识阶梯来划分市场,把用户划分到不同的市场去,通过意识阶梯模型,精准的锁定不同目标市场的用户,满足用户的需求,达到转化的目地 (我们这里讨论的转化指的是用户产生购买行为) 。

首先我们来看一个网站文案广告:

“你是否需要一辆电动车代步呢?xx商城提供物美价廉的电动车。多,快,好,省。”咋一看,好像是满足的用户的需求,但是他满足了全部市场用户的需求了嘛?带着这个疑问,我们开始下面的讨论 。

我们现在开始来了解下意识阶梯模型:

222 浅谈意识阶梯在SEO及运营领域的运用

  • 某种意义上来说,每个人都是从阶梯0开始的,最开始的时候每个人都没有意识到自己的需求。
  • 只有到了第五个阶梯,用户才会真正的产生购买行为,也就是我们需要的转化。
  • 在这个排列中,每个层次的用户都是一层一层的登上阶梯的,符合逻辑。
  • 因此为了达到转化的目地,我们需要把用户一层一层的进行引导,一直到最上面的阶梯。

我们通过意识阶梯模型对xx电动车商城进行市场划分:

  • 有些人认为自己并不需要买电动车,或者并没有意识到买电动车的必要。
  • 有些人觉得有一辆电动车进行代步能方便一些,但到底怎么买没有方案。
  • 有些人找到了一些购买方案,但是对于xx电动车商城一无所知。
  • 有些人知道xx电动车商城,但并不知道与其他可以卖车的商城比较有什么优势。
  • 有些人已经对xx电动车商城很了解,并很信任这个商城的产品,但没有决定好要购买。
  • 最后,有一批用户觉得xx电动车商城可以,想要购买上面的车。

我们所有的潜在用户都在这个清单上面,每一项代表了一个不同的细分用户市场,针对每个细分的用户市场,我们应该制定相符合的策略方法。如果用户都没有意识到产品的存在及其优势,“打着xx商城提供物美价廉的电动车”的广告是没有任何意义的,同样在里面写“多,快,好,省”也不可能吸引用户的注意,因为他们知道很多商品都在促销,“多,快,好,省”你比的过京东嘛?

意识阶梯的运用:

运用意识阶梯,首先我们需要明确几个问题的答案。

  • 我们的用户现在处于怎样的一个意识阶梯上?
  • 这些用户正在寻找什么?
  • 在这个阶梯上,用户最需要的是什么?
  • 我们需要怎样说服用户,让用户登上更高的阶梯呢?

明确这些问题以后,针对不同的细分市场下的用户,我们对电动车商城进行对应的SEO策略及网站运营方案的制定。

  • 阶梯0,有些人认为自己并不需要买电动车,或者并没有意识到买电动车的必要。

    这个阶梯的用户没有意识的到需求,甚至不知道电动车的存在,那么在这个阶段,我们是没有办法进行SEO这一类的操作,来让他们来访问网站的,这里需要我们来“创造需求”但这往往代价是恐怖的,既然用户不会主动来寻找这个需求,那我们唯一的解决方案就是在各种媒介,线下用户看的到的地方发布信息,讲述网上购买电动车的好处,以及电动车环保,方便等,这种教导的方式花费很大,同时也为竞争对手创造了市场,对于小公司而言,一般不会选择这么做,所以先暂时放弃这一块用户市场的转化。

  • 阶梯1,有些人觉得有一辆电动车进行代步能方便一些,但到底怎么买没有方案。

      这个阶梯的用户,相对与上个阶梯的用户来说,已经容易转化太多了。我们通过用户会在意的       问题作为一个突破口来制作登录页面,这类页面优化一类关键词,例如:“电 动车使用起来方便嘛”,“有必要买电动车嘛”, ”电动车危险嘛”将用户带入到网站上面来,通过这类页面像用户灌输电动车的好处,安全性等等,然后开始像用户介绍一些购买电动车的方案,线下专卖店,线上商城(京东,淘宝,xx电动车商城)这个时候用户已经不知不觉进入了阶梯2中了,如果用户感兴趣就会继续看下去

  • 阶梯2:有些人找到了一些购买方案,但是对于xx电动车商城一无所知。

    这类用户已经有一些自己的购买方案了,这时候他们会开始了解哪个方案是最好的,这时候他们会开始比较线上,线下购买的区别,各个品牌电动车的好坏,车型,图片,价格等等。这时候我们根据用户的这些需求制作相对应的登录页面来满足用户的需求,比如:根据电动车品牌制作电动车产品库,收集各个品牌电动车的车型,图片,价格等数据。在列表页承载“(品牌)+电动车”,“(品牌)+电动车价格”,“(品牌)+电动车图片”等词。在详情页承载“(品牌)(型号)+电动车”,“(品牌)(型号)+电动车价格”,“(品牌)(型号)+电动车图片”等词。

    通过进一步的关键词研究,我们发现用户基本上不知道我们的电动车商城,通过对于词库的综合分析我们发现我们从这个阶梯市场可以收获利益最大化,完成最大的转化,所以我们首先要拉来这一部分用户到我们网站上面来,然后我们针对这些页面的用户开始展示我们的电动车商城,展示我们的优点,对用户暗示,让用户来我们商城购买。当用户接受了我们的暗示的时候,就进入了第3个阶段。

  • 阶梯3:有些人知道xx电动车商城,但并不知道与其他可以卖车的商城比较有什么优势。

    对于这些知道xx电动车商城的用户,我们需要像他们展示电动车商城的正面的内容,通过关键词分析,他们往往会搜索“xx电动车商城怎么样”,“xx电动车商城的车谁买过,质量如何”,”xx电动车商城的车便宜嘛“ 我们根据这类词制作相对应的登录页面,然后进行适当的SEO优化 。在这个阶梯的用户,我们主要像他们展示我们的优势,与竞争对手网站对比的优点,当用户看完这些的时候,用户已经开始进入了阶梯4。

  • 阶梯4:有些人已经对xx电动车商城很了解,并很信任这个商城的产品,但没有决定好要购买。

    这类用户已经知道商城的优势和产品的好处,但往往这样还不够,需要更多的刺激,我们需要更多的理由来说服用户,这个能够改善他的生活,在用户的大脑中形成一副画面,在我们商城买了这个产品,生活会变的更好,再也不用担心堵车,上班迟到这类事情了。还可以通过第三方的认可来增强可信度,例如:购买产品用户的评价,用户满意的”感谢信“。当我们通过这些说服用户购买后,则进入了第5个阶梯。

  • 阶梯5:最后,有一批用户觉得xx电动车商城可以,想要购买上面的车。

    我们的目地就是为了促成交易,这个阶梯的用户,有些是我们引导过来的,有些是直接冲过来购买了,可能会搜索“xx电动车商城“,”xx电动车商城促销车“等词,我们建立相关登录页面,进行适当优化。

这里我们更多需要解决的是让用户可以无障碍的完成付款购买流程,购物车,付款等关键环节的的产品设计,帮助用户跑到顺利跑到终点,网站完成一次转化。

写在最后:

这里大家应该感觉到SEO更多的是作为一个工具在使用,策略的制定也是通过网站运营及转化的角度出发的,已经不是单纯的做流量,个人认为对于我们SEOer来说,走出SEO来做SEO才会更有价值,也是我们的一个出路,不会那么累。看上去,像条狗。汪…

最后,本人能力有限、文笔渣渣、思维混乱,上述文字诸多不合理地方,望批评指教。

Cygwin安装详解,快速安装所有插件,无需联网

前端时间的一篇文章中小型网站日志分析深入浅出之SEO实战,好几个人问我安装Cygwin的安装和插件安装相关问题,这里科普下,其实网上下载的安装软件里面有详细的安装过程解释,注意下就知道了。

Cygwin下载:

链接: http://pan.baidu.com/s/1c0iXM6G  密码: pgfo

安装详解:

1. 双击运行cyg_win_setup.exe 安装程序。

2.       单击【下一步】,到了如下图的界面,选择“Install from Local Diretory”

1 Cygwin安装详解,快速安装所有插件,无需联网

3.       继续【下一步】,如下图,填写安装路径

2 Cygwin安装详解,快速安装所有插件,无需联网

4.       再【下一步】,会选择安装包的目录,一般不用填写,默认解压的当前就是安装包的目录,如不是,请手动切换到解压的目录
3 Cygwin安装详解,快速安装所有插件,无需联网
5.       【下一步】选择要安装的插件,请选择【AllφInsatll】,鼠标点击红色部分,这样就可以实现无需联网,一次性安装所有插件的需求,           如果你的Cygwin版本不行,请安装我给的版本,并按照我上述安装流程来。

4 Cygwin安装详解,快速安装所有插件,无需联网

6.       【下一步】,开始安装,安装完成后,如下界面,有两个选项可选,分别为“创建桌面快捷方式”、“添加快捷方式到开始菜单”,建议全部选中,单击【完成】。
5 Cygwin安装详解,快速安装所有插件,无需联网

修改默认目录:

这一步根据个人需求来,不一定要改,Cygwin安装后默认会进入Cygwin虚拟目录,要是想让Cygwin一启动就进入某一指定的目录的话只要用文本编辑器打开Cygwin安装目录下home/user name/.bashrc文件(注:user name指你安装Cygwin的计算机用户名。如:‘hilatolo’),在文件末尾加入“cd 你要设置的默认路径”即可。例如若想让Cygwin 从f盘 shell 路径启动,在bashrc末尾加入“cd f:/shell”即可。

python查询百度收录(多线程版)

查询收录数,收录率,未收录链接,收录的链接
需要安装pycurl模块
需要查询的URL放在url.csv里面文件必须是utf-8格式
运行BDshoulu.py文件
在Windows下面的命令提示符下运行会乱码,print的内容会乱码,请自行转码,不影响结果。
遇到验证码的时候会停止5分钟重新查
线程建议不要开太多,否则会导致封IP

 Python |  copy code |? 
001
#coding:utf-8
002
import pycurl,re,StringIO
003
import  threading,Queue,time
004
 
005
class caiji:
006
	#打开网页  url:网页URL
007
	def html(self,url):
008
		while 1:
009
			try:
010
				b=StringIO.StringIO()
011
				c=pycurl.Curl()
012
				c.setopt(pycurl.URL,url) #打开URL
013
				c.setopt(pycurl.FOLLOWLOCATION,2) #允许跟踪来源,有参数:1和2
014
				c.setopt(pycurl.ENCODING, 'gzip')  #开启gzip压缩提高下载速度
015
				c.setopt(pycurl.NOSIGNAL, True)   #开启后多线程不会报错
016
				c.setopt(pycurl.MAXREDIRS,1) #最大重定向次数,0表示不重定向
017
				c.setopt(pycurl.CONNECTTIMEOUT,60) #链接超时
018
				c.setopt(pycurl.TIMEOUT,30)  #下载超时
019
				c.setopt(pycurl.USERAGENT,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)')
020
				#pycurl.USERAGENT  模拟浏览器
021
				c.setopt(pycurl.WRITEFUNCTION, b.write)  #回调写入字符串缓存
022
				c.perform() #执行上述访问网址的操作
023
				# print c.getinfo(pycurl.HTTP_CODE)
024
				c.close()
025
				html=b.getvalue()   #读取b中的数据
026
				return html    #跳出并返回html
027
			except:
028
				continue
029
 
030
 
031
wurl=open(r"url1.csv",'a')
032
 
033
caiji=caiji()
034
 
035
class count:
036
	def __init__(self):
037
		self.shoulu=0
038
		self.wshoulu=0
039
		self.i=0
040
		self.lock=threading.Lock()
041
 
042
 
043
	def c_wshoulu(self):
044
		self.lock.acquire()
045
		self.wshoulu+=1
046
		wshoulu=self.wshoulu
047
		self.lock.release()
048
		return wshoulu
049
 
050
 
051
	def c_sl(self):
052
		self.lock.acquire()
053
		self.shoulu+=1
054
		shoulu=self.shoulu
055
		self.lock.release()
056
		return shoulu
057
 
058
 
059
	def c_i(self):
060
		self.lock.acquire()
061
		self.i+=1
062
		i=self.i
063
		self.lock.release()
064
		return i
065
 
066
count=count()
067
 
068
class th(threading.Thread):
069
	def __init__(self,qurl):
070
		threading.Thread.__init__(self)
071
		self.qurl=qurl
072
		self.lock=threading.Lock()
073
		self.cond=threading.Condition()
074
 
075
 
076
	def run(self):
077
		while 1:
078
			ddc=self.qurl.get()
079
			if ddc is  None:
080
				break
081
			while 1:
082
				bdhtm=caiji.html('http://www.baidu.com/s?wd='+ddc)
083
				self.lock.acquire()
084
 
085
				if '百度为您找到相关结果约' in bdhtm:
086
					i=count.c_i()
087
					print '第%s条, %s ,收录'% (i,ddc)
088
					wurl.writelines('第%s条, %s ,收录\n'% (i,ddc))
089
					count.c_sl()
090
					break
091
 
092
				elif '抱歉,没有找到与' in bdhtm:
093
					i=count.c_i()
094
					print '第%s条, %s ,未收录'% (i,ddc)
095
					wurl.writelines('第%s条, %s ,未收录\n'% (i,ddc))
096
					count.c_wshoulu()
097
					break
098
 
099
				elif 'http://verify.baidu.com/' in bdhtm:
100
					print ddc,'出现验证码,等待5分钟后自动开始'
101
					self.lock.release()
102
					time.sleep(500)
103
					continue
104
 
105
				else:
106
					print 'Error'
107
					break
108
			self.lock.release()
109
 
110
 
111
qurl=Queue.Queue(0)
112
threadCount=6    #开启线程数,默认6个线程
113
 
114
ths=[]
115
for t in range(threadCount):
116
	thread=th(qurl)
117
	thread.start()
118
	ths.append(thread)
119
 
120
for ddc in open(r'url.csv'):   #导入需要查询的URL文件,格式必须是utf-8
121
	ddc=ddc[0:-1]
122
	qurl.put(ddc)
123
 
124
for tt in range(threadCount):
125
	qurl.put(None)
126
 
127
for t in ths:
128
	t.join()
129
 
130
sl=count.c_sl()-1
131
 
132
print  '\n收录率:'+str(round(float(sl)/float(count.c_i()-1)*100,2)),"%"
133
print '收录:%s 条'%str(sl)
134
print '未收录:%s 条'%str(count.c_wshoulu()-1)
135
 
136
 
137

关于应届生面试一些感触

带过一些人,再为企业招人的时候,发现自己关注的和自己原来想的不大一样,关于应届生我关注的更多的是对专业的兴趣,因为应届生的那点能力的积累完全无法满足商业社会的需求。

以前一直觉得应届生应该有自己的作品,经历(兼职,暑假工),现在想想对于应届生最重要的不是能力,而是兴趣和那一股劲,一股企业和上级觉得你能迅速成长的劲。

所以应届生面试秘籍:让面试官感觉到你希望在某个专业下成长的心情,所以认真的准备一些东西是必要的,你需要表达你的浓烈兴趣,不要怕说错要表达让我们看到你的那一股渴望,希望靠某个专业谋生的劲。

分享下百度牛站PK采集到的数据和代码

据我观察这数据是pc端的点击量。

晒个图:

1111 分享下百度牛站PK采集到的数据和代码

附件里面有代码:

如果想继续采集的话双击:niuzhanuv.py
数据是采集来的原始数据,最后运行下:fenxi.py就可以看到上图数据了,自己用excel排序下。程序里懒得搞。
脚本一秒钟采集一次,之前采的太快直接被封了,哭。

下载:baidu_uv

火狐imacros插件批量提交数据到抓取诊断工具提升收录

百度站长平台的抓取诊断工具,使用的是百度真实蜘蛛进行抓取的,所以对提升收录有明显效果。不多说,分享插件脚本

 Python |  copy code |? 
01
02
VERSION BUILD=8820413 RECORDER=FX
03
TAB T=1
04
CMDLINE !DATASOURCE  ping.csv
05
SET !DATASOURCE_COLUMNS 1
06
SET !LOOP 1
07
SET !DATASOURCE_LINE {{!LOOP}}
08
SET !TIMEOUT 30 
09
URL GOTO=http://zhanzhang.baidu.com/crawltools/index?site=http://www.xxooc.com/
10
TAG POS=1 TYPE=INPUT:TEXT ATTR=ID:zzSubmitInput CONTENT={{!COL1}}
11
TAG POS=1 TYPE=BUTTON ATTR=ID:zzSubmitBtn
12

#在Datasources文件夹下,放ping.csv文件。里面放URL,一行一个,必须是utf-8格式,URL不需要前面的域名部分格式如:
aa.htm
cc.htm
aa/aa.htm

URL GOTO=http://zhanzhang.baidu.com/crawltools/index?site=http://www.ooxx.com/
http://www.ooxx.com/ 改成你网站的域名

中小型网站日志分析深入浅出之SEO实战

这篇博客里面的内容全部吸收的话,日志分析这一块就能按照你能想到的维度来分析了。当然任何好事都需要付出才能得到,想要吸收所有内容,必须学习shell这门脚本语言的一小部分命令符的使用,当然学一门语言的一小部分内容是个很简单的事情哈。市面上那些的日志分析工具都是个摆设,包括光年的那个。我们可以按照各种我们想到的维度对数据进行拆分组合。得出我们想要的结果,并不止在SEO领域,其他在运营等各个领域都有用处。

1、在Windows下的用户要使用shell命令符的话请先安装cygwin,安装方法:Cygwin安装详解,快速安装所有插件,无需联网

2、下面笔者粗略介绍下SEO日志分析常用的命令符用法,需要详细了解每个命令符请使用Google

  • less  log.log   查看文件内容  按“q” 退出
  • cat  log.log   打开文件,可以多次打开几个文件 |     cat 1.log 2.log   |cat *.cat
  • grep -参数  文件名
    1. -i 不区分大小写
    2. -v 显示不符合条件的所有行
    3. -c  显示符合条件的所有行数(符合条件的数量)
  • egrep 属于grep的升级版,在正则这一块的支持更完善,使用正则的时候建议使用egrep
  • head -2   显示2行
  • head -100  log.log  | tail -10 >>a.log   提取文件第91-100行数据
  • wc -参数   文件名      统计文本大小,字符多少,行数
    1. -c 统计文本字节数
    2. -m 统计文本字符数
    3. -l 统计文本有多少行
  • sort  – 参数 文件名      对文件进行排序
    1. -n 对文件按照数字排序
    2. -r 反向排序
  • uniq -参数      对文件去重,去重前需要使用排序sort
    1. -c  显示数据重复的次数
  • split  -参数  文件名       对文件进行切割
    1. -100   (每100行切割成一个文件)
    2. -C    25m/b/k   (每25兆/字节/K 分割成一个文件)
  • |    管道,把上一条命令的结果传输给下一条命令
  • “>” 和“>> ” 重定向写入文件中 “>”相当于“w”清空并写入   “>>”相当于“a” 追加进文件 
  • awk -F  Pattern {action}  文件名     使用指定的字符对每一行数据进行分段,默认是空格(网站日志就是空格分开)
    1. -F后面跟的是分隔符
    2. pattern 就是action执行的条件,这里可以使用正则表达式
    3. $n 即时第几段数据  $0表示整行数据
    4. NF表示当前记录的字段数
    5. $NF 表示最后一个字段
    6. BEGIN和END,这两者都可用于pattern中,提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作
    7. 案例:$ awk ‘{print $10}’ baidu.log |awk ‘BEGIN{total=0}{total+=$1}END{print total}’  计算baiduspider下载文件总大小
  • bash shell.sh   运行shell.sh脚本
  • nslookup ip   查询地址是否是百度蜘蛛
  • dos2unix   xxoo.sh 将“\r\n”转换成“\n”   Windows——>linux (由于Windows和Linux下的换行符不同,所以我们在Windows下面下的代码需要使用dos2unix 转换成Linux下的换行符,否则运行shell脚本会报错)
  • unix2dos    xxoo.sh 将“\n”转换成“\r\n”  linux——>Windows
  • rm xx.txt  删除xx.txt文件

3、一些简单的命令符介绍到这里,需要了解shell,建议大家查看相关的书籍,下面我们开始使用shell分析日志。

日志格式如下:

less baidu.log

1 中小型网站日志分析深入浅出之SEO实战

1、切割百度的抓取数据(将文件切割出来对专门的蜘蛛进行处理能提高效率)

cat log.log |grep -i ‘baiduspider’ >baidu.log

2、网站状态码个数查询(隐藏的是状态码个数)

awk ‘{print $9}’  baidu.log|sort|uniq -c|sort -nr

3、百度总抓取量 

wc -l baidu.log

4、百度不重复抓取量

awk ‘{print $7}’      baidu.log|sort|uniq|wc -l

5、百度平均每次抓取的数据大小(结果是KB)

awk ‘{print $10}’   baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}’

6、首页抓取量

awk ‘$7~/\.com\/$/’   baidu.log|wc -l

7、某目录抓取量

grep   ‘/news/’   baidu.log|wc -l

8、抓取最多的10个页面

awk ‘{print $7}’ baidu.log|sort|uniq -c|sort -nr|head -10

9、找出抓取的404页面

awk ‘$9~ /^404$/ {print $7}’ baidu.log|sort|uniq|sort -nr

10、找出抓取了多少js文件和文件抓取的次数(可以看出百度基本不抓JS)

awk ‘$7~ /.js$/ {print $7}’ baidu.log|sort|uniq -c  |sort -nr

相信看到这里大家已经有了想试一把手的冲动了,只要你搞懂了上述的内容,上面的操作都可以轻而易举的完成,没有任何困难,还可以有更多的维度进行分析,不仅仅是SEO领域。只要你敢想,就能挖掘更多的数据出来(当然更复杂的纬度可能需要学习shell更多的内容哟,当然,以我的努力程度之低都能做到的事情,大家应该都不是问题)。