黑帽SEO入门
SEO意思就是“搜索引擎优化”.
黑帽SEO,就是利用作弊的方式达到网站关键词排名提升的做法。
[TOC]
黑帽常用手段
站群:利用泛解析批量生成创建成百上千的网站,每个网站设置不同的标题,关键字和描述,让人以为是不同的站点。之后黑帽会利用这一堆站群做一些特殊的事。站群可分为泛站群,目录站群等。
泛站群:分为泛二级站群和泛端口站群。泛二级站群就是批量创建二级域名站点,例如 www.132.water.com, www.614.water.com …等等,以达到站群的效果。泛端口站群则是例如类似dedecms之类的在iis里面批量创建站点绑定站点对应的端口,例如www.water.com:15324/ www.water.om:44849/ 之类,但注意,泛端口站群时不要占用了部分重要端口,不然会服务报错。
寄生虫:利用FTP扫描或者服务器弱口令和漏洞等方式非法获取一些正规网站后台或者服务器权限。然后对这些高权重的正规站点上传大量的垃圾页面以提高关键字的收录排名,进行页面跳转进行营利。寄生虫分为动态寄生虫和静态寄生虫等。
偷换页面:先设计一些高度优化的网页,当网站获得理想排名后,再使用普通页面来替换优化过的页面。
暗链:发表一些隐藏链接的网页,以达到提高排名的目的。暗链可以有隐藏到JS的方式,超小号文字,评论标签中的文字,input标签中的文字,利用样式隐藏文字层,也可以使用背景相似色的方式隐藏起来等。
骗链:发表一些看起来存在的链接,其实并不传递链接权重的网页,用来欺骗他人友链的目的。
桥页:通常是使用软件自动生成大量包含关键词的网页,然后通过这些网页自动跳转到目标页。这个包含不同关键字的网页叫做桥页,容易在搜索引擎中得到好的排名。当用户点击搜索结果时,桥页会跳转到目标页。
链接工厂:特殊一点的叫链轮,大一点没外链的叫蜘蛛池。通过一个站群,互相进行网页链接,这个系统中的任何站都可以得到其他网页的链接,也必须贡献自己的链接给其他网页,于是这些网页形成一个网状系统。然后将目标站加入这个链接工厂,以达到提升目标站的链接得分的目的。
网页劫持:就是将别人的网页全部复制下来,然后放置到自己的网站上。如果自己的网站缺少内容,则有人会这么做,但搜索引擎能从多个因素判断这个网站是否原创。
重定向:当网页路径位置更变时,我们需要告知搜索引擎我们发生了更变,不然就会访问404或重新计算页面排名,很亏。于是HTTP 301,302就可以进行网页重定向,重定向的新网页会继承原网页的全部权重排名。那么黑帽SEO可能让重定向到目标盈利网站。但要注意,301,302的新页面需要和原页面高度相似,不然搜索引擎会认为属于恶意跳转。
PR劫持:利用301302跳转。首先先将域名A的301302跳转到一个高PR值的域名B。在搜索引擎PR更新后,域名A也会获得较高的PR,在域名A获得高PR之后,取消301302转向。那么这次域名A的高PR会维持到下次PR更新。
黑链:利用FTP扫描或者服务器弱口令和漏洞等方式拿到网站,将链接挂进去,这种连接就是黑链。
斗篷法/隐藏页面:利用搜索引擎蜘蛛不能执行JS的特点,对一个网页做两个版本,一个版本仅供搜索引擎看,一个版本给用户看。
关键词堆积:在网页各处提高关键词的出现频率,在meta, title, 代码注释, 图片ALT 里重复出现关键词,提高关键词的密度。因为搜索引擎打击,现在更多的会有技巧的进行堆积,例如”全名突击AK47怎么获得,最强杀器AK47购买攻略“ 等等,其实关键字是”AK47 购买 获得“。
蜘蛛劫持:利用用户和搜索引擎看到的页面有所不同的原理进行蜘蛛欺骗,判断蜘蛛的方式就是通过user-agent,通常写入在global.asa文件中。例如友链欺骗,就是让蜘蛛看不到友链,但人眼看到友链。结果达到友链仅吸收权重,不输出权重的方式。
快照劫持:就是在凌晨时间,进入网站将网站的meta, title标签换成目标网站信息,然后等蜘蛛抓取完毕后再更改回来。这样第二天的快照就成为了劫持者的网站。
拿webShell: 也称为拿站。入侵一个站点后,塞入php ,asp, jsp, cgi等网页后门文件,之后通过浏览器访问这些后门文件得到一个命令执行环境,就可以执行文件上传下载数据库处理等命令。一般常用的旧phpspy, c99shell等。
蜘蛛陷阱:就是阻止蜘蛛爬行的技术,例如利用蜘蛛无法爬行flash动画进行隐性跳转,动态URL,SessionID导致蜘蛛重复爬取,强制登录,强制Cookies等方式都可以阻止蜘蛛。
刷站:通常主要手段是快速排名,也叫快排。一般业务包括刷排名,刷相关搜索,刷分享,刷网站流量等,多是通过模拟用户进行网站访问达成。
泛解析:就是使用通配符的方式,将二三级域名统一指向另一个IP地址,通常是因为域名管理平台被黑客攻入后进行的修改。通过泛解析,可以借助高权重网站快速提升蜘蛛池的关键词排名。
虚拟外链:就是没有实际物理地址的链接。例如:www.beijing.gov.cn/index.php?search=1&keywords=,这种链接爬虫抓取不到,但如果我们在某个HTML将这个链接形成超链接发布出来,那么这个链接就变成物理链接可以被抓取了。然后爬虫路径就是物理链接发布点->**.gov.cn->www.water.com了。这个在蜘蛛池中很有效。
特殊URL:蜘蛛在抓取到一个页面后,会分析页面网址,对网址和内部内容进行综合评判后决定是否采集。但如果网址形式非常特殊,那么会跳过蜘蛛对网址url审查那一步,以达到增加被爬行和收录的目的。例如使用一些十六进制八进制等ip转换原理处理。
词汇解释
爬虫:就是一些自动从网上下载数据的程序或者脚本。所谓蜘蛛,只是因为百度将自己的爬虫起名叫蜘蛛,所以通常语义下,搜索引擎的爬虫称为“蜘蛛”,用户自己写的为“爬虫”,两者本质完全相同。
页面跳转:利用JS技术,使用户到达某页面后,迅速跳转到另一个指定页面。
假链接:将链接添加到JS代码,框架或表单里,这种方式的链接无法被搜索引擎的蜘蛛读取出来,因此,假链接是给人看的,搜索引擎无法识别。
RootKit: 和木马后门类似,更隐蔽的一类进行持续性对肉鸡进行控制的工具。
溢出:就是程序没有对输入数据进行检查,然后输入过量数据导致缓冲区溢出,最终程序崩溃或者执行攻击者命令。
注入/爆库:通常是用户通过漏洞提交一段数据库查询代码,获得数据库数据。
3389,4899肉鸡:3389是windows终端服务默认端口号,是用来远程桌面连接的,所以一旦入侵指定服务器,通常会给自己开一个远程后门账号,这种机器被称为3389肉鸡。Radmin是一个远程控制软件,其默认端口是4899,被radmin控制的主机被称为4899肉鸡。
加壳:通过特殊算法,将exe,dll编码进行改变以达到缩小体积或加密,以避开杀毒软件查杀的目的的方式。例如PackPE, UPXShell之类的
花指令:就是一些汇编指令,使杀毒软件不能正常判断病毒木马文件的构造。
采集器:用来抓取别人网站的内容的工具。
群发工具:主要目的是进行信息推广。包括博客群发,邮件群发,论坛群发,微博微信群发,QQ群发,留言板群发等。
安全岛:就是将站群分为两级,最一级相对暴力黑帽一些,然后链接到中间一级,中间一级用一些相对安全的白帽手法,链接最内层的目标主站。这样的好处是,当外层站群被发现并受到惩罚时,中心主站是安全的。这样做可以维持相对稳定的排名。
特征词:就是网站的唯一标示词。这个词别人不会用,例如域名,QQ号等,这个东西通常是方便在后期批量查询排名使用。
伪原创:就是使用网页劫持,获取别人的网页数据后进行修改,让搜索引擎误认为是认为原创的过程,就叫伪原创。
二级域名:注意和二级目录分开。baidu.com/xxoo/ 这是二级目录。 www.baidu.com 这是一个二级域名。
数据
PR更新频率: 一般是3个月左右会更新一次。
行业关键词数量:一般单行业的关键词都不低于1万个,根据地域+关键词,主词+副词的拼合下来就很多了。然后通过百度联想下拉搜索框,站长工具,ciku5,竞争对手chinaz权重等方式获取关键词。
关键字密度:一般建议在2% - 5%之间。高于8%容易被查。
常用网站或查询技巧
工具站:tool.chinaz.com站长之家 www.aizhan.com爱站综合站 www.baidu.com site:搜索。百度站长工具。index.baidu.com查看关键字, web.archive.org查看域名历史。 www.5118.com 等
搜索 广告专区 by discus,或者 二手交易区,广告区,广告信息等,找前几名的广告版块可以发广告,不花钱不被删,可以用来测试拉排名。
其他
暗链
就是爬认为做了链接,但人却不知道的链接。
1、链接位于页面可见范围之外。可以将position位置属性设置成负数,则链接无法显示在可见页面之内。
<div style=“position:absolute;left:expression_r(1–900);top:expression_r(3–999);“><a href=“暗链网址”>关键词</a></div>
<div style=“position:absolute; top:-999px;right:-999px;“><a herf=“暗链网址”>关键词</a></div>
<div style=“text–indent:-9999em; display:block;float:left“><aherf=“暗链网址”>关键词</a></div> <!–元素向前缩进为负值,即在可见范围之外–>
2、利用跑马灯marquee属性,链接以跑马灯形式迅速闪现,跑马灯的长宽设置很小,同时将闪现的频率设置很大,使得查看页面时不会有任何影响
<marquee height=1width=4 scrollamount=3000 scrolldelay=20000><a href= “暗链网址”>关键字</a></marquee>
3、利用display:none和visibility:hidden隐藏区域里的内容。
<divstyle=“display:none;”><a href=“暗链网址”>关键字</a></div>
<div style=“visibility:hidden;“><a href=“暗链网址”>关键字</a></div>
4、利用链接颜色与背景色相同,链接文字使用低像素,达到隐藏的效果。
<a herf=“暗链网址” style=“color:#FFFFFF;“>关键词</a>
<a herf=“暗链网址” style=“font–size:1px;“>关键词</a>
<a herf=“暗链网址” style=“line–height:1px;“>关键词</a>
上面的还比较简单常见,下面的JS的方式,搜索引擎就不好检查发现了。
5、利用JS修改样式属性
<div id=“anlian”> <a href=“暗链网址”>关键字</a></div><script language=javascript>
document.getElementById(“anlian”).style.display=“n”+“one”</script>
6、利用JS向页面中写入ccs样式
<script language=“javascript” type=“text/javascript”>
document.write(“<div style=’display:none;’>”);</script><div><ahref=“暗链网址”>关键字</a><script language=“javascript” type=“text/javascript”>
document.write(“</div>”);</script>
注:除了设置display:none属性外,也可以设置前面我们提到的其他隐藏方法.
7、利用遮挡层隐藏暗链。z-index属性可以设置元素的堆叠顺序,z-index值越小其堆叠顺序越靠后,因此可以利用其它层来遮挡暗链。
<divclass=“father” style=“position:relative“>
<div class=“topLever” style=“position:absolute;left:0;top:0;z–index:999; width:90%;height:100px;“>遮挡层:可以放图片等</div>
<div class=“hideDontent”>隐蔽层:可以放暗链</div>
</div>
8、利用iframe创建隐藏的内联框架
<iframe> marginWidth=0 marginHeight=0src=”暗链网址” frameBorder=0width=”226″ scrolling=no height=3 name=”haitan”></iframe>
marginWidth,marginHeight为0 则无法显示内联框,可隐藏暗链。
9、利用重定向机制。在跳转之前的页面写入不相关的链接,通过快速跳转到正常页面,使用户无法察觉。
<script> setTimeout(“window.location=’index.html’,0.1”);</script><body leftMargin=0 topMargin=0 scroll=no><div> <a href=“暗链网址”>关键字 </div></body>
<!–利用setTimeout 在跳转到正常页面index.html之前有0.1s停留在当前页面,页面中的暗链不易被察觉。–>
<script language=“javascript” type=“text/javascript”>
window.location.href=“lianjie”;
</script>
10、利用标签插入链接。位于网页html源码头部内的标签,提供有关页面的元信息,是搜索引擎判定网页内容的主要根据, 攻击者可以在标签中插入大量与网页不相关的词语以及链接。
<meta http-equiv=“refresh” content=“1”; url=“暗链网址” />
<meta name=“xxxx”content=“黑链及描述”>
骗链
就是人看起来做了链接,但爬虫却不知道的链接。其方式也有如下几种:
1:在robots.txt限制某页面的抓取,而又正好在这个页面做了友链。
2:使用meta标签来实现权重的不输出
3:使用nofollow标签
4:使用框架嵌套iFrame作弊
5:通过jQuery做tab切换输出友链
6:JS代码变种形式:onclick
或者使用低权重页面做友链,用伪首页做友链,用临时黑帽方式冲的很高的权重站做友链等
链轮
通常链轮的方式是,一个站群上的数百个站点,对“主站点”进行单向链接。然后除“主站点”之外,其他站点是进行互相的双向链接。这样可以达到对“主站点”进行权重输送的目的。因为,在搜索引擎认知中,单向链接比双相连接具有更高的权重。
举例:以ABCDEF六个博客名,其中在A博客中发一个文章,关键词以你要优化的网站的关键字,在文章里面做指向你网站的锚文本,然后在文章结尾的时候,再做一个锚文本指向B博客,这个锚文本的名字可以是B博客的名字,同样的方法,B博客写的文章也是关键字指向你的网站,在文章的结尾做一个链接到C博客,以此类推,就形成一个SEO链轮了。
链轮的作用:
使目标网站快速被百度收录。
提高目标站的整站权重。
特点周期内快速提高排名。
链轮的优势是:
并不算违规
当搜索引擎蜘蛛进来之后,它会很好的将蜘蛛围住,以便蜘蛛更多的抓取我们网页,以获得更好的新页面发现速度,索引效率,收取数量和访问数量。
链轮的缺点:
消耗时间长。要长期的有计划的更新和维护。
周期长。前期链轮的站点要进行养站,后期要做网站维护。
需要资源较多,多个服务器,大量域名和IP,还要编写原创内容养站。
链轮的风险:
- 操作不好,可能会被搜索引擎K掉,一旦被K,则全站会受到波及。但相对其他黑客SEO手段而言,被K概率很低。
链轮与链接工厂的区别
链接工厂大部分是以单向链接存在,但也存在互链的情况。而链轮则单向链接要更为彻底一些,一般不存在互链。
链接工厂主要以站群为主,很少用到博客。
seo链轮要求网站或内容之间相关性要高,而链接工厂是随意性的,网站之间相关性不高。
seo链轮可用文章或主页友链来做,而链接工厂主要靠底部友链版块操控。
总之,seo链轮隐蔽性较高,不易发现,优化难度也高,而链接工厂,很容易被发现,优化难度低,容易被搜索引擎打击。
蜘蛛池
就是一堆域名组成的站群,内部有海量页面。因为页面巨大,所以其蜘蛛总抓取量也很巨大。之后为了给未抓取的页面引蜘蛛,就在这站群的正常网页模板中单独开一个div,塞上未收录网页的链接,然后服务器不设缓存,蜘蛛每次访问之后,这块DIV中的链接就是不一样的。此时,那些需要被收录的页面在短时间内因为有大量的真实外链,被抓取的几率自然上去了;因为目标站又被大量外链,排名也会有加分。
链轮和蜘蛛池的区别
蜘蛛池比链轮规模大很多,但相对更加稳定和有效。
蜘蛛池平时不做外链,用的时候才挂一下外联。
蜘蛛池的主要目的是将一些深层目录内页迅速被蜘蛛捕获,提升收录速度和覆盖率。
蜘蛛池复杂的不是技术,而是其资源消耗,维护成本很高。
技巧补充:
没有资金做站群链轮的,可以做博客链轮。虽然博客链轮效果不如站群的,但代价和投入都较小。一般新浪,网易,搜狐,腾讯,和讯博客都不错。
链轮的策略模型要多考虑,根据规模大小考虑分组策略,既要防止页面过深,也要防止蜘蛛逃离。单组内的文章内容要足够的高相关性:
注册的博客昵称和站群要多样化,最好使用不同IP去注册。
新注册的博客和站群需要养一段时间,不要着急添加锚文本,不要在每篇文章中添加外部链接。
国内蜘蛛池建议买cn域名,容易被收录。其让con. net. pw 之类的二手闲置便宜域名也很好。
蜘蛛池的建造顺序:买VPS -> 买域名 -> 买站群程序 -> 域名泛解析到买的服务器IP上 -> 按照泛站群程序安装软件建立一个泛站群 -> 填充内容,将泛站群改造为蜘蛛池(就是站里的网页加一个链接)-> 找一个好外推平台
可以考虑挂虚拟外链来达到快速排名提升的效果。
批量建站建议使用phpwind,可以购买程序模板,就10来块钱。
不要将灰色关键字都链接到目标站的首页,因为搜索引擎会认为目标站涉及灰色关键词,会立刻K站。建议分到其他一些子页面,以增加收录页面范围,同时避免被K站。
查看网站收录率,百度 site:www.yourdomain.com 关键字
数字
一般蜘蛛池需要一台多IP的服务器,IP数量几十就可以,5个域名可以共享一个IP。所以,一般蜘蛛池需要几百个IP。美国服务器中配30IP费用一个月大概300左右。香港站群服务器1800一个月,30G内存。2TB硬盘,5M贷款无限流量,128个独立IP。
蜘蛛池很凶,好的蜘蛛池可以将数千万的关键词一个晚上就进行收录完毕(平均收录时间是几个小时内,不需过日),并且全部有排名,可实现霸屏。一个好的蜘蛛池要花费几万,小型的可以投资几百上千。
蜘蛛池如果买二手域名,例如com, net, cn等主流域名,价格在20-60块一个。如果之前做过站群的二手域名,原站主不要了,可能1-2块钱都可以买到。一般二手域名的好处里,里面可能还存有残留的蜘蛛。
做蜘蛛池需要站群程序,好点的大约几千块,这个钱没有风险,因为创建的站群不用来做排名,只是养蜘蛛。
想得到最佳效果,建议是一个链接一天发布100条,发布三天左右即可。
一般来说,养站养蜘蛛池一个月足够让搜索引擎收录正常,两个月就可以得到最佳效果。
蜘蛛池一个域名日均蜘蛛高的时候能达到1000个,1000个域名就有100W个蜘蛛了。
寄生虫
如果我们已经拿到了webShell,那么就可以在其网站做一些事情,其中就可以放置寄生虫。寄生虫的特点是,当时并不发作,当特殊条件触发后,会自动创建网页文件(可能会形成链轮)。当站长清理了之后,还会定时触发创建新的文件。
寄生虫分类:
一般会分类为动态和静态。动态寄生虫就会创建变化内容的文件,一般文件后缀是asp/php等;静态寄生虫生成的页面一般是固定不变的内容,大多为html后缀的文件。
寄生虫缺点:
高权重网站的webShell难拿,低权重网站的webShell拿到没有意义。
寄生虫和木马类一样,第一核心要素是自我隐藏。但过于依赖查杀难度。
寄生虫优点:
- 可以充分利用宿主的高权重,快速将大量长尾词甚至核心词在搜索引擎上带来一个排名。
二级域名
二级域名有自己独立分支,有自己的收录,快照,PR值,反链等
主域名收到惩罚,二级域名也会收到惩罚。
主域名的PR值并不会传递给二级域名,所以二级域名不会分散主域名权重,但也不继承。
water.com是一级域名, www.water.com 是二级域名。
二级域名是一个独立域名,其权重高于二级目录。
二级域名可能比主域名权重更好,这是没问题的。
但是如果做了301,302重定向,那么重定向两方的网页权重就是相同的。
WebShell
WebShell就是外部通过WEB服务端口对服务器进行某种程度的操作,因为大部分是以网页脚本的形式出现,也被称为网页后门工具。
WebShell的类型:
根据FSO权限不同,有脚本编辑,上传下载脚本,数据库查看,执行程序命令等
根据脚本类型不同,有ASP,PHP木马,也有.NET的木马
如何寻找WebShell:
脚本攻击SQL注入
使用注入工具
进行爆库
跨站攻击XSS, COOKIES欺骗等
WebShell的优点
最大优点是可以穿越防火墙,因为它使用的是80端口。
第二优点是通常不会在系统日志中留下痕迹,只会在最开始安装webShell时候会在目录下留下日志,之后通常是没有痕迹的。
部分webShell可以嵌套在网页中运行,不容易被查杀。
WebShell的防范:
- 最简单有效的方法就是:可写目录不给执行权限;可执行目录不给写权限。
伪原创
网页劫持,采集器之类,就是将别人的网页全部复制下来,然后放置到自己的网站上。如果自己的网站缺少内容,则有人会这么做,但搜索引擎能从多个因素判断这个网站是否原创。所以此时我们需要对网页进行伪原创进行调整。
主要步骤依然是抓取网页,标签分类,伪原创,组装建站。然后新站群的原创性越重,就越容易被搜索引擎所喜欢。
原创与非原创的判定方法
内容相似度,是搜索引擎去重用的最多的算法。用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
另外一个文章去重检查相似度的算法就是simHash算法。它能将一个文档根据关键字和权重最终转换成一个64字节码,然后通过字节码的海明距离比对进行相似性判定。
百度的去重算法最简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。 工程实现巨简单,据说准确率和召回率都能到达80%以上。
数据指纹,当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。 现在很多伪原创工具,只是把关键词进行了替换,标点符号指纹是不变的,甚至连TF词频都不变。对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。
代码噪音,一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。
常用的简易伪原创方法:
文章近义词的替换词库,在不改变文章语义前提下生成原创文章。具体来说,就是把文章进行主谓宾定状补进行拆分,然后使用近义同义进行替换。
将文章段落打乱重组。
获取原创文章的方法:
找电子书下载站,会有大量未被百度收录的内容
英文文章翻译
QQ空间,微信的很多文章,是百度不收录的,可以转来
高阶的伪原创方法:
Markov算法 https://blog.csdn.net/Travelh/article/details/896757
RNN+LSTM
其他:
诗词,对联,歌词的伪原创最容易
英文伪原创相对容易
刷站
技术要点:
- selenium
方式:
刷排名。 百度认为质量高的网站必然是用户最喜欢点击的网站。所以,用不同的IP搜索一个关键词,然后点击要刷的网站,一个网站点击的次数越多,说明这个网站是更受用户欢迎的,百度就会将其向前排序。所以,刷排名的核心技术就是模仿大量真实IP搜索某关键字并点击目标网站。
刷百度下拉框(相关搜索)。 这也叫百度推荐词,它是通过大量重复搜索一些奇怪的长尾词以达到关键词提升的目的。例如,用户搜索“土豆网”,结果下拉框提示”挖土豆网”,那么原本不重要的关键字就可能被提前了。
刷网站流量。就是刷网站的UV,PV,浏览页面数量,停留时间等。主要刷alexa流量排名。
要点:
刷排名的自动点击器要主要更换IP。一般使用adsl或者换代理IP的方式:,但注意,ADSL拨号虽然换IP,但IP段是不变的,还是可能会被查。
刷排名,对于地域类的词语,不同区域搜索结果不同,是不能刷的。
刷排名时,如果不点排名靠前的网站,而直接点击后面某特殊页面指定的网站,不符合用户习惯,也可能会被百度发现。
刷排名时,要在一些网站做一些停滞。(PC端需要注意,因为百度在PC端打开新链接时是使用新Tab,此时原百度页面会有JS脚本获取用户鼠标和停滞时间检测;而移动端则还好,因为百度打开新页面是替换机制,而不是创建新Tab)
刷网站流量速度很快,一天可以达到IP上万,这很容易被察觉。
刷网站流量通常页面浏览时间很短,对搜索引擎评价不好。
刷流量会导致流量很不均匀,容易被搜索引擎和alexa降权。
影响排名的原因是搜索引擎会统计一个关键词结果中,前几页在一定时间段内的历史点击量。和点击率无关。
没有必要根据排名的页数改变点击率策略。
点击排名程序参数设置好的话,排名可以很稳定。
清空cookie并不能模拟多用户,搜索引擎还能识别这是同一台机器在点击。
PC端打开网页后,百度可以检查网页停留时间。移动端则不能。
关键词
通过站长之家的 百度关键字工具 查询。首先优先选择 搜索流量大,竞争小,需求明确 的关键字。
根据关联词的排序,分析出用户进行组合词长尾词的命名习惯。例如:北京+洗车+哪里好,丰台+洗车+哪里好 这样进行关键字组合
做长尾词,就需要将大量相似的长尾,穿插到页面的不同位置。例如标题,导航,次导航,分类导航,标签,描述,底部等一切可以出现关键词的地方,而避免在正文频繁出现。
做长尾词需要避免单页出现大量相同的长尾,而应当使用相似的长尾,例如:“人民的名义电视剧全集,人民的名义种子下载,人民的名义迅雷下载,人民的名义迅雷看看,人民的名义蓝光下载,人民的名义高清,人民的名义1080P,人民的名义720P,人民的名义第一集,人民的名义第二集,人民的名义免费下载”等等。
做长尾词的扩展思考方式要有,例如不要仅仅考虑”人民的名义下载“,还要扩展的想到”人民的名义手游,人民的名义小说,人民的名义表情包”这次长尾词。
SQL注入
通过精心构造的URL参数,或者表单提交的参数,拼接到服务器预先定义好的SQL格式时,意外的更改了程序员预期的SQL结构时,SQL注入就构成了。成功的话可以拿到数据库账号密码或者数据库全部内容的dump。
常用手法:
账号密码填写处,填写为 XXX’ or ‘1’ = ‘1’ 或 XXX’ or ‘1’ = ‘1 (注意引号的位置,SQL会自动前后补一个引号),当SQL为 SELECT * FROM dbAccountTable WHERE account = ‘XXX’ or ‘1’ = ‘1’ AND password = ‘XXX or ‘1’ = ‘1’ 时就会dump全部账密。
上面的注入数据只能修改 WHERE 后面的部分,依然无法设置字段和表名。如果我们想拿其他的数据,则需要UNION语句。例如 SELECT column_a from table_a UNION SELECT column_b from table_b; 就可以获得table_b中的数据,唯一要求,是table_a和table_b的column相等即可。要知道column_a的length可以进行修改尝试,将刚才的SQL语句改成SELECT column_a from table_a UNION SELECT 1 试试,再改成SELECT column_a from table_a UNION SELECT 2试试,直到不出错,就可以确定之前程序员的SQL语句到底select了几列。
通常情况下,上面的 XXX’ or ‘1’ = ‘1 会改成 XXX’ union 1# ,这样,组成的SQL就是 SELECT * FROM dbAccountTable WHERE account = ‘XXX’ union 1#’ AND password = ‘XXX or ‘1’ = ‘1’ ,因为#号后面的SQL会视为注释,则上句精简后等于 SELECT * FROM dbAccountTable WHERE account = ‘XXX’ union 1 ,所以,Union和 # 就是SQL注入爆库的核心部分。
如果你想获取数据库表结构。
- 首先获取Mysql的 元数据库(该数据库名默认存在叫 information_schema),use information_schema;
- 然后 show tables;查看元数据库中的全部表。然后
- 然后 select * from information_schema.SCHEMATA 就可以看到元数据库中的schema信息表;
- 然后 select TABLE_SCHEMA, TABLE_NAME from information_schema.TABLES where TABLE_SCHEMA = 'your_table_schema', 获取指定的实际数据库名;
- 然后 select TABLE_NAME, COLUMN_NAME, DATA_TYPE from information_schema.COLUMNS where TABLE_NAME = 'your_table_name' 获取这个数据库的全部字段和信息类型;
- 当然也可以直接 select * from your_table_schema.your_table_name 获取这个指定库的全部数据。
- 总结:
- 下面例子中的 1,1,1,1 是为了UNION占列。
- 如果你想获取数据库的列表: 在账号输入栏填写 xxx' union SELECT 1,1,1,1,SCHCEMA_NAME from information_schema.SCHEMATA#
- 如果你想获取某数据库下表名: xxx' union SELECT 1,1,1,1,TABLE_NAME from information_schema.TABLES where TABLE_SCHEMA = 'your_table_name'#
- 如果你想获取某表内全部字段: xxx' union SELECT 1,1,1,1,COLUMN_NAME from information_schema.COLUMNS where TABLE_NAME = 'your_table_name'#
站群
搭建流程:
准备域名和空间。要对域名做泛解析,然后留足控件,因为每个网站会有缓存文件增加,要留足空间。
在站群软件中设置好相关参数,将站群软件上传到空间。站群软件会定时将内容文件提交到网络给蜘蛛抓取的,内容可以各式各样,和产品,服务不相关的都行,这些文件是给搜索引擎看的,不是给普通用户看的。
准备大量长尾关键词。大部分站群软件模板里都提供keywords文件夹文档,程序会自己随机抓取关键词匹配。
将原创的文件放到站群软件的一个文件夹内,这个文件夹是公用的,所有站群的站点都可以调用其中内容。
通常站群软件的使用都是很简单的,只要做一下几步即可
- 找到主目录下的js文件,将代码中的链接代称自己的就好
- 一般站群软件会有一个包含domains, data的缓存文件,注意清理掉这些缓存
- 修改domains文件夹中的txt文件,将自己的域名放进去,最好将域名对应的IP也放进去
- 如果有juzi, juzi1之类的文件夹,将其中的内容删掉,然后将自己的原创数据放进去。原创文章没特殊要求,只要不重复,有自己的关键字即可。
- 进入template里面修改模板,将模板里的title, keywords, description改成自己的词
- 完毕。
爬虫
常见反爬虫机制应对方案:
单线程爬虫间隔时间调大,例如百度页面就要大于2秒
添加Headers,使用phantomJS模拟浏览器方式
使用分布式架构爬取
切换IP爬取(ADSL 或 ip代理)
对于一些大站,必然有分布式的服务器,所以我们使用代理IP,获取该网站在不同地区的域名解析IP地址,直接ip访问(再不行,改HOST)
百度算法
基本规则
一般每月11号,26号左右,更新幅度最大。每周四凌晨4点会做一些小更新。
新站点的审核时间大约是14天,沙盒期也比较长。
已知算法
2013-02-19 绿萝算法
打击超链交易等作弊行为
2013-05-17 石榴算法一期
针对弹窗广告,混要页面主体内容的垃圾广告,影响用户浏览的页面进行打击
2013-07-12 石榴算法二期
加大力度过滤文章内容中的外链,并对发软文的站点进行惩罚
2014-08-22 冰桶算法一期
打击强行弹窗APP下载
2014-12-04 白杨算法
为满足用户地域化需求,扶持地方特色网站
2014-12-12 冰桶算法二期
打击强制用户登录,打击大面积广告等影响用户浏览体验的页面
2015-01-01 瑞丽算法
针对网页title大量重复关键字,针对国内政府指定关键字进行监察
2016-06-01 欺骗算法
打击欺骗下载和无用户提示的捆绑下载
2016-07-15 冰桶算法三期
打击在百度移动搜索中,打算用户完整搜索路径的调起行为
2016-08-10 天网算法
打击网页恶意嵌入代码,打击盗取用户隐私的行为
2016-09-19 冰桶算法四期
打击移动搜索结果页广告过多的页面
2016-10-26 冰桶算法四点五期
针对landing page恶意诱导类页面进行打击
2016-11-21 蓝天算法
打击新闻源网站售卖软文和目录的行为
2017-07-07 飓风算法
打击恶劣文章采集
2017-09-28 清风算法
打击关键词重复堆砌,打击标题内容虚假不符
2017-10-02 闪电算法
移动页首页打开响应速度计算入排名,打击首页加载过慢网页
2017-11-23 惊雷算法
打击刷点击快排行为
2018-11-12 冰桶算法五期
针对落地页广告,APP调启,文章内容展开 等功能进行内容过滤和限制搜索处理
SEO组合拳
老域名+大量外链+快速排名
特点:
优化域名很多,为防止被黑吃黑投诉,死了还有替补站。
优化的关键词较少。
优点:排名相对稳定,站点可控性强,优化方式可以批量式复制
缺点:成本较高,优化难度较高(没有优化到首页几乎很难获取到流量),竞争度强(是一种通用型优化技巧)
高权重网站+部分外链+快速排名
特点:
- 利用高权重网站收录快的特点,进行页面权重的快速提升
优点:排名快,无需借助其他外链、点击等外部资源辅助即可迅速提升排名
缺点:稳定性差,排名可控性不高,不利于长期排名优化
蜘蛛池+部分外链+快速排名
特点:
- 利用大量网站单向链接进行导入。
优点:排名稳定性高、由于是一个网站批量式优化,技术难度低。
缺点:资源性要求高、养站周期长
蜘蛛池+寄生虫+高权重网站
特点:
- 先拿到一个高权重网站的webShell,然后使用寄生虫繁殖出大量长尾词页面,再利用蜘蛛池的快速抓取,快速获取到数万个行业词排名
优点:排名速度快、成本较低
缺点:排名稳定性差
泛解析+高权重网站
特点:
- 先拿到一个高权重网站的webShell,然后对其二三级域名进行泛解析,以达到网站排名目的
优点:排名快,成本低,排名可控性高
缺点:排名稳定性差