常见问题

百度官方问答集锦系列7之蜘蛛

2016/12/19 15:07:42 标签：外链 0 个评论 1339 次浏览

百度数据更新的周期大概是多长？

如果是一个变化频繁的入口索引页面，相信这个变化周期会很短；而是相对稳固的内容型页面，周期则会相对较长。站长们观察一下蜘蛛的爬取日志，发现的规律会比这边的说明更有价值。此外，搜索结果页上的那个时间，一直很让人confusing，我们正在考虑修改。

HTTPS的网页网页被收录一般来说，网站所有者不是太希望 https 的网页被收录。如果收录了，如果处理？把 https 的网页URL更换成 http 形式的？

如果不希望被收录，常规的做法是设置robots文件。https主要的出发点是安全，并没有太多考虑搜索引擎。从用户角度，很多采用了https的站点（尤其是首页）

也是需要被搜索到的，比如支付宝，贝宝等。通常情况下，搜索引擎对这类网页并不做内容解析，而只是将url进行索引。

百度是否能正常抓到网页的中Unicode编码的文字？

目前百度对unicode编码只支持utf8，今后会逐渐增加对其它编码方案（如utf16）的支持。
ip 地址形式的URL被收录。
IP地址的url被收录，除了spider在机制上的不完善之外，通常站点设计上也有一些缺陷。一般情况下，这类问题是可以被规避的。
流量被蜘蛛占用，怎么限制它？正常情况下，Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度，通常会是下面这两种问题有中的一个：
（1）有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充，Baiduspider的hostname以*.baidu.com的格式命名。
（2）网站程序有漏洞，产生了无穷尽的url，被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志，看看Baiduspider所抓取的内容是否是你想让百度收录的，如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。
百度对JS代码里的链接识别么
我们也希望能解析flash、js里的内容。但目前离理想状态尚有距离。
请问百度支持通过robots提交Sitemap么？

暂时还没这个打算。一般情况下，spider能处理大多数网站的数据抓取和更新，而无须借助sitemap。
option标签里面的链接可以被蜘蛛抓到么？
可以提取。效果等同于163。
百度是否跟踪JavaScript链接
知道百度支持nofollow后又有了这个问题，百度是否跟踪JS链接并传递权重？因为有的时候某些页面得到太多权重没什么意义，比如用户登录、注册页面之类的。是否可以用简单的JS阻挡链接传递权重。javascript的解析，是很多搜索引擎正在做的事情；同理，对flash的解析。毕竟有那么多应用 javascript或者flash的网站，其实并没有意识到，他们的做法给搜索引擎的收录和索引带来的麻烦。所以，如果期望不被搜索引擎收录的话，最直接的手段，还是写robots文件。
百度的互联网论坛收录开放协议现在还有用吗？
预告一下，随着站长平台的逐步完善，这个问题将会得到比较稳妥、彻底的解决。过去的做法不够系统。
关于外链接入已经被robots.txt屏蔽的URL，爬虫是否先抓取的问题
一个url只要被robots屏蔽，baiduspider就不会进行抓取，这是肯定的。就算某个链接可以通过外链进入到，我们也不会去抓取这个页面。
百度是否能抓取CSS样式表并识别分析？
百度是能够抓取并分析CSS的。
没有提交给百度也无反向链接为何被百度收录只要是存在的链接都应该收录，但是蜘蛛能不能抓到是另外的问题了。

我们把问题明确一下：是否能识别和处理纯文本形式的链接（非标签）？答案是可以的，搜索引擎的spider需要及时发现和抓取互联网上的链接，至于链接是什么形式，并不重要。
百度是否抓取并且分析代码中注释掉的内容
在html中的注释内容，会在正文提取环节忽略。
搜索引擎在高峰时段大量抓取页面，导致服务器出现负载问题。但是我不希望屏蔽它的抓取，应该如何处理？能否在高峰时段对spider返回 202 状态码，告知spider“服务器已接受请求，但尚未处理。”？这会对网站造成什么影响？
会延迟百度对新网页的收录速度。正常情况下，Baiduspider的抓取频率大致上和网站新资源产生的速度相符，并不会给网站带来很大的压力。但现在网站结构通常都比较复杂，多种url形式指向的可能是相同的内容，或者会自动产生大量无检索价值的网页。我们目前发现的问题，主要来源于此，建议先分析一下 spider的抓取日志，看看是否抓取了你不希望搜索引擎收录的形式，如果有，robots掉它们可以节省大量的资源。
网站首页有更新但是看iis日志还是出现304状态码
如果日志中记录的是304，说明baidupdier并没有真正获取更新这个页面，但是返回304是网站站点服务器的行为，我们无法确定具体是什么问题导致的。对于首页这样的重要页面，baiduspider很可能会一天访问多次，如果其中只是有部分304的话，很可能是正常的。
为什么有些站每天不更新反而百度的快照天天新。有些站提供原创内容每天更新反而百度快照不更新。
前面曾经说过，我们内部也对结果页上的时间戳（在url后面）很纠结，有计划整改。实际上有的搜索引擎早已经把这个时间戳去掉了，而代之以网页更新的实际时间。这个时间戳既然给内部人员也带来了困扰，那么对站长和用户，显见也是有困扰的。所以，我的建议是不必太过关注这个时间戳。如果期望看到精确的 spider行为，最直接的手段是分析网站日志。我个人觉得站长如果想做出点名堂，一些起码的技术手段还是要会的，数据分析对SEM极端重要。而不要动辄用“草根”来给自己开脱。
以前百度显示网页体积的时候最大是125K，超过这个范围快照显示就不正常，是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了？
页面大小和搜索引擎的抓取之间没有直接关系。但我们建议网页（包括代码在内）不要过大，过大的网页会有抓取截断；而内容部分，也不要过大，过大会被索引截断。当然，抓取截断的上限，会远大于索引截断的上限。
在百度快照里页面没有显现完整，首页底部（友情链接及版权信息那块）代码和页面都没在快照中出现，那么友情链接对其他网站还有用吗？
这种情况不会影响友情链接。另外，我们建议尽量将页面大小控制在合适范围内。补充一下，cache只是显示一部分。而底部链接提取只和该网页是否被抓全有关。百度spider抓取的网页文件非常之大，链接提取完全不必担心。
百度建议URL静态化吗？还是像Google一样，不建议URL静态化？对伪静态怎样看待？和真的静态文件一样吗？
对URL的动静态，没有歧视政策。之所以以前有过提倡静态的说法，是因为很多动态URL，带了很多参数，而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。所以，总的原则就是，URL的动静态无所谓，只是尽可能的避免重复即可。但是动态url也不要动态得太变态，搞几十个参数，那会吓着蜘蛛。酝酿中的sem指南，会有对url优化方面的详细说明。

文章来源：SEO培训的新浪博客

本文由换链神器(www.huanlj.com)原创或整理发布，如需要转载请注明出处!

你看网此文章的心情是

呵呵
0 人
震惊
0 人
赞
0 人
鄙视
0 人
流泪
0 人