使重要页面尽可能靠近根目录。 确保页面不返回错误。 ,您无需服务器日志即可轻松获取这些信息,但我想要更多,我想看看 Googlebot。 我想找到 Googlebot 的具体问题,例如: 不必要的抓取预算支出 该页面不认为它重要/重要。
如果有任何机器人陷阱
Google 是否会在尝试生成 URL 时抛出 404 错误(想想 javascript)? Google 是否正在尝试填写该表格? (是的,它发生了) 使用服务器日志检测 Google 机器人 步骤 1:获取一些服务器日志。
询问您的客或从您的托管公司下载
一组服务器日志。我们的目标是尝试捕获访问您网站的 Googlebot,但我们不知 特殊数据库 道这种情况何时会发生,因此您需要几天或几个小时的日志。 给大家举个真实的例子: 示例域的 PageRank 为 6,DA 为 80,每天收到 200,000 次访问。
他们的 IIS 服务器日志每天将达到
但由于该网站非常受欢迎,Googlebot 每天至少访问一次。 在这种情况下,我建议记录一整天的日志,以确保 Googlebot 能够跟上。 步骤 2:下载并安装 Splunk。 访问 http://www.splunk.com,注册并下载该产品 – 免费版。
注意:免费版每 小时仅允许
上传 500mb。 步骤 3:将服务器日志数据添加到 Splunk 我建议您在本 居家办公对内向者和外向者都有好处的三个原因 地计算机上记录服务器日志,以使此过程变得轻松简单。 我整理了一些快速的截屏视频,我知道它们看起来很俗气,但无论如何。 第 4 步:仅显示 google bot 作为用户代理 第 5 步:导出到 Excel 只需单击导出链接并等待大型 CSV 下载即可。
(注:如果没有出现链接
是因为搜索尚未完成) 分析、问题及解决方案 问题 每当 Google 机器人访 学生手机清单 问某个网站时,它都会花费大部分时间来抓取 PPC 页面和内部 JSON 脚本。只是为了让您了解浪费了多少时间和抓取预算,请参阅下文: 真正的问题是我们网站上的页面没有被索引,这就是原因。
如果没有服务器日志我就不会找到这个,我非常感谢我做到了。 查看我的 Excel 电子表格 如何验证您所看到的确实是 Googlebot。 可以使用 Googlebot 用户代理抓取或访问网站,甚至更糟糕 – 可以欺骗 Googlebot IP。我总是仔细检查服务器日志报告中看到的 IP 列表,并使用 Google 官方映射的方法。