|
Post by mrrahman on Feb 11, 2024 21:59:58 GMT -7
爬行率 许多抓取都支持一个指令,您可以在 robots.txt 文件中使用该指令来指示您希望它们抓取您的页面的频率。不幸的是,谷歌并没有遵循这些准则。对于 Google,您必须直接在 Google Search Console 中更改抓取速度,如此处所述。 访问限制 如果您希望某些用户可以访问该页面,但搜索引擎不能访问该页面,那么您需要的可能是以下 3 个选项之一: 某种登录系统; HTTP认证 (需要密码才能访问); IP白名单(仅允许特定IP访问页面) 这种类型的设置非常适合内部网络、仅限会员的内容、登台、测试或开发中的网站等。 它允许一组用户访问该页面,但搜索引擎将无法访问它,因此不 俄罗斯电报号码 会对其建立索引。 如何分析扫描活动 在 Google 的具体情况下,查看其抓取内容的最简单方法是使用Google Search Console 中的抓取统计信息报告,该报告提供有关 Google 如何抓取您的网站的更多信息。 但是,如果您想查看网站上所有爬虫的活动,您需要访问服务器日志,并可能使用允许您分析数据的工具。这是一个相当高级的过程,但如果您的主机有一个像 cPanel 这样的控制面板,您应该可以访问所谓的原始日志和其他聚合器,例如 Awstats 和 Webalizer。 扫描调整 每个网站都会有不同的抓取预算,这是 Google 想要抓取该网站的频率以及该网站允许的抓取次数的组合。 而那些链接不良且访问量不大的页面将被较少抓取。 如果抓取工具在抓取您的网站时注意到压力迹象,它们往往会降低抓取速度,甚至停止抓取,直到情况改善。 扫描页面后,将渲染它们并将其发送到索引。索引是搜索后可作为结果返回的所有页面的主要列表。现在我们来谈谈指数。 进阶学习 如何创建 XML 站点地图(并将其提交给 Google)和 SEO:您需要了解的一切 如何从 Google 搜索中删除网址(5 种方法) 第三部分 了解索引 在本章中,我们将讨论如何确保您的页面被索引以及如何验证它们是否被索引。 机器人类型指令 机器人元标记是告诉搜索引擎如何抓取或索引特定页面的 HTML 代码。它位于页面的 <head> 部分内,如下所示: <meta name="robots" content="noindex" /> 规范化 当同一页面有多个版本时,Google 会选择一个版本存储在其索引中。此过程称为规范化,所选 URL 将显示在 Google 搜索结果中。
|
|