新用户注册入口 老用户登录入口

谷歌sitemap不收录显示无法抓取怎么处理

文章作者:admin-tim 更新时间:2024-01-26 18:24:34 阅读数量:495
文章标签:搜索引擎sitemap站长工具权重google
本文摘要:本文对google搜索引擎站长工具对sitemap抓取和读取异常的问题,做了详细的解决方案的整理,包括5个尝试方法,帮你能够把你的sitemap.xml文件正确的提交给谷歌站长后台。以及在文末,文章还交代了一些可能要注意的细节。希望对你有帮助!
HTML

问题背景

如上图,如果你需要在谷歌搜索引擎推广网站,可以在谷歌站长后台提交自己站点的sitemap,但是发现“状态”一栏始终是无法抓取。怎么办呢?


1. 尝试一:保证sitemap的文件格式

下面是一个标准的sitemap的文件格式在,这样用,是最基础的保证:

<?xml version="1.0" encoding="UTF-8"?>
2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3  <url>
4    <loc>http://www.example.com/</loc>
5    <lastmod>2024-01-26</lastmod>
6    <changefreq>daily</changefreq>
7    <priority>1.0</priority>
8  </url>
9  <url>
10    <loc>http://www.example.com/about-us</loc>
11    <lastmod>2023-12-30</lastmod>
12    <changefreq>monthly</changefreq>
13    <priority>0.8</priority>
14  </url>
15  <url>
16    <loc>http://www.example.com/services</loc>
17    <lastmod>2024-01-15</lastmod>
18    <changefreq>weekly</changefreq>
19    <priority>0.6</priority>
20  </url>
21  <!-- 更多页面 -->
22</urlset>

这里给大家一个示例,如果需要,可以粘贴走根据自己的情况修改。

2. 尝试二:loc地址一定要是全域名的

这一点对google很重要,其它的站长工具可能可以识别相对路径的地址:

  • 比如页面:http://www.example.com/services,有的站长后台支持/services
  • 但google这里请务必写全地址,即:http://www.example.com/services,全地址!

否则即使被读取了,也会提示“xxx项错误”,好不容易读取了,却报错了,很是可惜。如下图这样的:

3. 尝试三:去掉changeFreq和priority

谷歌会忽略掉这两个属性,资料:https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap?hl=zh-cn

这样,sitemap.xml文件就变成了:

<?xml version="1.0" encoding="UTF-8"?>
2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
3  <url>
4    <loc>http://www.example.com/</loc>
5    <lastmod>2024-01-26</lastmod>
6  </url>
7  <url>
8    <loc>http://www.example.com/about-us</loc>
9    <lastmod>2023-12-30</lastmod>
10  </url>
11  <url>
12    <loc>http://www.example.com/services</loc>
13    <lastmod>2024-01-15</lastmod>
14  </url>
15  <!-- 更多页面 -->
16</urlset>

4. 尝试四:一定不要返回过多的url

尤其是新站,搜索引擎对新站的权重比较低,所以当我们一个sitemap文件里返回过多url的时候,会把搜索引擎“吓走”。

  • 它会想:好家伙,一下子返回这么多url给我,我哪有空搭理你,先一边呆着吧,我很忙!

所以新站的单个sitemap文件一定不要太大,包括上面去掉changeFreq和priority也是为了减少sitemap.xml文件的体积。

sitemap里面的url控制在1000个以内一般是问题不大的,如下图:

5. 尝试五:返回的响应耗时不能太长

尤其是新站,而且sitemap体积大的情况下,可能返回耗时稍长(这个搜索引擎设定的时间阈值咱也不知道,但是感觉可能几秒都是不应该的)。

解决方法:

  • 不要实时动态生成!不要实时动态生成!每次查一下数据库,再生成数据,再响应,这个过程不快!
  • 如果非要动态生成,建议设置一个调度,每隔几个小时,生成一下然后存放静态的sitemap.xml文件放在服务器根路径下面,即https://www.你的域名.com/sitemap.xml这里。

这样,搜索引擎来抓取的时候,直接拿现成的静态文件,结合尝试三、尝试四,保证单个sitemap文件又不会太大,就很稳妥了。响应速度又快,单文件大小又舒服,url数量又符合搜索引擎的预期。


写在后面的话

对于sitemap.xml的应用,新站还需要注意下面几个地方:

  1. 名字无所谓,但一定都是xxx.xml格式,xxx的名字最终你会提交给站长后台的,但要小写,不要出现一些乱七八糟的符号
  2. 新站不要过分依赖于sitemap.xml,搜索引擎对于新站的态度其实更喜欢自己发现的url,sitemap.xml提交几千几万也不见得会都来爬取
  3. 爬取是第一步,是否收录,还取决于站点的质量等等因素,这个比较博大精深了,我也说不好其中一二
  4. 以及,lastmod这个也不要任意改,比如你只改了lastmod但没改文章内容,会存在概率性被搜索引擎认为是作弊的
  5. 被索引的文章,不要删除,否则搜索引擎会认为站点不稳定
  6. 最后,sitemap.xml提交只是第一步,更多的还是应该注重站点的质量建设、外链维护、用户体验的提升



相关阅读
文章标题:冰墩墩html css代码

更新时间:2023-07-30
冰墩墩html css代码
文章标题:webpack --watch 模式下利用自定义插件CopyAfterCompilePlugin实现编译完成后文件实时拷贝至指定目录

更新时间:2023-12-07
webpack --watch 模式下利用自定义插件CopyAfterCompilePlugin实现编译完成后文件实时拷贝至指定目录
文章标题:分页的html代码

更新时间:2023-07-10
分页的html代码
文章标题:解决服务器部署中视图文件路径错误:配置设置、引擎支持与相对/绝对路径应用实践

更新时间:2023-11-08
解决服务器部署中视图文件路径错误:配置设置、引擎支持与相对/绝对路径应用实践
文章标题:Bootstrap滚动监听无效问题排查:jQuery与DOMContentLoaded事件应用及CSS样式冲突解决方案

更新时间:2023-01-14
Bootstrap滚动监听无效问题排查:jQuery与DOMContentLoaded事件应用及CSS样式冲突解决方案
文章标题:倒数html代码

更新时间:2023-11-11
倒数html代码
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
last - 显示系统最近登录过的用户信息。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
版本兼容性导致Gradle构建失败:边缘计算库依赖管理与解决方案 03-07 Kotlin:重塑编程体验 —— 简洁性、安全性与面向对象+功能性编程的融合 07-25 微服务架构下Spring Boot集成RocketMQ实现实时异步消息推送与系统高可用性 12-08 大气响应式品牌设计公司模板下载 10-14 怎么查mysql的版本号 10-03 [转载]Python:实现counting sort计数排序算法(附完整源码) 10-02 [转载]容器实践线路图 09-17 传智书城html代码 08-22 经典消毒杀菌剂采购公司HTML5网站模板 08-20 本次刷新还10个文章未展示,点击 更多查看。
[转载]激光诱导击穿光谱联合激光诱导荧光技术(LIBS-LIF)在环境监测上的元素分析应用 08-13 [转载]Android 曝光采集(商品view曝光量的统计) 07-29 SpringCloud Feign拦截器中Hystrix线程隔离下SecurityContext获取问题与解决方案 07-29 while循环中条件判断失效问题的排查与修复:布尔表达式错误、无限递归及命令执行失败解决方案 07-15 Kotlin项目中版本冲突问题的解决:依赖项管理、API兼容与编译器设置实践 06-16 Linux环境下SSH密钥对生成失败与不匹配问题:权限、服务器版本、网络因素及配置文件错误的解决方案 06-06 简洁开拓冒险工作室响应式网页模板下载 05-02 Apache Pig与Pig Latin在Hadoop生态系统中的数据处理实践:从加载到清洗,再到聚合统计与错误应对 04-30 绿色通用房屋装修工程公司网站模板 04-29 [转载]【BZOJ3238】差异,后缀数组+单调栈维护height 03-01 Solr JVM调优实践:优化堆内存、垃圾收集器与线程池参数以降低内存占用 01-02
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"