Sitemap交了≠Google会爬，未索引这个问题90%的SEO都走错了方向

前一段时间，好几个做独立站的朋友在群里说同一件事：

产品页一直在上，内容也在更，但Google就是不收录。等了两周，三周，四周，还是没动静。去GSC里一看，“已发现但未索引”。更难受的是，有些页面之前明明收录了，后来又掉了。

没人知道为什么。

大家都往内容质量上想。觉得是不是文案太薄，是不是重复度太高，是不是AI写的被降权了。

但后台一个数据没人查过。

点击路径。

有些产品页，从首页点过去，要点6次。对，6次。分类页套分类页，筛选套筛选，最后一个产品藏在第7层。

你不是内容不行。你是让Google爬不到你。

Crawl depth这件事，很多人以前知道这个概念，但没当回事。觉得只要sitemap交了，Google总会爬的。现在回头看，还是太天真了。

— 1 —

你的站点结构，正在吃掉crawl budget

什么是crawl depth？说起来很简单。

首页的crawl depth是0。从首页点一次能到的页面，depth是1。再点一次是2。以此类推。

The New York Times有个数据比价适合当案例：他们从1851年到现在的所有文章，全站没有一篇文章超过5次点击就能从首页到达。

没有一篇。

这是一个120年内容积累的网站做到的事。

而我们很多独立站，去年才上线，产品不到200个，有的页面depth已经到6、7了。

问题出在哪儿？

结构不是“扁”的，是“深”的。一层套一层。分类-子分类-子子分类-筛选-产品。每次点击都往下沉一层。Googlebot来一次，爬到第三层就走了。为什么？crawl budget用完了。

crawl budget不是无限的。Google给你网站每次爬取的页面数量是有限的。如果你把budget浪费在那些depth很深的分类翻页上，真正该被收录的产品页反而轮不到。

怎么改？

用话题簇重组内容结构，不要按“我觉得该这样分”来建分类
电商站必须用品类页做枢纽，所有产品从品类页最多点2次能到
查一遍有没有orphan page（没有任何内部链接指向的页面），这种页面对Google来说根本不存在
导航栏的下拉菜单不是装饰，是给bot指路的

如果你不知道自己现在的站点结构长什么样，用PowerMapper跑一遍。跑完你就知道了。有些你以为“结构还不错”的站，跑出来是一团乱麻。

— 2 —

sitemap不是做完就完了

HTML sitemap和XML sitemap，两个都要有。

这不是什么高阶操作。但我见太多独立站，上线时用Yoast自动生成了一个XML sitemap，交到GSC，就再也没管过。

HTML sitemap呢？没做。

Google明确说两种sitemap都要。XML是给bot读的，HTML是给人读的，但HTML同时也在告诉Google你的站点层级是什么。

去看看The New York Times的HTML sitemap。极简，但有效。按年份、按栏目，全部展开。一个普通用户可能一辈子不会点进去，但对bot来说，那是一条高速公路。

如果你的站点超过50,000个页面，记得做sitemap index page，把多个sitemap串起来。别指望一个sitemap文件把所有页面都列完，那不现实。

还有一件事容易被忽略：sitemap要更新。你上了新页面，删了旧页面，改了URL结构，sitemap得跟着动。不是交一次就完事。

— 3 —

内部链接为什么比你以为的更值钱

很多人做内链是随机的。

写到一篇新文章，想起来加一两个链接指向相关产品。或者干脆不加。觉得“用户自己会搜”。

但内链是在直接改写你的crawl depth。

举个例子。Wikipedia。

如果你只靠导航栏，Wikipedia上一些冷门词条可能要从首页点十几次才能到。但因为他们内链做得极密，bot顺着页面里的链接就能快速抵达那些深层内容。内链等于在站点内部修了无数条捷径。

内链怎么做好？

锚文本用关键词，别用“点击这里”
同一页面上，两个不同链接不要用完全相同的锚文本，bot会困惑
优先链向crawl depth深、现有内链少的页面，雪中送炭比锦上添花有用
链接要有相关性，别硬链
记得链子页面和父页面，上下打通
旧页面定期更新，加链向新内容的链接

还有一个反常识的点：内链自动化工具可以用。

很多人对自动化有偏见，觉得不自然。但说实话，当你站点有几千上万个页面时，一个人根本不可能手动把内链分配得均匀合理。工具初筛，人工判断确认，这个组合比纯手动效率高太多。

— 4 —

“信息线索”这个词，做独立站的都得想想

Nielsen Norman Group提过一个概念叫information scent。

翻译过来大概就是：用户在点一个链接之前，心里会预判“点过去大概能看到什么”。这个预判的准确性，就是信息线索的强弱。

链接标签、周围内容、链接出现的上下文。三个东西决定了用户点不点。

听起来是UX的事，跟SEO有什么关系？

关系很大。

Google在判断一个链接值不值得爬的时候，会看这个链接的上下文信号。一个埋在页面底部、周围没有相关内容的孤零零的链接，和一个嵌在正文中间、上下文清晰的链接，bot对待它们的方式不一样。

而且用户行为会反馈给Google。一个信息线索强的链接，点击率高，停留时间长，Google自然会认为这个页面重要，crawl频率也会提高。

所以做内链别光想着bot。想想人。一个真实用户看到这个链接，知不知道点过去是什么？点过去之后会不会失望？

Walmart首页那个“Shop Now”按钮放在主图中间，周围全是促销信息，用户一秒判断。这就是强信息线索。

— 5 —

站点大了，别把crawl depth搞成KPI

有一点得说清楚。

不是所有页面都必须把depth压到5以内。

有些站点太大了，强行压depth反而会让用户体验变差。你想想，如果微软把所有页面都塞到首页5次点击以内，那个导航栏得变成什么样。

这种情况，抓重点：

站点结构理清楚，层级关系别乱
sitemap做到位，特别是XML sitemap要覆盖全
导航标签用用户能看懂的话，别自己发明词汇

微软的做法可以参考。站点巨大，但导航清晰，HTML sitemap做得全，多个子域名各有各的XML sitemap。他们没有追求所有页面depth都在5以内，但他们让bot知道“这些页面在哪里、怎么找到”。

crawl depth不是越低越好，是越合理越好。

— 6 —

经常更新的页面，让它离首页近一点

这个逻辑很简单。

如果你有页面会频繁更新，比如新品上架页、促销活动页、博客的月度专题，这些页面需要Google快速重新索引。让它们从首页就能直接点到。

Target的“New Arrivals”页面永远在导航栏里。Etsy到母亲节前，会把母亲节专题页提到导航栏上。

为什么？

因为首页的crawl频率是最高的。离首页越近，bot每次来都能看到变化。变化被捕捉得越快，页面在搜索结果里反映得越快。

你想想自己独立站上那些“季节性内容”。圣诞专题是不是等到12月才放出来？放出来之后，是从首页能点到，还是藏在某个角落等bot慢慢发现？

— 7 —

分页问题不大，但忽略就是雷

电商站一定有这个问题。

一个品类下面几百个产品，一页放20个，几十页分页。分页页面的crawl depth天然就深。不处理，就会吃掉大量crawl budget，而且容易产生重复内容。

几个实操点：

每页给独立URL，用?page=n这种参数
每一页都要有链到前一页、后一页、第一页的链接
每页设独立canonical URL，别让Google觉得这些页面是重复内容
带筛选参数的URL用noindex，比如按尺寸、颜色筛选出来的页面，别让bot去爬
前两页以外的分页页面，去掉SEO元素，别让它们在搜索结果里出现

特别注意：不要让分页页面被完全阻止索引。bot是通过分页链接发现深层产品的。你把分页全block了，等于把你自己的产品藏起来了。

— 8 —

URL库存这件事，很少有人提

Google有个说法叫URL inventory。

就是你希望搜索引擎爬的URL清单。

这个清单不是越多越好。是越干净越好。

定期清理。

重复内容能合并就合并
不重要页面用robots.txt拦住
永久删除的页面直接用404或410状态码
软404（重定向到不相关内容）一定要清
301重定向链太长就砍掉
XML sitemap保持最新

为什么这件事重要？

因为你每省下一个被浪费的crawl，Googlebot就能多爬一个你想让它爬的页面。那些depth很深但你很想让Google收录的页面，能不能被爬到，很多时候就看这里省没省出budget。

— 9 —

断链对crawl depth的伤害被低估了

一个页面存在，但指向它的内链断了。

它可能本来depth是3。但因为那条链路断了，bot得绕路，实际depth变成了5、6。更差的情况，这个页面直接变成orphan page，再也没人（没bot）能找到它。

有些工具可以跑定期审计，把断链筛出来。

但工具只是第一步。关键是得有人去修。

我见过一个站，断链攒了快两年没人管。最后去修的时候，发现几十个产品页已经好几个月没被重新爬过了。排名掉的掉，流量跌的跌。

修断链这件事没有技术含量。它只有一个难点：得有人记着做。

— 10 —

最后，看一眼GSC的索引覆盖率

工具能自动化很多东西。但GSC里那个“为什么页面未被索引”的报告，值得你人工点进去看。

有些问题工具不会告诉你。但GSC会。

新页面上了之后，如果很快被索引，说明你的crawl depth和站点健康度大致没问题。如果新页面一直卡在“已发现但未索引”，那大概率是深度太深或者budget没分配过来。

这个检查不需要每天做。但上新页面之后的第3到第7天，打开看一眼。习惯了之后，你对站点的crawl健康度会有一个直觉判断。

— 11 —

再啰嗦几句

站点速度也跟crawl budget有关。页面加载越快，bot单次爬取的页面就越多。PageSpeed Insights跑一遍，目标2秒以内。但这个话题展开就远了，另说。

Crawl depth这件事，单独拿出来讲的人不多。但做独立站久了就会明白，很多“内容不收录”“做了页面没排名”的问题，根源不在内容，不在外链，就在这里。

bot找不到你。

你做得再好也没用。

更多最新文章，请关注公众号：SEOWE跨境说

Sitemap交了≠Google会爬，未索引这个问题90%的SEO都走错了方向

— 1 —

你的站点结构，正在吃掉crawl budget

— 2 —

sitemap不是做完就完了

— 3 —

内部链接为什么比你以为的更值钱

— 4 —

“信息线索”这个词，做独立站的都得想想

— 5 —

站点大了，别把crawl depth搞成KPI

— 6 —

经常更新的页面，让它离首页近一点

— 7 —

分页问题不大，但忽略就是雷

— 8 —

URL库存这件事，很少有人提

— 9 —

断链对crawl depth的伤害被低估了

— 10 —

最后，看一眼GSC的索引覆盖率

— 11 —

再啰嗦几句

相关推荐

评论抢沙发

热门文章

热门分类

热门标签

网站导航

QQ咨询

回顶部

— 1 —

你的站点结构，正在吃掉crawl budget

— 2 —

sitemap不是做完就完了

— 3 —

内部链接为什么比你以为的更值钱

— 4 —

“信息线索”这个词，做独立站的都得想想

— 5 —

站点大了，别把crawl depth搞成KPI

— 6 —

经常更新的页面，让它离首页近一点

— 7 —

分页问题不大，但忽略就是雷

— 8 —

URL库存这件事，很少有人提

— 9 —

断链对crawl depth的伤害被低估了

— 10 —

最后，看一眼GSC的索引覆盖率

— 11 —

再啰嗦几句

相关推荐

评论 抢沙发

热门文章

热门分类

热门标签

网站导航

QQ咨询

回顶部

评论抢沙发