分享-学习-交流

Sitemap交了≠Google会爬,未索引这个问题90%的SEO都走错了方向

前一段时间,好几个做独立站的朋友在群里说同一件事:

产品页一直在上,内容也在更,但Google就是不收录。等了两周,三周,四周,还是没动静。去GSC里一看,“已发现但未索引”。更难受的是,有些页面之前明明收录了,后来又掉了。

没人知道为什么。

大家都往内容质量上想。觉得是不是文案太薄,是不是重复度太高,是不是AI写的被降权了。

但后台一个数据没人查过。

点击路径。

有些产品页,从首页点过去,要点6次。对,6次。分类页套分类页,筛选套筛选,最后一个产品藏在第7层。

你不是内容不行。你是让Google爬不到你。

Crawl depth这件事,很多人以前知道这个概念,但没当回事。觉得只要sitemap交了,Google总会爬的。现在回头看,还是太天真了。

— 1 — 

你的站点结构,正在吃掉crawl budget

什么是crawl depth?说起来很简单。

首页的crawl depth是0。从首页点一次能到的页面,depth是1。再点一次是2。以此类推。

The New York Times有个数据比价适合当案例:他们从1851年到现在的所有文章,全站没有一篇文章超过5次点击就能从首页到达。

没有一篇。

这是一个120年内容积累的网站做到的事。

而我们很多独立站,去年才上线,产品不到200个,有的页面depth已经到6、7了。

问题出在哪儿?

结构不是“扁”的,是“深”的。一层套一层。分类-子分类-子子分类-筛选-产品。每次点击都往下沉一层。Googlebot来一次,爬到第三层就走了。为什么?crawl budget用完了。

crawl budget不是无限的。Google给你网站每次爬取的页面数量是有限的。如果你把budget浪费在那些depth很深的分类翻页上,真正该被收录的产品页反而轮不到。

怎么改?

  • 用话题簇重组内容结构,不要按“我觉得该这样分”来建分类

  • 电商站必须用品类页做枢纽,所有产品从品类页最多点2次能到

  • 查一遍有没有orphan page(没有任何内部链接指向的页面),这种页面对Google来说根本不存在

  • 导航栏的下拉菜单不是装饰,是给bot指路的

如果你不知道自己现在的站点结构长什么样,用PowerMapper跑一遍。跑完你就知道了。有些你以为“结构还不错”的站,跑出来是一团乱麻。

— 2 —

 sitemap不是做完就完了

HTML sitemap和XML sitemap,两个都要有。

这不是什么高阶操作。但我见太多独立站,上线时用Yoast自动生成了一个XML sitemap,交到GSC,就再也没管过。

HTML sitemap呢?没做。

Google明确说两种sitemap都要。XML是给bot读的,HTML是给人读的,但HTML同时也在告诉Google你的站点层级是什么。

去看看The New York Times的HTML sitemap。极简,但有效。按年份、按栏目,全部展开。一个普通用户可能一辈子不会点进去,但对bot来说,那是一条高速公路。

如果你的站点超过50,000个页面,记得做sitemap index page,把多个sitemap串起来。别指望一个sitemap文件把所有页面都列完,那不现实。

还有一件事容易被忽略:sitemap要更新。你上了新页面,删了旧页面,改了URL结构,sitemap得跟着动。不是交一次就完事。

— 3 — 

内部链接为什么比你以为的更值钱

很多人做内链是随机的。

写到一篇新文章,想起来加一两个链接指向相关产品。或者干脆不加。觉得“用户自己会搜”。

但内链是在直接改写你的crawl depth。

举个例子。Wikipedia。

如果你只靠导航栏,Wikipedia上一些冷门词条可能要从首页点十几次才能到。但因为他们内链做得极密,bot顺着页面里的链接就能快速抵达那些深层内容。内链等于在站点内部修了无数条捷径。

内链怎么做好?

  • 锚文本用关键词,别用“点击这里”

  • 同一页面上,两个不同链接不要用完全相同的锚文本,bot会困惑

  • 优先链向crawl depth深、现有内链少的页面,雪中送炭比锦上添花有用

  • 链接要有相关性,别硬链

  • 记得链子页面和父页面,上下打通

  • 旧页面定期更新,加链向新内容的链接

还有一个反常识的点:内链自动化工具可以用。

很多人对自动化有偏见,觉得不自然。但说实话,当你站点有几千上万个页面时,一个人根本不可能手动把内链分配得均匀合理。工具初筛,人工判断确认,这个组合比纯手动效率高太多。

— 4 — 

“信息线索”这个词,做独立站的都得想想

Nielsen Norman Group提过一个概念叫information scent。

翻译过来大概就是:用户在点一个链接之前,心里会预判“点过去大概能看到什么”。这个预判的准确性,就是信息线索的强弱。

链接标签、周围内容、链接出现的上下文。三个东西决定了用户点不点。

听起来是UX的事,跟SEO有什么关系?

关系很大。

Google在判断一个链接值不值得爬的时候,会看这个链接的上下文信号。一个埋在页面底部、周围没有相关内容的孤零零的链接,和一个嵌在正文中间、上下文清晰的链接,bot对待它们的方式不一样。

而且用户行为会反馈给Google。一个信息线索强的链接,点击率高,停留时间长,Google自然会认为这个页面重要,crawl频率也会提高。

所以做内链别光想着bot。想想人。一个真实用户看到这个链接,知不知道点过去是什么?点过去之后会不会失望?

Walmart首页那个“Shop Now”按钮放在主图中间,周围全是促销信息,用户一秒判断。这就是强信息线索。

— 5 — 

站点大了,别把crawl depth搞成KPI

有一点得说清楚。

不是所有页面都必须把depth压到5以内。

有些站点太大了,强行压depth反而会让用户体验变差。你想想,如果微软把所有页面都塞到首页5次点击以内,那个导航栏得变成什么样。

这种情况,抓重点:

  • 站点结构理清楚,层级关系别乱

  • sitemap做到位,特别是XML sitemap要覆盖全

  • 导航标签用用户能看懂的话,别自己发明词汇

微软的做法可以参考。站点巨大,但导航清晰,HTML sitemap做得全,多个子域名各有各的XML sitemap。他们没有追求所有页面depth都在5以内,但他们让bot知道“这些页面在哪里、怎么找到”。

crawl depth不是越低越好,是越合理越好。

— 6 — 

经常更新的页面,让它离首页近一点

这个逻辑很简单。

如果你有页面会频繁更新,比如新品上架页、促销活动页、博客的月度专题,这些页面需要Google快速重新索引。让它们从首页就能直接点到。

Target的“New Arrivals”页面永远在导航栏里。Etsy到母亲节前,会把母亲节专题页提到导航栏上。

为什么?

因为首页的crawl频率是最高的。离首页越近,bot每次来都能看到变化。变化被捕捉得越快,页面在搜索结果里反映得越快。

你想想自己独立站上那些“季节性内容”。圣诞专题是不是等到12月才放出来?放出来之后,是从首页能点到,还是藏在某个角落等bot慢慢发现?

— 7 —

 分页问题不大,但忽略就是雷

电商站一定有这个问题。

一个品类下面几百个产品,一页放20个,几十页分页。分页页面的crawl depth天然就深。不处理,就会吃掉大量crawl budget,而且容易产生重复内容。

几个实操点:

  • 每页给独立URL,用?page=n这种参数

  • 每一页都要有链到前一页、后一页、第一页的链接

  • 每页设独立canonical URL,别让Google觉得这些页面是重复内容

  • 带筛选参数的URL用noindex,比如按尺寸、颜色筛选出来的页面,别让bot去爬

  • 前两页以外的分页页面,去掉SEO元素,别让它们在搜索结果里出现

特别注意:不要让分页页面被完全阻止索引。bot是通过分页链接发现深层产品的。你把分页全block了,等于把你自己的产品藏起来了。

— 8 —

 URL库存这件事,很少有人提

Google有个说法叫URL inventory。

就是你希望搜索引擎爬的URL清单。

这个清单不是越多越好。是越干净越好。

定期清理。

  • 重复内容能合并就合并

  • 不重要页面用robots.txt拦住

  • 永久删除的页面直接用404或410状态码

  • 软404(重定向到不相关内容)一定要清

  • 301重定向链太长就砍掉

  • XML sitemap保持最新

为什么这件事重要?

因为你每省下一个被浪费的crawl,Googlebot就能多爬一个你想让它爬的页面。那些depth很深但你很想让Google收录的页面,能不能被爬到,很多时候就看这里省没省出budget。

— 9 — 

断链对crawl depth的伤害被低估了

一个页面存在,但指向它的内链断了。

它可能本来depth是3。但因为那条链路断了,bot得绕路,实际depth变成了5、6。更差的情况,这个页面直接变成orphan page,再也没人(没bot)能找到它。

有些工具可以跑定期审计,把断链筛出来。

但工具只是第一步。关键是得有人去修。

我见过一个站,断链攒了快两年没人管。最后去修的时候,发现几十个产品页已经好几个月没被重新爬过了。排名掉的掉,流量跌的跌。

修断链这件事没有技术含量。它只有一个难点:得有人记着做。

— 10 — 

最后,看一眼GSC的索引覆盖率

工具能自动化很多东西。但GSC里那个“为什么页面未被索引”的报告,值得你人工点进去看。

有些问题工具不会告诉你。但GSC会。

新页面上了之后,如果很快被索引,说明你的crawl depth和站点健康度大致没问题。如果新页面一直卡在“已发现但未索引”,那大概率是深度太深或者budget没分配过来。

这个检查不需要每天做。但上新页面之后的第3到第7天,打开看一眼。习惯了之后,你对站点的crawl健康度会有一个直觉判断。

— 11 —  

再啰嗦几句

站点速度也跟crawl budget有关。页面加载越快,bot单次爬取的页面就越多。PageSpeed Insights跑一遍,目标2秒以内。但这个话题展开就远了,另说。

Crawl depth这件事,单独拿出来讲的人不多。但做独立站久了就会明白,很多“内容不收录”“做了页面没排名”的问题,根源不在内容,不在外链,就在这里。

bot找不到你。

你做得再好也没用。


赞(0) 打赏
SEOWECHAT文章未经允许不得转载:SEOWECHAT » Sitemap交了≠Google会爬,未索引这个问题90%的SEO都走错了方向

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址