当梦想照进现实

Google 提示 "已发现 - 尚未编入索引" 怎么办

2019.11.04

最近有一位朋友问我 Google Search Console(以下简称 GSC)中较多网页都是“已发现 - 尚未编入索引”(Discovered But Currently Not Indexed) 怎么办,我们网站也深受其害。
通过一些调研和讨论,对 "已发现 - 尚未编入索引" 这个问题有了一些了解,在此分享一下。

"已发现 - 尚未编入索引" 的说明

首先看下官方的内容。英文版内容如下:

Discovered - currently not indexed: The page was found by Google, but not crawled yet. Typically, Google tried to crawl the URL but the site was overloaded; therefore Google had to reschedule the crawl. This is why the last crawl date is empty on the report.

中文版如下:

已发现 - 尚未编入索引:Google 已发现相应网页,但尚未将其编入索引。这通常意味着:Google 尝试抓取该网址了,但当时相应网站正处于超载状态;因此,Google 不得不重新安排抓取时间。这就是该网页的上次抓取日期在报告中为空的原因。

注:我认为这里的超载并不是服务器的超载,而是抓取队列的超载

John Mueller 的解读

John Mueller 在 2018 年的 一次 hangout 中也对 “已发现 - 尚未编入索引” 的问题做了解读。
他认为,首先,Google 并不会抓取和索引所有的网页,部分网页是没有太多抓取和索引的价值
其次,这些网页是已经被 Google 发现的,可能是通过 sitemap,也可能是通过内链
最后,Google 认为这些网页暂时没有太大的抓取价值,所以并没有将这些网页加入到抓取队列,于是就有了 “已发现 - 尚未编入索引” 的提示。

John Mueller 的建议

John Mueller 给出了 3 个针对性的建议。
第一、排查技术故障导致的多套 URL 问题
因为很多网站因为技术问题,导致多套 URL 并存的情况,产生了重复页面,占用了抓取和索引的配额,也影响了整站的质量。
第二、确保内链系统的覆盖度
所有网页都有内链导向,这一点对抓取的影响很大。可以通过第三方的抓取工具测试,看内链系统是否能覆盖所有的网页。
第三、压缩网页数量、提高网页质量
通过压缩网站,网页的数量减少,网页的质量提高,都有利于收录的增长。

我的解读和建议

第一、每个网站都有抓取和索引的配额。也容易理解,Google 用于抓取和索引的服务器和数据库资源是有限的,会只抓取和索引更有价值的网页。
第二、内链对网页优先级的影响。那网页的价值怎么确定呢,尤其是在抓取之前。内链是很重要的一个因素,如果有内链,则增加了加入抓取队列的可能性。
第三、问题主要在抓取环节。 并未到网页内容质量的环节,因为 Google 并未抓取网页。
第四、另一个解决方案,内链模块。John Mueller 有个建议并未点透,就是内链。可以针对 “已发现 - 尚未编入索引” 的网页做特定的内链模块,比如 “最近更新” 这个模块也能满足需求。
第五、网页数量的压缩。除了增加每个网页的内容之外,其实还有其他的方式来压缩网页的数量,提高 Google 抓取的效率,以及整站的质量。

最后,我们也在做这几个方面的相关实验,如果你有相关的实验和案例,欢迎多交流沟通

参考链接

  • 《Google Discovered But Currently Not Indexed Help》https://www.seroundtable.com/google-discovered-currently-not-indexed-help-26697.html
  • 官方文档 《“索引涵盖范围状态”报告》https://support.google.com/webmasters/answer/7440203?hl=zh-Hans#discovered__unclear_status

结尾

附上我和 John Mueller 的合照。之前参加 Google Product Experts 活动拍的,之后不一定有机会参加了。

Comments
Write a Comment
  • 272209589 reply

    针对这些页面做内链,这个方法可行。之前案例实验过,可行。

    • @272209589 赞👍 确实有效

  • 夏天的夏 reply

    页面很多,怎么去发现哪些页面已被索引,哪些页面没有被索引呢

    • @夏天的夏 你是说查收录吗?

      1. 直接在搜索框中搜索网址就能查

      2. webmaster 里也可以查

      • 513245062 reply

        @alexkh 嗯,就是查收录,但是几百万的页面,不能一个个去查吧,也有用个python 或者其他办法去统计收录情况,但是都不是很理想。

        • @513245062 可以把这些建立一个单独的sitemap,这样可以看到整体的收录。

          不过没办法过滤出未收录的。

  • Rain reply

    请问,直接手动提交“已发现 - 尚未编入索引”的页面,这个操作会有什么副作用吗?

    我实验过一个新站,每个页面都是在搜索框输入它的URL搜索,然后手动点击提交,几分钟就会被编入索引

    • @Rain 没有副作用,手动机制确实是可以立即带来爬虫抓取。

      就是数量有点少。

      • Sales reply

        @alexkh 请问这里的数量有点少指的是什么?是这种方法有数量限制吗?

        我之前也是通过手动提交网址的,也是几分钟就会被编入索引,但是从两个月前这种方法突然就无效了,之后再提交的网页,会一直显示“已发现-尚未编入索引”

        • @Sales 嗯,手工提交有数量限制。 但有效性,我不确定是否前后有变化。

  • 但如果页面体量很大,GSC只能展示1000个页面,如何把这些页面找出来做内链呢

    • @阿伟 不用受限于只展示的 1000 个,可以扩大范围,比如近 3 个月有抓取记录的网页,或者再粗放点,全部网页。。

  • www.998visa.net

  • www.idcnx.com

  • 现在流量多元化,各社媒的流量引过来还是不错的