当梦想照进现实

Google BERT 算法更新全解读

2019.10.31

2019 年 10 月 25 日,Google 宣布 BERT 更新上线,可以以更接近人的方式去理解 Query(用户搜索词)的含义,从而提升搜索体验,预计影响 10% 的英文搜索
并且,Google 称 BERT 算法是过去五年来突破最大的算法,也是 Google 搜索历史上突破最大的算法之一。
本文是我针对 Google BERT 算法的完整说明,并将持续更新。

什么是 BERT 算法

BERT 的全称是 Bidirectional Encoder Representations from Transformers,是一种基于神经网络的自然语言处理预训练的技术。
BERT 算法最大的突破是可以通过前后的单词来理解某个单词的内在含义,从而增强对 Query 内在含义的理解,而不是逐个单词去单独理解。

注:

  1. BERT 模型被称为 “最强 NLP 模型”,Google 也在 2018 年底开源了 BERT 模型,相关论文也荣获 NAACL 2018 年的最佳长论文;
  2. 我在内网搜索了下,BERT 算法已经在智能机器人、Feeds 等多个方面实践。

具体内容和影响

利用 BERT 算法,Google 可以加强对 Query 的理解,从而影响搜索结果。
目前 Google 称大概会影响 10% 的美国地区的英文搜索,之后将推广到其他语言和国家。
Google BERT 算法在 10 月 21 日左右切流,在 27 日完全上线,所以 SEOs 可以具体观测 27 日之后的数据变化。

另外,精选摘要(Featured Snippets)已经在全球 20 多个国家应用了 BERT 算法,比如韩语、印地语、葡萄牙语。

BERT 算法的示例

示例一


Query 为 2019 brazil traveler to usa need a visa。 其中的单词 to 和其他单词的关系对理解整个 Query 的含义非常重要。这个 Query 是巴西人去美国旅游,如果用之前的算法(按照文本匹配),是无法理解其中的关系,会返回美国人去巴西的相关结果。
但借助 BERT 算法,可以理解其中的细微差距,并能知道单词 to 有很重要的内在含义,这样就可以给出更相关的网页结果。

示例二


第二个 Query 是 do estheticians stand a lot at work,按照之前文本匹配的模型,Query 中的 stand 找到的匹配网页是包含 stand-alone 的结果(因为包含 stand ),但实际上并不是 Query 中 stand 的含义。
在 BERT 模型下,可以理解 stand 是身体上站立的概念,所以会返回更相关的网页。

关于 BERT 对 Query 中内在含义的精确理解,还有以下 3 个示例:

SEOs 该做什么

那么问题来了,针对这次 “爆炸性”的 BERT 更新,SEOs 应该做些什么?
答案是:什么都不用做
Google 的 Danny Sullivan 原话是:"不需要针对 BERT 做任何优化,要保持初心:为用户提供优质内容。"

我对 BERT 算法的看法

为什么要推出 BERT 算法呢?Google 每天有 15% 的 Query 是从未搜索过的,而之前的文本模型对 Query 的理解比较浅显,无法 get 到内在含义。
Query 的识别其实是 Google 搜索闭环的第一步,所以极其重要。之前的熊猫算法、企鹅算法,都是针对网页排序的优化,都只属于第二步。

另外,因为是对 Query 识别的升级,对偏长尾流量的影响越明显

最后,从我的实际观测以及论坛的反馈来看,BERT 算法其实并没有想象中的大幅影响,甚至还不如日常的算法更新,可能是因为并不是针对排序的优化。
下图是 Algoroo.com 的排序监控情况:

相关文档

  • 《Understanding searches better than ever before》https://www.blog.google/products/search/search-language-understanding-bert/
  • 《Google BERT Update Impacts 10% Queries & Has Been Rolling Out All Week》https://www.seroundtable.com/google-bert-update-28427.html
  • Google SearchLiaison 在 Twitter 对 BERT 算法的说明:https://twitter.com/searchliaison/status/1187732030399889409
  • Danny Sullivan 在 Twitter 对 BERT 算法的说明:https://twitter.com/dannysullivan/status/1188689288915050498
Comments
Write a Comment
  • 张神,持续关注。 能否推出一些关于外链的知识点?

    • @潘 外链这一块了解的还不多,有足够的内容会整理成文章。

      这个称呼有点奇怪啊。