当梦想照进现实

同义词是否用不同页面获取排名|搜索引擎 Query处理简介

2023.06.05


前几天朋友问我同义词怎么处理,要不要做成不同页面来获取排名,给了这2个词: personalized mugcustom mug

我截图做了标注给他,回复:Google 现在已经能识别这些同义词。所以当搜索 personalized mugcustom mug 时,搜索结果的重复度很高(准确来讲,网页召回阶段是相同,排名阶段有少量差异)。
而且上图看见,搜索 personalized 时, custom 也会飘红,所以建议是做一个页面就好了(即2个同义词用一个页面来获取排名)。

Query 处理简介

以上的情况主要是在搜索引擎的 Query 处理阶段。这是用户输入关键词后的第一个阶段。
Google 拿到用户的 Query 词(即搜索词)之后,并不是直接去索引库中查找,而是对 Query 词做了一些处理,比如规范化、分词、扩展和分析等,可以让搜索引擎去除干扰,更理解用户的查询,尽可能地准确地找到用户所需的信息。

主要有以下几个部分:

  • 标点符号处理。去除无关字符,比如特殊符号,标点符号
  • 大小写处理。将大写都改为小写
  • 去掉停用词。比如 the、of、a,这些太常见,且不包含信息的单词
  • 单复数处理。将复数统一为单数,如 phones 改为 phone
  • 时态处理。都时态统一为基本时态,如 runs 改为 run
  • 错别字处理。纠正拼写错误,如 gogle 改为 google

另外为了找到更全面的信息,还会做一些扩展,比如:

  • 同义词扩展。将查询中的某些词替换为它们的同义词,以捕获用户可能使用的不同表述
  • 查询扩展。基于词汇的共现,用户的搜索历史,或者其他信息源来扩展或修改查询

以上环节完成之后,就会形成一个清晰又丰富的词组,可以去索引库中找到更多更准确的网页了。

在 AI 时期,Query 处理对搜索引擎会更重要,因为 Query 更长,更需要了解用户的意图。
最后,因为并不是专业的搜索引擎开发人员,所以有错误之处还请多指教。

Comments
Write a Comment