引擎内部原理
本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →
本页将详细说明爬虫如何从您的页面提取内容,以及结果排序机制。
爬取过程
每次爬取都从配置文件中的 start_urls 值开始。爬虫会读取这些页面,递归提取并跟踪所有链接,直至访问完所有合规页面。
如果明确定义了 sitemap.xml,爬虫将抓取所有已提供且合规的页面。建议使用站点地图,因其显式暴露需抓取的 URL,避免遗漏无关联入口的页面。
内容提取
使用爬虫构建记录非常直观: 根据您的设置,我们提取网页内容并建立索引,同时保留原始数据结构。实现方式如下:
-
自上而下读取网页 HTML 流,根据
selectors_level定义的元素层级提取匹配项 -
为每个段落创建记录及其层级路径,该结构基于其在 HTML 流中的出现顺序
-
使用全局设置(如元数据、标签等)索引这些记录
注意: 抓取过程中会执行完整性检查以识别错误。若出现严重警告,操作将中止且不会覆盖当前索引。这些检查确保您的专属索引不被清空。
记录排序
Algolia 始终采用平局决胜机制优先返回最相关结果。DocSearch 会先匹配关键词完全一致的结果,再回溯至部分匹配项,最后根据 selectors 提取的页面层级二次排序。
默认策略优先提升匹配词出现在最高层级的记录。因此当两个结果匹配度相同时,匹配词出现在最高层级(如 lvl0)的记录排序更高。同时考虑匹配词在 HTML 流中的位置——出现越早,排序越高。
相关性基于多因素构建,并通过 Algolia 平局决胜机制进行定制化调整。
可通过 URL 提升页面权重:使用 start_urls 的 page_rank 属性(默认值 0)。数值越高,对应页面的结果排序越靠前。例如:所有 page_rank 为 5 的页面将优先于 page_rank 为 1 的页面显示。
您还可通过配置的 custom_settings 选项覆写索引的默认 customRanking,从而修改相关性策略。