版本：旧版 (v1.x - v2.x)

引擎内部原理

非官方测试版翻译

本页面由 PageTurner AI 翻译（测试版）。未经项目官方认可。发现错误？报告问题 →

本页将详细说明爬虫如何从您的页面提取内容，以及结果排序机制。

爬取过程

每次爬取都从配置文件中的 start_urls 值开始。爬虫会读取这些页面，递归提取并跟踪所有链接，直至访问完所有合规页面。

如果明确定义了 sitemap.xml，爬虫将抓取所有已提供且合规的页面。建议使用站点地图，因其显式暴露需抓取的 URL，避免遗漏无关联入口的页面。

使用爬虫构建记录非常直观：根据您的设置，我们提取网页内容并建立索引，同时保留原始数据结构。实现方式如下：

注意： 抓取过程中会执行完整性检查以识别错误。若出现严重警告，操作将中止且不会覆盖当前索引。这些检查确保您的专属索引不被清空。

Algolia 始终采用平局决胜机制优先返回最相关结果。DocSearch 会先匹配关键词完全一致的结果，再回溯至部分匹配项，最后根据 selectors 提取的页面层级二次排序。

默认策略优先提升匹配词出现在最高层级的记录。因此当两个结果匹配度相同时，匹配词出现在最高层级（如 lvl0）的记录排序更高。同时考虑匹配词在 HTML 流中的位置——出现越早，排序越高。

相关性基于多因素构建，并通过 Algolia 平局决胜机制进行定制化调整。

可通过 URL 提升页面权重：使用 start_urls 的 page_rank 属性（默认值 0）。数值越高，对应页面的结果排序越靠前。例如：所有 page_rank 为 5 的页面将优先于 page_rank 为 1 的页面显示。

您还可通过配置的 custom_settings 选项覆写索引的默认 customRanking，从而修改相关性策略。