版本：旧版 (v1.x - v2.x)

爬虫概述

非官方测试版翻译

本页面由 PageTurner AI 翻译（测试版）。未经项目官方认可。发现错误？报告问题 →

实现原理

DocSearch 爬虫采用 Python 编写，其设计深受 Scrapy 框架启发。它会遍历您网站的所有页面，从 HTML 结构中提取内容并填充至 Algolia 索引。

该爬虫会自动跟踪每个内部链接以确保内容无遗漏，同时利用 HTML 结构语义构建记录。这意味着 h1、h2 等标题（selectors）将作为层级标识，而每个 p 段落则被视为潜在搜索结果。

这些 CSS 选择器支持自定义覆盖，每个网站都有专属的 JSON 配置文件来详细定义爬虫行为规则。完整配置选项请参阅相关章节。

若您希望自行运行 DocSearch，所有代码均已开源并封装为 Docker 镜像。您可下载后使用自己的凭证运行。