跳至主内容
版本:旧版 (v1.x - v2.x)

爬虫概述

非官方测试版翻译

本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →

实现原理

DocSearch 爬虫采用 Python 编写,其设计深受 Scrapy 框架启发。它会遍历您网站的所有页面,从 HTML 结构中提取内容并填充至 Algolia 索引。

该爬虫会自动跟踪每个内部链接以确保内容无遗漏,同时利用 HTML 结构语义构建记录。这意味着 h1h2 等标题(selectors)将作为层级标识,而每个 p 段落则被视为潜在搜索结果。

这些 CSS 选择器支持自定义覆盖,每个网站都有专属的 JSON 配置文件来详细定义爬虫行为规则。完整配置选项请参阅相关章节

若您希望自行运行 DocSearch,所有代码均已开源并封装为 Docker 镜像。您可下载后使用自己的凭证运行。