常见问题解答
本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →
若在本站未找到答案,本页面将为您提供帮助。若仍有疑问,请随时通过 Discord 联系我们或告知 支持团队。
你们收集哪些数据?
我们提取您网站的 HTML 标记数据,将其转换为定制 JSON 格式(非原始 HTML)。这些数据将存入 Algolia DocSearch 索引。配置文件中的选择器决定了抓取的数据范围。
数据存储在哪里?
DocSearch 数据托管于 Algolia 的全球分布式服务器。更多服务器详情请参阅 服务器规格,完整信息可查看 隐私政策。
能否在非文档页面使用DocSearch?
我们提供的免费 DocSearch 仅抓取开源文档项目页面或技术博客。若需用于网站其他部分,您需创建自己的 Algolia 账户并选择:
-
自行运行 DocSearch 爬虫
-
使用其他 框架集成或 API 客户端
能否索引代码示例?
可以,但不建议这样做。
代码示例虽是人类理解方法用法的好方式,但通常包含大量重复的样板代码,这些噪音会降低搜索结果质量。
我们建议改为:在配置中使用 selectors_exclude 选项排除代码块索引,并通过结构化内容将方法名置于标题中。
为何搜索结果中 出现重复内容?
当多个 URL 指向相同内容时会出现此情况,例如 ./docs、./docs/ 和 ./docs/index.html。
将需排除的 URL 模式填入 stop_urls。以下示例将排除所有以 / 或 index.html 结尾的 URL:
{
"stop_urls": ["/$", "/index.html$"]
}
为何从 Algolia 控制台进行的自定义修改无效?
出于某些原因,您可能希望通过控制台修改设置。
每次成功抓取都会重置 DocSearch 设置,下次抓取时将覆盖这些设置。强烈建议避免在控制台进行任何修改,这些设置实际来源于 JSON 配置文件。
您可使用 custom_settings 参数 实现此目的。
我喜欢的文档网站未使用DocSearch,该怎么办?
我们很乐意提供帮助!
若您喜爱的工具文档网站未使用 DocSearch,请在其代码仓库提交 issue 说明 DocSearch 的益处。也欢迎发送邮件告知我们,我们将全力协助。
DocSearch 爬虫会创建多少条记录?
配置中的 nb_hits 属性 记录了最近一次抓取提取并索引的记录数,该数值会在每次抓取后自动更新。
DocSearch 爬虫遵循 推荐的原子化重建索引策略。它会创建全新的临时索引存储网站抓取数据,成功后将覆盖配置中 index_name 定义的旧索引。
为何我的页面未被索引?
我们正根据您的配置抓取网站,部分页面可能未被索引,常见原因包括:
-
请检查是否因误用
facetFilters过滤了搜索结果。详见此处 -
确保其他已索引页面通过
<a/>超链接引用了缺失页面 -
确认您在配置中提供了合规站点地图且其中包含该页面
这个网站是如何构建的?
本站基于 Docusaurus v2 构建。我们深受杰出伙伴 Endi 的启发与帮助,谨此致敬这位永远属于 DocSearch 项目的非凡伙伴。安息吧!
v3 版本的发布时间表是怎样的?
我们正于 Docusaurus 2 上预发布 v3 版本,以加速迭代并确保稳定版顺利发布。我们将提供迁移指南协助您升级,更多详情可观看相关主题的搜索派对。
能否在代码仓库公开分享apiKey?
DocSearch团队提供的apiKey是仅限搜索的密钥,可安全公开共享。您可以将其纳入版本控制系统(如Git)进行跟踪。若您自行运行爬虫程序,请确保创建仅限搜索的密钥,并切勿分享管理员密钥。