跳至主内容
版本:稳定版 (v4.x)

从旧版爬虫迁移

非官方测试版翻译

本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →

简介

随着新版 DocSearch UI 的发布,我们希望更进一步,为您提供更强大的工具来创建和维护配置文件,并实现大家期待已久的 Algolia 功能!

有哪些新变化?

爬虫工具

DocSearch 基础设施现已采用 Algolia Crawler。我们与合作伙伴共同开发了全新的 DocSearch 助手,它能像我们之前钟爱的 DocSearch 爬虫 一样提取记录!

最棒的是,当您需要维护或更新索引时,不再需要安装任何本地工具!

我们现在提供 旧版新版 网页界面,让您可以:

  • 启动、调度和监控爬取任务

  • 通过实时编辑器修改配置文件

  • 直接使用 DocSearch v3DocSearch v4 测试结果

Algolia 应用与凭证

我们收到了大量功能请求,包括:

  • 团队成员管理功能

  • 浏览 Algolia 记录的索引方式

  • 查看并订阅其他 Algolia 功能

现在这些功能已全部在 您专属的 Algolia 应用 中免费提供 :D

常见问题

您可以在 Crawler 常见问题页面 找到与 DocSearch 迁移相关的解答。

实用链接

配置文件键映射

以下是 legacy DocSearch 配置 中的键名及其对应的 Algolia Crawler 配置 映射。更多 Algolia Crawler 的详细文档可在 官方文档 查阅。

legacycurrentdescription
start_urlsstartUrlsNow accepts URLs only, see helpers.docsearch to handle custom variables
page_rankpageRankCan be added to the recordProps in helpers.docsearch, should be passed as a string
js_renderrenderJavaScriptUnchanged
js_waitrenderJavascript.waitTimeSee documentation of renderJavaScript
index_nameremoved, see actionsHandled directly in the actions
sitemap_urlssitemapsUnchanged
stop_urlsexclusionPatternsSupports micromatch
selectors_excluderemovedShould be handled in the recordExtractor and helpers.docsearch
custom_settingsinitialIndexSettingsUnchanged
scrape_start_urlsremovedCan be handled with exclusionPatterns
strip_charsremoved# are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch
conversation_idremovedNot needed anymore
nb_hitsremovedNot needed anymore
sitemap_alternate_linksremovedNot needed anymore
stop_contentremovedShould be handled in the recordExtractor and helpers.docsearch