跳至主内容
版本:稳定版 (v4.x)
非官方测试版翻译

本页面由 PageTurner AI 翻译(测试版)。未经项目官方认可。 发现错误? 报告问题 →

创建新的爬虫程序

信息

2024年7月2日之后创建的DocSearch应用现可使用Algolia爬虫界面配置和管理抓取任务。本指南将引导您完成添加域名、验证所有权、创建爬虫程序以及运行首次测试抓取的全过程。您可在dashboard.algolia.com/crawler访问新版爬虫界面。

若您在2024年7月2日前注册,仍可使用爬虫界面,但该日期后注册的用户在创建和管理爬虫程序时将享受更简化的流程。

详细了解新版爬虫界面/用户体验功能

添加域名

  1. 登录Algolia控制面板

  2. 在左侧边栏选择数据源

  3. 选择爬虫

    • 点击添加您的域名并输入需抓取的域名或子域名(如example.comwww.example.com
    • 若已添加过域名,请点击域名标签页
  4. 点击添加域名

DocSearch Domains Management

注意: 添加域名后需在7天宽限期内完成验证,且必须获得DocSearch团队批准后方可进行抓取。

验证域名所有权

每个待抓取域名均需验证所有权。默认采用邮件验证,也可选用meta标签、HTML文件、robots.txt或DNS记录方式。

Meta标签验证

  1. Meta标签标签页点击复制获取验证标签

  2. 将标签添加至网站<head>区块

  3. 发布网站更新,返回爬虫控制面板点击立即验证

HTML文件验证

  1. HTML文件标签页点击复制获取验证文件内容

  2. 保存为HTML文件并上传至Web服务器

  3. 在控制面板输入文件URL后点击立即验证

robots.txt验证

  1. Robots.txt标签页点击复制获取验证代码

  2. 将代码粘贴至网站robots.txt文件

  3. 发布更新后点击立即验证

DNS验证

  1. DNS标签页复制提供的DNS TXT记录

  2. 将记录添加至DNS服务商设置

  3. 记录生效后(最长可能需要72小时)点击立即验证

创建新爬虫程序

当域名完成验证且获得DocSearch团队批准后:

  1. 前往控制面板的爬虫页面

  2. 点击新建爬虫并填写:

    • 爬虫名称(描述性名称)
    • 应用ID(您的Algolia应用ID)
    • 起始URL(通常为主页)
    • 爬虫模板(选择模板或默认配置)
  3. 点击创建完成设置并运行测试抓取

运行测试抓取

初始爬取将访问最多 100 个 URL 以测试访问权限和数据提取效果。您可以在 概览 页面监控进度。完成后,请在 Algolia 仪表板中查看提取的记录。

后续步骤

  • 编辑爬取器配置以设置定时爬取、包含/排除规则和提取设置

  • 根据爬取器的优化建议进行改进

  • 更多详情请参阅 官方 Algolia 文档