メインコンテンツへスキップ
バージョン: レガシー (v3.x)

従来のスクレイパーからの移行

非公式ベータ版翻訳

このページは PageTurner AI で翻訳されました(ベータ版)。プロジェクト公式の承認はありません。 エラーを見つけましたか? 問題を報告 →

はじめに

新バージョンのDocSearch UIでは、設定ファイルの作成・管理ツールを強化し、皆様から長年要望のあった追加のAlgolia機能を提供できるようになりました!

新機能の概要

スクレイパー

DocSearchのインフラはAlgolia Crawlerを活用するよう進化しました。新たに開発したDocSearchヘルパーが、従来の愛用されていたDocSearchスクレイパーと同様のレコード抽出機能を実現します!

最大の利点は、インデックスのメンテナンスや更新にローカルツールのインストールが不要になったことです!

新たに提供するWebインターフェース(レガシー版 または 新版)で以下が可能になります:

  • クロールの開始・スケジュール設定・監視

  • ライブエディターでの設定ファイル編集

  • DocSearch v3またはDocSearch v4での直接結果テスト

Algoliaアプリケーションと認証情報

多くのリクエストを受けていた以下の機能:

  • チームメンバー管理

  • Algoliaレコードのインデックス状態閲覧

  • その他Algolia機能の閲覧とサブスクリプション

これら全てがご自身のAlgoliaアプリケーションで無料利用可能になりました :D

よくある質問

DocSearch移行に関するQ&AはCrawler FAQページでご確認いただけます。

役立つリンク

設定ファイルキーマッピング

以下はlegacy DocSearch設定Algolia Crawler設定の対応関係です。詳細なドキュメントは公式ドキュメントでご覧いただけます。

legacycurrentdescription
start_urlsstartUrlsNow accepts URLs only, see helpers.docsearch to handle custom variables
page_rankpageRankCan be added to the recordProps in helpers.docsearch, should be passed as a string
js_renderrenderJavaScriptUnchanged
js_waitrenderJavascript.waitTimeSee documentation of renderJavaScript
index_nameremoved, see actionsHandled directly in the actions
sitemap_urlssitemapsUnchanged
stop_urlsexclusionPatternsSupports micromatch
selectors_excluderemovedShould be handled in the recordExtractor and helpers.docsearch
custom_settingsinitialIndexSettingsUnchanged
scrape_start_urlsremovedCan be handled with exclusionPatterns
strip_charsremoved# are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch
conversation_idremovedNot needed anymore
nb_hitsremovedNot needed anymore
sitemap_alternate_linksremovedNot needed anymore
stop_contentremovedShould be handled in the recordExtractor and helpers.docsearch