従来のスクレイパーからの移行
このページは PageTurner AI で翻訳されました(ベータ版)。プロジェクト公式の承認はありません。 エラーを見つけましたか? 問題を報告 →
はじめに
新バージョンのDocSearch UIでは、設定ファイルの作成・管理ツールを強化し、皆様から長年要望のあった追加のAlgolia機能を提供できるようになりました!
新機能の概要
スクレイパー
DocSearchのインフラはAlgolia Crawlerを活用するよう進化しました。新たに開発したDocSearchヘルパーが、従来の愛用されていたDocSearchスクレイパーと同様のレコード抽出機能を実現します!
The best part is that you no longer need to install any tooling on your side if you want to maintain or update your index!
新たに提供するWebインターフェース(レガシー版 または 新版)で以下が可能になります:
-
クロールの開始・スケジュール設定・監視
-
ライブエディターでの設定ファイル編集
-
DocSearch v3またはDocSearch v4での直接結果テスト
Algoliaアプリケーションと認証情報
多くのリクエストを受けていた以下の機能:
-
チームメンバー管理
-
Algoliaレコードのインデックス状態閲覧
-
その他Algolia機能の閲覧とサブスクリプション
これら全てがご自身のAlgoliaアプリケーションで無料利用可能になりました :D
よくある質問
DocSearch移行に関するQ&AはCrawler FAQページでご確認いただけます。
役立つリンク
設定ファイルキーマッピング
Below are the keys that can be found in the legacy DocSearch configs and their translation to an Algolia Crawler config. For more detailed information on the Algolia Crawler, see the official documentation.
legacy | current | description |
|---|---|---|
start_urls | startUrls | Now accepts URLs only, see helpers.docsearch to handle custom variables |
page_rank | pageRank | Can be added to the recordProps in helpers.docsearch, should be passed as a string |
js_render | renderJavaScript | Unchanged |
js_wait | renderJavascript.waitTime | See documentation of renderJavaScript |
index_name | removed, see actions | Handled directly in the actions |
sitemap_urls | sitemaps | Unchanged |
stop_urls | exclusionPatterns | Supports micromatch |
selectors_exclude | removed | Should be handled in the recordExtractor and helpers.docsearch |
custom_settings | initialIndexSettings | Unchanged |
scrape_start_urls | removed | Can be handled with exclusionPatterns |
strip_chars | removed | # are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch |
conversation_id | removed | Not needed anymore |
nb_hits | removed | Not needed anymore |
sitemap_alternate_links | removed | Not needed anymore |
stop_content | removed | Should be handled in the recordExtractor and helpers.docsearch |