従来のスクレイパーからの移行
非公式ベータ版翻訳
このページは PageTurner AI で翻訳されました(ベータ版)。プロジェクト公式の承認はありません。 エラーを見つけましたか? 問題を報告 →
はじめに
新バージョンのDocSearch UIでは、設定ファイルの作成・管理ツールを強化し、皆様から長年 要望のあった追加のAlgolia機能を提供できるようになりました!
新機能の概要
スクレイパー
DocSearchのインフラはAlgolia Crawlerを活用するよう進化しました。新たに開発したDocSearchヘルパーが、従来の愛用されていたDocSearchスクレイパーと同様のレコード抽出機能を実現します!
最大の利点は、インデックスのメンテナンスや更新にローカルツールのインストールが不要になったことです!
新たに提供するWebインターフェース(レガシー版 または 新版)で以下が可能になります:
-
クロールの開始・スケジュール設定・監視
-
ライブエディターでの設定ファイル編集
-
DocSearch v3またはDocSearch v4での直接結果テスト
Algoliaアプリケーションと認証情報
多くのリクエストを受けていた以下の機能:
-
チームメンバー管理
-
Algoliaレコードのインデックス状態閲覧
-
その他Algolia機能の閲覧とサブスクリプション
これら全てがご自身のAlgoliaアプリケーションで無料利用可能になりました :D
よくある質問
DocSearch移行に関するQ&AはCrawler FAQページでご確認いただけます。
役立つリンク
設定ファイルキーマッピング
以下はlegacy DocSearch設定とAlgolia Crawler設定の対応関係です。詳細なドキュメントは公式ドキュメントでご覧いただけます。
legacy | current | description |
|---|---|---|
start_urls | startUrls | Now accepts URLs only, see helpers.docsearch to handle custom variables |
page_rank | pageRank | Can be added to the recordProps in helpers.docsearch, should be passed as a string |
js_render | renderJavaScript | Unchanged |
js_wait | renderJavascript.waitTime | See documentation of renderJavaScript |
index_name | removed, see actions | Handled directly in the actions |
sitemap_urls | sitemaps | Unchanged |
stop_urls | exclusionPatterns | Supports micromatch |
selectors_exclude | removed | Should be handled in the recordExtractor and helpers.docsearch |
custom_settings | initialIndexSettings | Unchanged |
scrape_start_urls | removed | Can be handled with exclusionPatterns |
strip_chars | removed | # are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch |
conversation_id | removed | Not needed anymore |
nb_hits | removed | Not needed anymore |
sitemap_alternate_links | removed | Not needed anymore |
stop_content | removed | Should be handled in the recordExtractor and helpers.docsearch |