スクレイパーの概要
非公式ベータ版翻訳
このページは PageTurner AI で翻訳されました(ベータ版)。プロジェクト公式の承認はありません。 エラーを見つけましたか? 問題を報告 →
動作の仕組み
DocSearchのスクレイパーはPythonで書かれており、Scrapyフレームワークに強く影響を受けています。ウェブサイトの全ページを巡回し、HTML構造からコンテンツを抽出してAlgoliaインデックスを構築します。
すべての内部リンクを自動的に追跡してコン テンツの取りこぼしを防ぎ、HTML構造の意味論を利用してレコードを構築します。具体的には、h1、h2などのタイトル(selectors)が階層構造として利用され、各p要素が検索結果候補として使用されます。
これらのCSSセレクターは上書き可能で、各ウェブサイトにはスクレイパーの動作を詳細に定義する専用のJSON設定ファイルがあります。設定可能なオプションの完全なリストは関連セクションで確認できます。
独自でDocSearchを実行したい場合、すべてのコードはオープンソース化されており、Dockerイメージとしても提供されています。ダウンロードして独自の認証情報で実行できます。