Vue d'ensemble du scraper
Cette page a été traduite par PageTurner AI (bêta). Non approuvée officiellement par le projet. Vous avez trouvé une erreur ? Signaler un problème →
Comment fonctionne-t-il ?
Le scraper DocSearch est écrit en Python et s'inspire fortement du framework Scrapy. Il parcourt toutes les pages de votre site web et extrait le contenu de la structure HTML pour peupler un index Algolia.
Il suit automatiquement chaque lien interne pour s'assurer qu'aucun contenu n'est omis, et utilise la sémantique de votre structure HTML pour construire ses enregistrements. Cela signifie que les titres h1, h2, etc. (selectors) sont utilisés comme hiérarchie, et chaque p est traité comme un résultat potentiel.
Ces sélecteurs CSS peuvent être modifiés, et chaque site web possède son propre fichier de configuration JSON qui décrit plus en détail le comportement du scraper. Vous trouverez la liste complète des options dans la section dédiée.
Si vous souhaitez exécuter DocSearch vous-même, tout le code est open source et même packagé en image Docker. Téléchargez-le et exécutez-le avec vos propres identifiants.