Migration depuis l'ancien scraper
Cette page a été traduite par PageTurner AI (bêta). Non approuvée officiellement par le projet. Vous avez trouvé une erreur ? Signaler un problème →
Introduction
Avec la nouvelle version de l'interface DocSearch, nous voulons aller plus loin en vous offrant de meilleurs outils pour créer et maintenir votre fichier de configuration, ainsi que des fonctionnalités Algolia supplémentaires que vous réclamiez depuis longtemps !
Quoi de neuf ?
Scraper
L'infrastructure DocSearch s'appuie désormais sur le Crawler Algolia. Nous avons collaboré avec nos équipes pour créer un nouvel outil DocSearch qui extrait les enregistrements comme le faisait notre cher ancien scraper DocSearch !
Le meilleur dans tout ça ? Plus besoin d'installer d'outils localement pour maintenir ou mettre à jour votre index !
Nous proposons désormais une interface web héritée ou nouvelle qui vous permet de :
-
Démarrer, planifier et surveiller vos crawls
-
Modifier votre fichier de configuration via notre éditeur en direct
-
Tester vos résultats directement avec DocSearch v3 ou DocSearch v4
Application Algolia et identifiants
Nous avons reçu de nombreuses demandes concernant :
-
La gestion des membres d'équipe
-
La consultation de l'indexation des enregistrements Algolia
-
L'accès et l'abonnement à d'autres fonctionnalités Algolia
Tout cela est désormais disponible dans votre propre application Algolia, gratuitement :D
FAQ
Retrouvez les réponses concernant la migration DocSearch sur notre page FAQ du Crawler.
Liens utiles
Correspondance des clés du fichier de configuration
Vous trouverez ci-dessous les clés présentes dans les configurations DocSearch legacy et leur équivalent dans une configuration de Crawler Algolia. Une documentation plus détaillée du Crawler Algolia est disponible sur la documentation officielle.
legacy | current | description |
|---|---|---|
start_urls | startUrls | Now accepts URLs only, see helpers.docsearch to handle custom variables |
page_rank | pageRank | Can be added to the recordProps in helpers.docsearch, should be passed as a string |
js_render | renderJavaScript | Unchanged |
js_wait | renderJavascript.waitTime | See documentation of renderJavaScript |
index_name | removed, see actions | Handled directly in the actions |
sitemap_urls | sitemaps | Unchanged |
stop_urls | exclusionPatterns | Supports micromatch |
selectors_exclude | removed | Should be handled in the recordExtractor and helpers.docsearch |
custom_settings | initialIndexSettings | Unchanged |
scrape_start_urls | removed | Can be handled with exclusionPatterns |
strip_chars | removed | # are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch |
conversation_id | removed | Not needed anymore |
nb_hits | removed | Not needed anymore |
sitemap_alternate_links | removed | Not needed anymore |
stop_content | removed | Should be handled in the recordExtractor and helpers.docsearch |