Aller au contenu principal
Version : Stable (v4.x)

Migration depuis l'ancien scraper

Traduction Bêta Non Officielle

Cette page a été traduite par PageTurner AI (bêta). Non approuvée officiellement par le projet. Vous avez trouvé une erreur ? Signaler un problème →

Introduction

Avec la nouvelle version de l'interface DocSearch, nous voulons aller plus loin en vous offrant de meilleurs outils pour créer et maintenir votre fichier de configuration, ainsi que des fonctionnalités Algolia supplémentaires que vous réclamiez depuis longtemps !

Quoi de neuf ?

Scraper

L'infrastructure DocSearch s'appuie désormais sur le Crawler Algolia. Nous avons collaboré avec nos équipes pour créer un nouvel outil DocSearch qui extrait les enregistrements comme le faisait notre cher ancien scraper DocSearch !

Le meilleur dans tout ça ? Plus besoin d'installer d'outils localement pour maintenir ou mettre à jour votre index !

Nous proposons désormais une interface web héritée ou nouvelle qui vous permet de :

  • Démarrer, planifier et surveiller vos crawls

  • Modifier votre fichier de configuration via notre éditeur en direct

  • Tester vos résultats directement avec DocSearch v3 ou DocSearch v4

Application Algolia et identifiants

Nous avons reçu de nombreuses demandes concernant :

  • La gestion des membres d'équipe

  • La consultation de l'indexation des enregistrements Algolia

  • L'accès et l'abonnement à d'autres fonctionnalités Algolia

Tout cela est désormais disponible dans votre propre application Algolia, gratuitement :D

FAQ

Retrouvez les réponses concernant la migration DocSearch sur notre page FAQ du Crawler.

Liens utiles

Correspondance des clés du fichier de configuration

Vous trouverez ci-dessous les clés présentes dans les configurations DocSearch legacy et leur équivalent dans une configuration de Crawler Algolia. Une documentation plus détaillée du Crawler Algolia est disponible sur la documentation officielle.

legacycurrentdescription
start_urlsstartUrlsNow accepts URLs only, see helpers.docsearch to handle custom variables
page_rankpageRankCan be added to the recordProps in helpers.docsearch, should be passed as a string
js_renderrenderJavaScriptUnchanged
js_waitrenderJavascript.waitTimeSee documentation of renderJavaScript
index_nameremoved, see actionsHandled directly in the actions
sitemap_urlssitemapsUnchanged
stop_urlsexclusionPatternsSupports micromatch
selectors_excluderemovedShould be handled in the recordExtractor and helpers.docsearch
custom_settingsinitialIndexSettingsUnchanged
scrape_start_urlsremovedCan be handled with exclusionPatterns
strip_charsremoved# are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch
conversation_idremovedNot needed anymore
nb_hitsremovedNot needed anymore
sitemap_alternate_linksremovedNot needed anymore
stop_contentremovedShould be handled in the recordExtractor and helpers.docsearch