Aller au contenu principal
Version : Stable (v4.x)
Traduction Bêta Non Officielle

Cette page a été traduite par PageTurner AI (bêta). Non approuvée officiellement par le projet. Vous avez trouvé une erreur ? Signaler un problème →

Créer un nouveau crawler

info

Les nouvelles applications DocSearch créées après le 2 juillet 2024 peuvent désormais utiliser l'interface Algolia Crawler pour configurer et gérer leurs crawls. Ce guide vous explique comment ajouter votre domaine, vérifier votre propriété, créer un crawler et exécuter votre premier test de crawl. L'interface est accessible sur dashboard.algolia.com/crawler.

Si vous vous êtes inscrit avant le 2 juillet 2024, vous pouvez toujours utiliser l'interface Crawler, mais sa création et gestion sont simplifiées pour les utilisateurs inscrits après cette date.

Découvrez les fonctionnalités de la nouvelle interface Crawler.

Ajouter des domaines

  1. Connectez-vous au tableau de bord Algolia.

  2. Dans la barre latérale gauche, sélectionnez Data sources.

  3. Choisissez Crawler :

    • Cliquez sur Add your domain et saisissez les domaines ou sous-domaines à crawler (ex. example.com, www.example.com).
    • Si vous avez déjà ajouté un domaine, cliquez sur l'onglet Domains.
  4. Cliquez sur Add domain.

DocSearch Domains Management

Remarque : Vous devez vérifier votre domaine dans un délai de grâce de 7 jours après l'ajout. De plus, l'équipe DocSearch doit approuver votre domaine avant de lancer le crawl.

Vérifier votre domaine

Vous devez prouver la propriété de chaque domaine à crawler. La méthode par défaut est la vérification par email, mais vous pouvez aussi utiliser une balise meta, un fichier HTML, un fichier robots.txt ou un enregistrement DNS.

Balise meta

  1. Dans l'onglet Meta tag, cliquez sur Copy pour copier la balise de vérification.

  2. Ajoutez la balise dans la section <head> de votre site.

  3. Publiez votre site et cliquez sur Verify now dans le tableau de bord du Crawler.

Fichier HTML

  1. Dans l'onglet HTML file, cliquez sur Copy pour copier le contenu du fichier.

  2. Enregistrez-le comme nouveau fichier HTML et téléversez-le sur votre serveur.

  3. Saisissez l'URL du fichier dans le tableau de bord et cliquez sur Verify now.

robots.txt

  1. Dans l'onglet Robots.txt, cliquez sur Copy pour copier le code.

  2. Collez-le dans le fichier robots.txt de votre site.

  3. Publiez et cliquez sur Verify now.

DNS

  1. Dans l'onglet DNS, copiez l'enregistrement TXT fourni.

  2. Ajoutez-le dans les paramètres de votre fournisseur DNS.

  3. Cliquez sur Verify now après la propagation (peut prendre jusqu'à 72 heures).

Créer un nouveau crawler

Une fois votre domaine vérifié et approuvé par l'équipe DocSearch :

  1. Accédez à la page Crawler du tableau de bord.

  2. Cliquez sur New Crawler et renseignez :

    • Crawler name (nom descriptif)
    • App ID (votre identifiant d'application Algolia)
    • Start URL (généralement votre page d'accueil)
    • Crawler template (choisissez un modèle ou l'option par défaut)
  3. Cliquez sur Create pour finaliser et exécuter un test de crawl.

Exécuter le test de crawl

Le crawl initial visitera jusqu'à 100 URL pour tester l'accès et l'extraction. Vous pouvez suivre la progression dans la page Overview. Après son achèvement, consultez les enregistrements extraits dans le tableau de bord Algolia.

Étapes suivantes

  • Modifiez la configuration de votre crawler pour les crawls planifiés, les règles d'inclusion/exclusion et les paramètres d'extraction.

  • Utilisez les suggestions du Crawler pour une optimisation supplémentaire.

  • Pour plus de détails, consultez la documentation officielle d'Algolia.