Fonctionnement interne du moteur
Cette page a été traduite par PageTurner AI (bêta). Non approuvée officiellement par le projet. Vous avez trouvé une erreur ? Signaler un problème →
Cette page explique en détail comment le crawler extrait le contenu de vos pages et comment il classe les résultats.
Exploration
Chaque exploration commence par les start_urls spécifiées dans votre configuration. Le crawler lit ces pages, extrait récursivement chaque lien et les suit jusqu'à avoir parcouru toutes les pages conformes.
Si vous avez défini explicitement un sitemap.xml, notre crawler explorera chaque page fournie et conforme. Nous recommandons d'utiliser un sitemap car il expose explicitement les URL à explorer et évite d'omettre des pages non liées depuis d'autres pages.
Extraction du contenu
La construction d'enregistrements via le scraper est intuitive. Selon vos paramètres, nous extrayons le contenu de votre page web et l'indexons en préservant votre structure de données. Ce processus fonctionne simplement :
-
Nous lisons de haut en bas votre page en suivant le flux HTML et sélectionnons les éléments correspondants selon leur niveau basé sur le
selectors_leveldéfini. -
Nous créons un enregistrement pour chaque paragraphe avec son chemin hiérarchique. Cette construction repose sur leur ordre d'apparition dans le flux.
-
Nous indexons ces enregistrements avec les paramètres globaux appropriés (métadonnées, tags, etc.)
Note : Ce processus effectue des tests de cohérence pendant l'extraction pour détecter les erreurs. En cas d'avertissements critiques, il s'interrompt sans écraser votre index actuel. Ces vérifications garantissent que votre index dédié n'est pas vidé.
Vous trouverez plus d'explications dans cette section dédiée.
Classement des enregistrements
Algolia renvoie toujours les résultats les plus pertinents en premier via une méthode de départage. DocSearch recherche d'abord les correspondances exactes de vos mots-clés, puis les correspondances partielles. Il trie ensuite ces résultats selon la hiérarchie de page extraite des selectors.
La stratégie par défaut favorise les enregistrements avec correspondances aux niveaux supérieurs. Si deux résultats ont les mêmes correspondances, celui du niveau le plus élevé (lvl0) sera mieux classé. La position des correspondances est aussi utilisée : plus elles apparaissent tôt dans le flux HTML, mieux l'enregistrement est classé.
La pertinence repose sur plusieurs facteurs personnalisés selon la méthode de départage d'Algolia.
Vous pouvez booster des pages selon leur URL via les attributs start_urls et page_rank. Sa valeur est numérique (0 par défaut). Plus la valeur est élevée, mieux les résultats des pages correspondantes sont classés. Par exemple, les pages avec un page_rank de 5 apparaîtront avant celles avec un page_rank de 1.
Vous pouvez modifier la stratégie de pertinence en écrasant le customRanking par défaut via l'option custom_settings de votre configuration.