Saltar al contenido principal
Versión: Legado (v1.x - v2.x)

El funcionamiento interno

Traducción Beta No Oficial

Esta página fue traducida por PageTurner AI (beta). No está respaldada oficialmente por el proyecto. ¿Encontraste un error? Reportar problema →

Esta página explica en detalle cómo el rastreador extrae contenido de tus páginas y cómo clasifica los resultados.

Rastreo

Cada rastreo comienza en los valores de start_urls especificados en tu configuración. Lee esas páginas, extrae recursivamente cada enlace y los sigue hasta haber explorado todas las páginas compatibles.

Si has definido explícitamente un sitemap.xml, nuestro rastreador procesará cada página proporcionada y compatible. Recomendamos usar un sitemap porque expone explícitamente las URLs a rastrear y evita omitir páginas no enlazadas desde otras.

Extracción de contenido

Crear registros con el scraper es bastante intuitivo. Según tu configuración, extraemos el contenido de tu página web y lo indexamos preservando tu estructura de datos. Lo logramos de manera sencilla:

  • Leemos de arriba abajo tu página web siguiendo el flujo HTML y seleccionamos elementos coincidentes según sus niveles basados en el selectors_level definido.

  • Creamos un registro para cada párrafo junto con su ruta jerárquica. Esta construcción se basa en su orden de aparición dentro del flujo.

  • Indexamos estos registros con la configuración global adecuada (metadatos, etiquetas, etc.)

Nota: Este proceso realiza pruebas de verificación durante el scraping para detectar errores. Si hay advertencias graves, se aborta y no sobrescribe tu índice actual. Estas comprobaciones garantizan que tu índice dedicado no se vacíe.

Puedes encontrar más explicaciones en esta sección dedicada.

Clasificación de registros

Algolia siempre devuelve primero los resultados más relevantes usando un enfoque de desempate. DocSearch primero busca coincidencias exactas en tus palabras clave, luego recurre a coincidencias parciales. Luego ordena esos resultados nuevamente según la jerarquía de página extraída de los selectors.

La estrategia predeterminada es priorizar registros con palabras coincidentes en el nivel más alto. Así, si dos resultados tienen las mismas palabras coincidentes, se clasificará más alto el que las tenga en el nivel superior (lvl0). También consideramos la posición de las palabras coincidentes: cuanto antes aparezcan en el flujo HTML, más alto se clasificará el registro.

Basamos la relevancia en varios factores y la personalizamos según el método de desempate de Algolia.

Puedes potenciar páginas según sus URLs usando los atributos start_urls y page_rank. Su valor es numérico (predeterminado 0). Cuanto mayor sea el valor, más alto se clasificarán los resultados de esas páginas. Por ejemplo, todas las páginas con page_rank 5 aparecerán antes que las con page_rank 1.

Incluso puedes cambiar la estrategia de relevancia sobrescribiendo el customRanking predeterminado del índice usando la opción custom_settings en tu configuración.