Versión: Legado (v1.x - v2.x)

Resumen del Scraper

Traducción Beta No Oficial

Esta página fue traducida por PageTurner AI (beta). No está respaldada oficialmente por el proyecto. ¿Encontraste un error? Reportar problema →

¿Cómo funciona?

El scraper de DocSearch está escrito en Python y se inspira ampliamente en el framework Scrapy. Recorre todas las páginas de tu sitio web y extrae contenido de la estructura HTML para poblar un índice de Algolia.

Sigue automáticamente cada enlace interno para asegurarse de no omitir contenido, y utiliza la semántica de tu estructura HTML para construir sus registros. Esto significa que los títulos h1, h2, etc. (selectors) se usan como jerarquía, y cada p se considera un resultado potencial.

Estos selectores CSS pueden sobrescribirse, y cada sitio web tiene su propio archivo de configuración JSON que describe con más detalle cómo debe comportarse el scraper. Puedes encontrar la lista completa de opciones en la sección relacionada.

Si deseas ejecutar DocSearch por tu cuenta, todo el código es de código abierto y está empaquetado como una imagen de Docker. Descárgalo y ejecútalo con tus propias credenciales.

¿Cómo funciona?​

¿Cómo funciona?