Saltar al contenido principal
Versión: Legado (v3.x)

Migración desde el scraper heredado

Traducción Beta No Oficial

Esta página fue traducida por PageTurner AI (beta). No está respaldada oficialmente por el proyecto. ¿Encontraste un error? Reportar problema →

Introducción

Con la nueva versión de la UI de DocSearch, queríamos ir más allá y ofrecer mejores herramientas para crear y mantener tu archivo de configuración, ¡además de funciones adicionales de Algolia que lleváis mucho tiempo solicitando!

¿Qué hay de nuevo?

Scraper

La infraestructura de DocSearch ahora utiliza el Algolia Crawler. Nos hemos unido a nuestros colegas para crear un nuevo helper de DocSearch, que extrae registros como hacíamos antes con nuestro querido scraper de DocSearch.

¡Lo mejor es que ya no necesitas instalar herramientas locales para mantener o actualizar tu índice!

Ahora ofrecemos una interfaz web heredada o nueva que te permitirá:

  • Iniciar, programar y monitorear tus rastreos

  • Editar tu archivo de configuración desde nuestro editor en vivo

  • Probar tus resultados directamente con DocSearch v3 o DocSearch v4

Aplicación y credenciales de Algolia

Hemos recibido muchas solicitudes pidiendo:

  • Formas de gestionar miembros del equipo

  • Explorar y ver cómo se indexan los registros de Algolia

  • Ver y suscribirse a otras funciones de Algolia

¡Ahora todas están disponibles en tu propia aplicación de Algolia, completamente gratis! :D

Preguntas frecuentes

Puedes encontrar respuestas relacionadas con la migración de DocSearch en nuestra página de preguntas frecuentes del Crawler.

Enlaces útiles

Mapeo de claves del archivo de configuración

A continuación se muestran las claves presentes en las configuraciones legacy de DocSearch y su equivalente en una configuración de Algolia Crawler. Puedes encontrar documentación más detallada del Algolia Crawler en la documentación oficial.

legacycurrentdescription
start_urlsstartUrlsNow accepts URLs only, see helpers.docsearch to handle custom variables
page_rankpageRankCan be added to the recordProps in helpers.docsearch, should be passed as a string
js_renderrenderJavaScriptUnchanged
js_waitrenderJavascript.waitTimeSee documentation of renderJavaScript
index_nameremoved, see actionsHandled directly in the actions
sitemap_urlssitemapsUnchanged
stop_urlsexclusionPatternsSupports micromatch
selectors_excluderemovedShould be handled in the recordExtractor and helpers.docsearch
custom_settingsinitialIndexSettingsUnchanged
scrape_start_urlsremovedCan be handled with exclusionPatterns
strip_charsremoved# are removed automatically from anchor links, edge cases should be handled in the recordExtractor and helpers.docsearch
conversation_idremovedNot needed anymore
nb_hitsremovedNot needed anymore
sitemap_alternate_linksremovedNot needed anymore
stop_contentremovedShould be handled in the recordExtractor and helpers.docsearch