Saltar al contenido principal
Versión: Legado (v3.x)
Traducción Beta No Oficial

Esta página fue traducida por PageTurner AI (beta). No está respaldada oficialmente por el proyecto. ¿Encontraste un error? Reportar problema →

Crear un nuevo crawler

información

Las nuevas aplicaciones de DocSearch creadas después del 2 de julio de 2024 ahora pueden usar la interfaz del Crawler de Algolia para configurar y gestionar sus rastreos. Esta guía te lleva paso a paso por el proceso de agregar tu dominio, verificar su propiedad, crear un crawler y ejecutar tu primer rastreo de prueba. Puedes acceder a la nueva interfaz del Crawler en dashboard.algolia.com/crawler.

Si te registraste antes del 2 de julio de 2024, aún puedes usar la interfaz del Crawler, pero la creación y gestión es más fluida para usuarios que se unieron después de esa fecha.

Conoce más sobre las nuevas funciones de UI/UX del Crawler.

Agregar dominios

  1. Inicia sesión en el panel de control de Algolia.

  2. En la barra lateral izquierda, selecciona Fuentes de datos.

  3. Selecciona Crawler:

    • Haz clic en Agregar tu dominio e ingresa los dominios o subdominios que deseas rastrear (ej. example.com, www.example.com).
    • Si ya agregaste un dominio, haz clic en la pestaña Dominios.
  4. Haz clic en Agregar dominio.

DocSearch Domains Management

Nota: Debes verificar tu dominio durante un período de gracia de 7 días después de agregarlo. Además, el equipo de DocSearch debe aprobar tu dominio antes de que puedas continuar con el rastreo.

Verificar tu dominio

Debes verificar la propiedad de cada dominio que quieras rastrear. El método predeterminado es la verificación por correo electrónico, pero también puedes usar una metaetiqueta, archivo HTML, robots.txt o registro DNS.

Metaetiqueta

  1. En la pestaña Metaetiqueta, haz clic en Copiar para copiar la etiqueta de verificación.

  2. Agrega la etiqueta en la sección <head> de tu sitio.

  3. Publica tu sitio y haz clic en Verificar ahora en el panel del Crawler.

Archivo HTML

  1. En la pestaña Archivo HTML, haz clic en Copiar para copiar el contenido del archivo de verificación.

  2. Guárdalo como un nuevo archivo HTML y súbelo a tu servidor web.

  3. Ingresa la URL del archivo en el panel y haz clic en Verificar ahora.

robots.txt

  1. En la pestaña Robots.txt, haz clic en Copiar para copiar el código de verificación.

  2. Pégalo en el archivo robots.txt de tu sitio.

  3. Publica y haz clic en Verificar ahora.

DNS

  1. En la pestaña DNS, copia el registro TXT de DNS proporcionado.

  2. Agrégalo en la configuración de tu proveedor de DNS.

  3. Haz clic en Verificar ahora después de que el registro se propague (puede tardar hasta 72 horas).

Crear un nuevo crawler

Una vez que tu dominio esté verificado y aprobado por nuestro equipo de DocSearch:

  1. Ve a la página Crawler en el panel.

  2. Haz clic en Nuevo Crawler y completa:

    • Nombre del crawler (descriptivo)
    • ID de aplicación (tu ID de aplicación de Algolia)
    • URL de inicio (generalmente tu página principal)
    • Plantilla del crawler (elige una plantilla o la predeterminada)
  3. Haz clic en Crear para finalizar y ejecutar un rastreo de prueba.

Ejecutar el rastreo de prueba

El rastreo inicial visitará hasta 100 URLs para probar el acceso y la extracción. Puedes monitorear el progreso en la página Resumen. Al finalizar, revisa los registros extraídos en el panel de control de Algolia.

Próximos pasos

  • Edita la configuración de tu rastreador para programar rastreos, definir reglas de inclusión/exclusión y ajustar parámetros de extracción.

  • Aprovecha las sugerencias del Rastreador para optimizaciones adicionales.

  • Para más detalles, consulta la documentación oficial de Algolia.