Cuando un motor de búsqueda o un rastreador web visita un sitio web, lo primero que busca es el archivo robots.txt en la raíz del dominio. Este archivo contiene directivas que le dicen al robot cómo comportarse al explorar el sitio. Aunque los motores de búsqueda no están obligados a respetar estas directivas, la mayoría de ellos los siguen como una práctica estándar.
El formato del archivo robots.txt es relativamente sencillo. Consiste en pares de líneas que contienen una directiva y un valor separados por dos puntos (:). Algunas de las directivas más comunes son:
- User-agent: Esta directiva especifica a qué robot o rastreador se aplican las siguientes directivas. Puede haber múltiples líneas User-agent en el archivo, cada una con un nombre de robot o un asterisco (*) para aplicar a todos los robots.
- Disallow: Esta directiva indica qué partes del sitio no deben ser rastreadas. Se especifica una ruta o un patrón de URL después de la directiva. Si un robot encuentra una URL que coincide con una ruta Disallow, no la rastreará.
- Allow: Esta directiva se utiliza para anular las restricciones establecidas por la directiva Disallow. Si una URL coincide con una ruta Allow específica, el robot puede rastrearla, incluso si hay una directiva Disallow previa.
- Sitemap: Esta directiva especifica la ubicación del archivo XML del mapa del sitio del sitio web. El mapa del sitio proporciona una lista de todas las páginas importantes del sitio, lo que facilita a los motores de búsqueda indexar y comprender su estructura.
Conviene asignar al archivo robots.txt la importancia que tiene y configurarlo adecuadamente según las necesidades de cada sitio web. Es una herramienta esencial para cumplir con las buenas prácticas que nos indican los motores de búsqueda y conseguir así mejor posicionamiento y SEO beneficioso a corto, medio y largo plazo.
- Controlar el rastreo: Permite a los propietarios del sitio especificar qué partes del sitio deben ser rastreadas y cuáles no. Esto es útil cuando hay áreas confidenciales que no deben ser accesibles para los motores de búsqueda.
- Evitar contenido duplicado: Si un sitio web tiene múltiples versiones de una página (por ejemplo, una versión en www.nuevepixels.com y otra en nuevepixels.com), el archivo robots.txt puede usarse para indicar qué versión debe ser indexada y cuál debe ser ignorada.
- Proteger recursos sensibles: Si un sitio web contiene archivos o directorios que no deben ser accesibles públicamente, como archivos de configuración o bases de datos, el archivo robots.txt puede utilizarse para bloquear el acceso a ellos.