VideoTutorial: Archivo Robots.txt | Qué Es, Para qué Sirve y Cómo crearlo

robot.txt





Antes de pasar a la definición formal, me gustaría informarle que debes usar este archivo con mucho cuidado ya que puede impactar negativamente a su web.




Me gustaría explicarle el labor de este archivo en pocas palabras porque me ha costado mucho para entenderlo. Simplemente el robot.txt es un archivo que lo creamos nosotros los diseñadores web y expertos SEO, en cual ponemos ordenes que los motores de búsqueda que deben respetar.

Por ejemplo podemos poner una orden con la cual prohibimos la registración de un artículo en Google o Bing. Es decir si quieres que Google o Bing no archiven algo de su página web pues debe poner esta orden dentro de este documento.

El archivo robots.txt


Es un archivo de texto que se utiliza para los sitios web con SEO, que contiene comandos para los rastreadores de motores de búsqueda para determinar sus páginas que pueden o no pueden ser indexados. Por lo tanto cualquier motor de búsqueda comienza rastrear un sitio web buscando el archivo robots.txt en la raíz del sitio.

Formato de archivo robots.txt


El archivo robots.txt (escrito en minúsculas y plural) es un archivo ASCII se encuentra en la raíz del sitio y puede contener los siguientes comandos:

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales) 

Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)


Los comandos más importantes son: 




User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
Disallow: Deniega el acceso a un directorio o página concreta. 

Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente. 

Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML. 

Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, como comentaba más arriba, puedes utilizar 2 caracteres para aumentar o reducir la concordancia: 

Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/” 

Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php.

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas."


Ejemplos de archivo Rrobots.txt:


No archives ninguna página

User-Agent: *   
Disallow: /

Registrar TODO:

;

Disallow: 

El resto de los comandos son:


Incluir todos los robots – User-agent: * 

Especificar el robot de Google – User-agent: Googlebot 

Especificar el robot de Bing – User-agent: Bingbot 

Denegar todo el sitio – Disallow: / 

Denegar un directorio – Disallow: /directorio/
 
Denegar directorios que comienzan por “algo” – Disallow: /algo*/ 

Denegar una página – Disallow: /pagina-web.htm 


Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo 

Denegar la extensión .gif – Disallow: /*.gif$ 

Permitir un subdirectorio – Allow: /directorio/subdirectorio/ 

Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml



No hay comentarios:

Con la tecnología de Blogger.