Sitemap.xml y robots.txt

RobotLa verdad que con algunas webs me harto de repasar líneas y líneas para conseguir un código sin ningún error de validación HTML ni CSS (aprovecho para dar las gracias a w3c schools y su fantástico validador). Y ni aún así parece que sirva demasiado, en cuanto a posicionamiento.

También intento «currarme» los meta tags, para los cuales intento usar algún generador online cuyos resultados reviso en busca de posibles errores.

Finalmente, están dos puntos de los que suelo olvidarme (y que explicarían mi fracaso siempre que intento meterme en temas de SEO):

  • El archivo de sitemap.xml, que describe las páginas que conforman mi sitio web.
  • El archivo robots.txt, que contiene información para los rastreadores que usan los buscadores.

Afortunadamente, Google nos lo pone fácil para generar estos dos ficheros. Únicamente deberemos seguir los pasos descritos a continuación:

  1. Entrar en Google Webmasters Tools, donde podremos iniciar sesión con nuestra cuenta de Gmail.
  2. Desde la página principal, podremos añadir un sitio, del estilo «www.miweb.com». Al añadirlo, se generará una línea en html con un código que deberemos copiar y pegar en el código de las páginas que conforman nuestra web, dentro del apartado «<head>», junto al resto de «meta-tags».
  3. Una vez actualizadas las páginas de nuestra web, con el código identificador de Google, podremos «validar» el sitio, demostrando así la propiedad del mismo.
  4. Desde este momento, se podrá acceder al panel de control del sitio web, siempre desde Google Webmasters Tools, donde tendremos las opciones para generar el Sitemap.xml y el archivo Robots.txt.
  5. Desde Panel -> Información del sitio -> Sitemaps, podremos subir nuestro sitemap. Google nos ofrece la posibilidad de generar el archivo de sitemap, pero para eso necesitaremos tener acceso al servidor que aloja nuestra web, además de permitir la ejecución del script que genera el archivo. En su lugar, también podemos usar alguna de las múltiples páginas que generan de forma online el archivo xml.
  6. Una vez generado el archivo xml, deberemos subirlo en la raíz de nuestra web, y indicarle a Google que ya disponemos de sitemap, en la dirección www.miweb.com/sitemap.xml.
  7. Desde Panel -> Información del sitio -> Acceso de rastreadores, lo tendremos más fácil para generar el archivo robots.txt. Únicamente deberemos pulsar sobre la opción «Generar archivo robots.txt» para descargar un archivo robots.txt que también deberemos subir a la raíz de nuestro servidor.

Con esto, estaremos un poco más cerca de tener una web optimizada para su inclusión en los principales navegadores. Y digo un poco, porqué en realidad la importancia de una web la mide el famoso PageRank, que no es más que un número que indica la popularidad de un sitio en función, sobretodo, de los enlaces externos que le hacen referencia, y la importancia de dichos enlaces.

En cualquier caso, no pierdo la esperanza de que con los ficheros de sitemap y robots, ayuden a incrementar la visibilidad de mi web. Crucemos los dedos.

Sitemaps

Hace ya un tiempo, se me encargo la ardua tarea de crear un sitemap de una determinada web. Cómo era la primera vez que tenía que pelearme con un sitemap, fui a preguntar al mejor, a Google. Esto es lo que me respondió:

Forma manual (según Google)

  • Siguiendo los pasos de:

    https://www.google.com/webmasters/tools/docs/es/sitemap-generator.html

    1- Descargar el generador de sitemaps de Google

    2- Crear de un fichero con el listado de todos los archivos del servidor que queremos que contenga nuestro sitemap, por ejemplo ejecutando en el servidor:

    • ls -R > out.txt

    3- Modificar el archivo de configuración config.xml con:

    • Url base del sitio.

    • Ruta del servidor.

    • Método: URL (en mi caso con este bastaba).

      • Seleccionando los archivos php, html, css y pdf.

      • Quitando las urls que no queremos que aparezcan.

    • Sin modificar los filtros que vienen por defecto.

    • Ejecutar el generador de sitemaps, nuevamente en el servidor, dándonos como resultado unos cuantos errores, o si todo está correcto, nuestro sitemap.

  • Finalmente, entrar en www.google.com/webmasters/tools/ con una cuenta de gmail (preferentemente la del webmaster o administrador de la web de la que estamos creando el sitemap)
    • Dashboard->Sitemaps->Add Sitemap
    • Verificar errores

Forma automática

Esta manera de crear un sitemap, contrasta con las facilidades que dan algunas webs que ofrecen este servicio de forma gratuita y totalmente automática. Únicamente hay que indicar la url, la frecuencia de actualización de las páginas, cuando fue la última vez que se realizaron modificaciones en la web, así como la prioridad por defecto de las páginas que forman el site.
http://www.xml-sitemaps.com/

Además, por ejemplo esta web te informa si encuentra inconsistencias, dando consejos de cómo solucionarlos.

Ahora solo queda escoger con qué método nos quedamos. Yo particularmente me quedo sin duda con el segundo método (más rápido y fácil), ya que una vez tengamos generado el sitemap.xml podemos modificarlo a nuestro gusto si es necesario.