XML sitemap: el código secreto para una indexación exitosa
¡Saludos a todos los profesionales y entusiastas del SEO! Hoy hablaremos de una herramienta importante, el mapa del sitio XML, que, si se utiliza correctamente, puede mejorar en gran medida su posicionamiento en los motores de búsqueda. Esto significa que no podemos ignorarlo. Así que, ¡comencemos!
Los sitemaps son una herramienta sencilla para los webmasters que ayudan a los motores de búsqueda a comprender mejor la estructura y la importancia de las páginas de un sitio web. La base de un mapa del sitio es un archivo XML que enumera las URL, junto con datos adicionales como la fecha de la última actualización, la frecuencia de los cambios y el nivel de prioridad en relación con otras páginas del sitio. Esta información ayuda a los motores de búsqueda a rastrear eficazmente todas las páginas del sitio y proporcionar una indexación inteligente. Los mapas de sitio XML no están pensados para los humanos, sino únicamente para los robots de los motores de búsqueda.
Historia de la creación
En los inicios de Internet, los motores de búsqueda indexaban los sitios web únicamente mediante robots que recorrían todas las páginas a través de enlaces. El constante crecimiento del número de sitios web en Internet hacía que encontrar nuevas páginas para los motores de búsqueda fuera una tarea que consumía muchos recursos, con la posibilidad de que algunas páginas importantes no fueran descubiertas por el robot. Llegados a este punto, surgió la idea de que los webmasters pudieran informar a los buscadores en un formato legible por máquina sobre la lista de páginas de su sitio. Así nació el proyecto Sitemaps.
El 2 de junio de 2005, el Director Técnico de Google, Shiva Shivakumar, anunció en una entrada de blog:
«Estamos llevando a cabo un experimento llamado Google Sitemaps, que fracasará o superará nuestros sueños más descabellados y hará que Internet sea mejor tanto para los webmasters como para los usuarios». Se trata de una versión beta de un «ecosistema» que puede ayudar a los webmasters a abordar dos tareas actuales: informar a Google sobre todas sus nuevas páginas web o actualizaciones, y aumentar la cobertura de sus páginas web en el índice de Google.»
El 16 de noviembre de 2006, Google, Yahoo! y Microsoft anunciaron su compatibilidad conjunta con Sitemaps 0.90. Como destacó Tim Mayer, Director Senior de Gestión de Productos de Yahoo Search
«El lanzamiento de Sitemaps es importante ya que permite a los sitios web utilizar una forma unificada y sencilla de proporcionar contenidos y metadatos a los motores de búsqueda.»
«Los sitemaps ayudan a los webmasters a mostrar contenidos que normalmente son difíciles de descubrir para los buscadores, proporcionando una experiencia de búsqueda más completa a los usuarios.»
Esta versión de los sitemaps sigue siendo relevante hoy en día.
El 11 de abril de 2007, Ask.com, Google, Microsoft Live Search y Yahoo! anunciaron su compatibilidad con la detección automática de archivos de sitemaps mediante el archivo robots.txt.
El 13 de mayo de 2023, Bing anunció la eliminación de la posibilidad de enviar de forma anónima un mapa del sitio a través de una solicitud HTTP. El 26 de junio de 2023, Google también canceló esta función. En ambos casos, se afirmó que los spammers habían estado abusando de esta función.
¿En qué casos es necesario un archivo sitemap?
Según la documentación oficial de Google, un Sitemap es necesario en tres casos:
● Si tiene un sitio web grande (más de 500 páginas);
● Si el sitio web es nuevo y/o tiene problemas de enlaces internos y/o masa de enlaces;
● Si el sitio web aparece en Google News o contiene mucho contenido multimedia.
Sin embargo, la práctica demuestra que no hay garantías de que un robot encuentre todas las páginas de un sitio web sin un archivo de sitemap. Además, disponer de un archivo Sitemap facilita al robot la obtención de información sobre los cambios realizados en el sitio web. Por lo tanto, recomendamos añadir un mapa XML para cualquier sitio web: no hará daño en ningún caso.
Estructura del Sitemap
El archivo Sitemap debe crearse en codificación UTF-8. En lugar de los caracteres &, ‘, «, >, <, deben utilizarse sus máscaras. El orden de las URL en el archivo sitemap no importa para los motores de búsqueda.
El mapa del sitio puede contener etiquetas XML:
● urlset;
● url;
● loc;
● lastmod;
● changefreq;
● prioridad.
Veámoslos con más detalle.
Etiquetas obligatorias:
● urlset define el espacio de nombres (protocolo estándar).
● url es la etiqueta padre de cada entrada.
● loc es una etiqueta hija de url y contiene la URL completa de la página (incluido el prefijo del protocolo). Especifica la página actual que será descrita por etiquetas opcionales. El contenido de esta etiqueta no debe superar los 2048 caracteres.
Etiquetas opcionales:
● lastmod es una etiqueta hija de url y contiene la fecha de la última modificación de la página actual en formato W3C Datetime. La fecha se utiliza a menudo en el formato abreviado AAAA-MM-DD.
● changefreq es una etiqueta hija de url y describe la frecuencia prevista de cambios en la página actual. Puede tomar los siguientes valores:
-siempre
-cada hora;
-diariamente
-semanalmente;
-mensual;
-anualmente;
-nunca.
La etiqueta priority es una etiqueta hija de la etiqueta url y describe la prioridad relativa de la página actual en el sitio web, oscilando entre 0 y 1. La prioridad se establece en relación con otras páginas del mismo sitio. La prioridad por defecto de una página es 0,5.
Ejemplo de mapa del sitio:
<<br />
<?xml version=»1.0″ encoding=»UTF-8″?><br />
<urlset xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″><br />
<url><br />
<loc>https://www.example.com/</loc><br />
<lastmod>2023-10-04</lastmod><br />
<changefreq>semanalmente</changefreq>
<prioridad>1</prioridad>
</url><br />
<url><br />
<loc>https://www.example.com/page.html</loc><br />
<lastmod>2023-10-04</lastmod><br />
<changefreq>semanalmente</changefreq>
<prioridad>0.8</prioridad>
</url><br />
</urlset><br />
Archivo de índice de sitemap
Hay dos limitaciones para los archivos sitemap. Cada archivo debe:
1. Contener no más de 50.000 URLs.
2. Tener un tamaño no superior a 52.428.800 bytes.
Si el mapa del sitio supera estas limitaciones, es necesario crear varios archivos de mapa del sitio. Cada archivo debe mencionarse en el archivo de índice. Los archivos sitemap de índice tampoco
no pueden contener enlaces a más de 50.000 archivos sitemap y su tamaño no debe superar los 52.428.800 bytes.
En Google Search Console, existe una limitación: no puede proporcionar más de 500 archivos de índice de sitemap para cada uno de sus sitios web.
El archivo de índice de sitemap puede contener las siguientes etiquetas XML:
● sitemapindex;
● sitemap;
● loc;
● lastmod.
*La etiqueta sitemapindex es el padre de todo el árbol XML.
*La etiqueta sitemap es el padre de cada entrada.
*La etiqueta loc es una etiqueta hija de sitemap y contiene la URL completa de la página (incluido el prefijo del protocolo). El fichero índice sitemap no puede contener más de 50.000 etiquetas loc.
*La etiqueta lastmod es opcional y es una etiqueta hija de sitemap. Contiene la fecha de la última modificación del archivo Sitemap correspondiente en formato W3C Datetime. La fecha se suele utilizar en el formato abreviado AAAA-MM-DD.
Ejemplo de archivo de índice
<<br />
<?xml version=»1.0″ encoding=»UTF-8″?><br />
<sitemapindex xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″><br />
<sitemap><br />
<loc>https://www.example.com/sitemap1.xml</loc><br />
<lastmod>2023-10-04</lastmod><br />
</sitemap><br />
<sitemap><br />
<loc>https://www.example.com/sitemap2.xml</loc><br />
<lastmod>2023-10-04</lastmod><br />
</sitemap><br />
</sitemapindex><br />
Extensión del protocolo Sitemaps
Existe la posibilidad de ampliar el protocolo Sitemaps con un espacio de nombres personalizado especificándolo en el elemento raíz.
Cómo informar a los motores de búsqueda sobre la ubicación del mapa del sitio
Existen tres formas de informar a los motores de búsqueda sobre la ubicación de su archivo de mapa del sitio:
1. A través del panel de herramientas para webmasters,
2. A través del archivo robots.txt,
3. Mediante una petición HTTP (este método no se recomienda).
El envío del archivo sitemap a través del panel de herramientas para webmasters de Google sólo es posible si
tiene derechos de propiedad sobre el recurso. Para añadir el archivo, debe abrir la página
página del informe de sitemaps, seleccionar el recurso y añadir la URL del archivo de sitemaps. Se recomienda comprobar previamente si Google tiene acceso al archivo Sitemap.
Aquí tiene un vídeo de revisión de Google:
«Sitemaps en Search Console – Formación de Google Search Console»
Envíe el archivo sitemap a través del panel de herramientas para webmasters de Bing.
Tenga en cuenta que sólo puede enviar un sitemap para un sitio seleccionado de la lista de sitios verificados.
Para enviar el archivo sitemap a Baidu, utilice las herramientas para webmasters de Baidu Ziyuan. Sólo los sitios web de alta calidad que cumplan la legislación china, tengan al menos una página en chino simplificado y hayan superado la verificación pueden enviar un mapa del sitio a Baidu.
Yahoo y Duckduckgo utilizan el sistema interno de Bing para recuperar sitemaps y descubrir URLs.
Para informar a los motores de búsqueda sobre la ubicación del mapa del sitio, debe añadir la siguiente directiva al archivo robots.txt:
Mapa del sitio: https://www.example.com/sitemap.xml
Aquí, en lugar de www.example.com, añada el dominio de su sitio y, en lugar de sitemap.xml, la ubicación del mapa del sitio.
El método de añadir un mapa del sitio a través de una petición HTTP está anticuado. Dejó de ser efectivo en Bing a partir del 13 de mayo de 2023, y en Google a partir del 26 de junio de 2023. La razón principal para cancelar este método de añadir información del mapa del sitio es el spam. Configurar un script que enviara automáticamente su mapa del sitio utilizando el protocolo http diariamente (o después de cada cambio) parecía una buena idea. Para Google, la cadena enviada tenía este aspecto
http://www.google.com/ping?sitemap=https://www.example.com/sitemap.xml
A medida que aumentaba el número de sitios web, la carga en los servidores de los motores de búsqueda crecía notablemente, por lo que se tomó la decisión de abandonar esta forma de informar sobre la ubicación del mapa del sitio.
Sitemap y Google
En Google, los elementos changefreq y priority especificados en el archivo sitemap no se tienen en cuenta a la hora de indexar el sitio. El elemento changefreq, que indica la frecuencia con la que cambia el contenido de una página, no es relevante cuando existe un elemento lastmod que indica la fecha de la última modificación de la página. Y el elemento priority, que supone la determinación de la prioridad de la página, es subjetivo y no refleja con precisión la importancia real de la página en comparación con otras páginas del sitio.
Es importante recordar que Googlebot tiene en cuenta el atributo lastmod al escanear las páginas, pero si establece un valor incorrecto para él, no se tendrá en cuenta en el futuro. El número de archivos de sitemaps no influye en la indexación: por parte de Google, todos los archivos de sitemaps se fusionan y las URL de los mismos se procesan juntas, independientemente del número de archivos que haya proporcionado.
Google admite cuatro formas de proporcionar información adicional en el archivo de sitemaps:
1. 1. Ampliar las URL para incluir archivos gráficos,
2. 2. Ampliar las URL para incluir archivos de vídeo,
3. Incluir información sobre diferentes idiomas o versiones localizadas de las páginas utilizando el atributo hreflang.
4. En el caso de los sitios de noticias, se puede utilizar un tipo especial de sitemap para proporcionar información sobre las últimas actualizaciones.
Sitemap y Bing
El director del programa de generación de índices de Bing, Fabrice Canel,afirma:
«Una de las estrategias clave para la optimización de los motores de búsqueda (SEO) de los sitios web es disponer de sitemaps de alta calidad que ayuden a los motores de búsqueda a descubrir y acceder a todo el contenido relevante alojado en este sitio web. Los sitemaps ofrecen a los propietarios de sitios web una forma realmente sencilla de compartir con cada motor de búsqueda información sobre el contenido que tienen en su sitio, en lugar de depender únicamente de los algoritmos de exploración (es decir, escáneres, robots) para encontrarlo.»
Recomienda evitar demasiados archivos XML sitemap en el sitio. Lo ideal es utilizar un único archivo de mapa del sitio indexado que enumere todos los archivos de mapa del sitio relevantes y los archivos de mapa del sitio indexados.
Para minimizar el número de enlaces duplicados y que no funcionan en los sitemaps, Bing recomienda crear sitemaps al menos una vez al día.
En el caso de sitios muy grandes con millones y miles de millones de URL, el tamaño total de los archivos XML de mapa del sitio puede alcanzar más de 100 gigabytes. En estos casos, Bing recomienda crear dos conjuntos de sitemaps y alternarlos diariamente.
Mapa del sitio y Baidu
Baidu exige lo siguiente para los sitemaps:
● No deben superar los 10 MB; 
● No debe contener caracteres chinos; 
● Debe estar ubicado en la carpeta raíz de su sitio web.
¿Cómo crear un mapa del sitio XML?
Google ofrece una lista un poco anticuada de generadores de archivos sitemap de terceros que los webmasters pueden utilizar o crear su propia herramienta basada en ellos. Actualmente, no todos los enlaces están activos, pero muchos siguen funcionando.
A continuación se indican algunos servicios populares para crear sitemaps XML:
Sitemap Writer Pro es un programa que ofrece siete tipos de sitemaps (sitemap estándar, Google images, Google news, Google video, Google code search, Google Geo, Google Mobile). Incluye un rastreador integrado para generar sitemaps y un gestor FTP para subir el sitemap al sitio web.
El generador de mapas de sitio XML incluye un generador gratuito (hasta 500 páginas), un generador profesional y un script de servidor escrito en PHP.
My Sitemap Generator es un generador de mapas de sitio gratuito que escanea el sitio web y crea un mapa de sitio XML.
Plugins CMS que crean sitemaps:
Drupal
Módulo XML Sitemap: crea un mapa del sitio. Incluye varios submódulos que pueden añadir enlaces a mapas del sitio para contenido, elementos de menú y perfiles de usuario.
WordPress
Google (XML) Sitemaps Generator – crea automáticamente un mapa del sitio XML. Además, genera un mapa del sitio HTML.
Generador de mapas del sitio XML
IKSWEB XML Sitemap Generator – un plugin ligero y compacto que crea un mapa del sitio XML.
Plugin Google XML News Sitemap
El plugin Google News es un software de código abierto que permite a los editores actualizar los archivos de sitemap para Google News. Además de la funcionalidad habitual, permite a los editores describir los tipos de contenido que se publican, así como especificar niveles de acceso para artículos individuales.
Joomla
La lista actual de plugins que crean un mapa del sitio en formato XML para Joomla figura en el sitio web del CMS.
Otros formatos de mapa del sitio:
Además del mapa del sitio XML, existen otros formatos menos comunes de mapas del sitio destinados a los motores de búsqueda.
RSS, mRSS y Atom 1.0
En el caso de un blog con un feed RSS o Atom, puede utilizar la URL de este feed como fuente para crear un archivo de mapa del sitio. Casi todas las plataformas de blogs ofrecen la posibilidad de crear un feed. Google admite feeds RSS 2.0 y Atom 1.0, así como feeds mRSS (RSS multimedia).
Archivo de Sitemap de texto
En un archivo de Sitemap de texto, sólo puede añadir URL, cada una en una línea independiente. La extensión de este archivo debe ser .txt (por ejemplo, sitemap.txt).
Conclusión
En conclusión, un mapa del sitio XML es una herramienta esencial en el arsenal de un webmaster o propietario de un sitio web. Es un archivo estructurado que ayuda a los motores de búsqueda a escanear e indexar más eficazmente el contenido de su sitio. En este artículo, hemos tratado los aspectos clave de los mapas de sitio XML y su importante papel en la optimización de la visibilidad en las búsquedas.
Un mapa del sitio XML le permite controlar qué páginas de su sitio están disponibles para la indexación y proporciona información adicional sobre cada página, como la fecha de la última actualización y la prioridad. Esto ayuda a los motores de búsqueda a determinar con mayor precisión qué páginas indexar y con qué frecuencia volver a visitarlas.
El uso de mapas de sitio XML es un elemento clave para el éxito de una estrategia SEO. Contribuyen a mejorar la indexación de su sitio, aumentando así su visibilidad en los resultados de búsqueda.
Es importante recordar que un mapa del sitio XML es una herramienta que requiere una actualización y un mantenimiento constantes para seguir siendo actual y eficaz. La actualización regular de su mapa del sitio permite a los robots rastrear los cambios en su sitio e informar a los motores de búsqueda sobre estos cambios.
Queridos amigos Gracias por leernos y por dedicarnos su tiempo.
Esperamos que el artículo haya sido interesante y, lo más importante, ¡útil!