close
close

Estrategia SEO (III): Indexación para un buen posicionamiento

14 agosto 2012

La indexación es un aspecto básico para que nuestro sitio web pueda ser localizada por los buscadores, identificado su contenido y clasificado correctamente. Este artículo, perteneciente a la serie de Estrategia SEO, presenta los elementos a analizar y cómo adaptarlos para obtener un buen posicionamiento

Antes de identificar los factores tanto internos (dependen directamente de nuestra propia página) como externos (aquellos que dependen más de la relevancia o popularidad de la propia página) de nuestro sitio web, es necesario conocer el mecanismo y los procesos que utilizan los buscadores para identificarnos, clasificarnos y en definitiva prepararnos para que salgamos en los resultados del buscador cuando los usuarios realizan una búsqueda. Estos aspectos están englobados en lo que denominamos proceso de indexación de nuestra página web.

Para analizar dicha indexación nos centraremos básicamente en Google, ya que concentra en España el 98% de la cuota en las búsquedas. Google tiene archivado en una gran base de datos todas las páginas que se encuentran en Internet, o al menos aquellas que es capaz de encontrar, mientras recorre la Red en búsqueda de los contenidos alojados en cualquier servidor público.

¿Cómo conseguimos que Google se entere de que tu página web existe en Internet? De dos formas: dando de alta la web en Google a través de la herramienta Webmaster de Google o colocando un enlace a tu sitio desde otra web que ya esté indexada. Esta última forma es la más rápida para Google.

¿Cómo se realiza el proceso de indexación de páginas? Existen unos programas informáticos que están permanentemente navegando por Internet y que están localizando nuevos sitios web y nuevas páginas en esos sitios. Estos programas, denominados robots, son los responsables de rastrear todo lo que existe en la Red y guardar las URLs que localiza, organizadas por categorías, para ofrecerlas como resultados de las consultas de los usuarios.

Para conocer si nuestro sitio web y todas nuestras páginas del sitio están indexadas por Google, podemos recurrir al siguiente comando a introducir en el propio buscador Site:www.dominio.es. Por ejemplo, en Google teclearíamos site:www.cecarm.com.

Uso del Comando Site

Este comando ofrece como resultado el número total de páginas indexadas de este dominio por el buscador y se puede comprobar si coinciden con el nº de páginas que tiene nuestra web, para verificar si se indexa todo lo que hay o sólo una  parte. Si queremos comprobar si un contenido o documento concreto está indexado, podemos realizar la siguiente comprobación:

"Texto a verificar" site:www.dominio.es. Por ejemplo "Nuevo récord del comercio electrónico, según el último informe de la CMT" site:www.cecarm.com.

Una vez que los robots nos localizan e identifican, los buscadores realizan una clasificación interna de todos los contenidos, referenciándolos con diferentes términos (palabras claves que usan los usuarios en las búsquedas). En definitiva, nos preparan para que cuando alguien busque por un término, la respuesta esté lista para ser mostrada. Por esta razón, Google es capaz de obtener resultados en décimas de segundos. En resumen, el proceso de indexación consiste en la localización de la página, su identificación, valoración de lo que contiene y su clasificación en el sistema interno que tienen los buscadores.

¿Cómo nos ven los buscadores? Los buscadores hacen un gran esfuerzo en localizar la mayor cantidad de contenidos en la red, ya que de ello depende su negocio: localizar el contenido, valorarlo y presentarlo de forma eficiente ante las búsquedas, intentando interpretar lo que buscan los usuarios. Por lo tanto, nuestro objetivo es facilitar a los buscadores el trabajo de indexación y comprobar que ven y localizan lo que realmente queremos.

Para ello podemos comprobar cómo ven los buscadores nuestra web utilizando el siguiente comando del buscador en Google: cache:www.dominio.es. Por ejemplo, cache:www.cecarm.com. Con este comando se detecta claramente que lo que el ojo humano ve en una página web, es diferente a lo que ven y analizan los robots. Por lo que si las páginas no las preparamos para que estos últimos puedan identificar el contenido que nos interesa, estamos perdiendo un gran poder de posicionamiento en el proceso de indexación. Un robot es incapaz de interpretar qué representa una imagen, por lo que si no la identificamos con una etiqueta descriptiva los robots no podrán indexarla clasificándola correctamente.

Aspectos a tener en cuenta para la buena indexación de nuestra página:

a) Velocidad de carga de la web. Cada vez está teniendo más importancia el tiempo que tardan las páginas en descargarse, haciendo que Google indexe más o menos páginas de un sitio web. El tiempo es un recurso escaso para los robots de los buscadores, por lo tanto no pueden perderlo esperando a que las páginas web respondan. Cuanto más rápido, mejor indexación. Entre los factores que afectan a la velocidad de descarga están: servidores web compartidos entre muchas o pocas web, capacidad de esos servidores, localización de los servidores (en el propio país o fuera de él), tamaño (en peso) de las páginas web del sitio (es importante optimizar el tamaño de las imágenes que se utilizan, entre 10 o 20 KB).

Ejemplo de medición con la herramienta Gtmetrix

El tiempo de descarga considerado idóneo para una página es de menos de 2 segundos, 4 o más considera alto. Existen herramientas gratuitas que analizan el tiempo de descarga de tu página como Gtmetrix.com que presenta un informe gratuito para su optimización. Los elementos más pesados suelen ser las imágenes, banners o similares. Por ello, es aconsejable utilizar alguna herramienta que permita su optimización, como las gratuitas Imageoptimizer.net y Kraken.io (online), Gimp o Picasa.

b) Arquitectura de la web. La estructura interna que tiene una web, es decir, los enlaces que conectan unas páginas con otras dentro del mismo sitio y que determinan su navegación, es lo que permite a los robots navegar internamente, recorriendo su estructura, e indexar todas sus páginas. Si los enlaces ya no existen o están rotos hará imposible esta indexación de forma correcta y además afectará negativamente a la calidad del sitio web. La herramienta Webmaster de Google nos permite identificar este tipo de información: urls que ya no existen, urls que están desconectadas, etc.

c) Sitemap.xml. Además de la estructura web que recorre el robot siguiendo los enlaces, existe otro mecanismo más claro y directo para indicarle el contenido total de la web y es a través del fichero sitemap.xml que se sitúa en el directorio de la home de la web, en el servidor donde está alojado. Este fichero debe contener la lista de todas las url de las páginas que nos gustaría tener indexadas. La existencia de este fichero no nos asegura la indexación al 100%, pero sí ayuda y optimiza el recorrido del robot.

d) Robots.txt. Existen medios para indicar a los buscadores que no deseamos que indexen algunas páginas que se encuentran bajo nuestro dominio web. El mecanismo más habitual es a través del fichero robots.txt, que se localiza en el directorio de la home de nuestra web.

Una sintaxis posible puede ser la del siguiente ejemplo:

User-agent: * significa: aplica a todos los búscadores. Disallow: /cgi-bin/ significa: No indexa el directorio cgi-bin, debajo de la Home. Disallow: /tmp/ significa: No indexa el directorio tmp, debajo de la Home.

e) A los buscadores no les gustan algunas tecnologías que se usan en la programación de determinadas páginas web. Concretamente, los contenidos en javascript y flash no permiten navegar a través de sus enlaces. Por ejemplo, si un menú principal está programado con estas tecnologías, los buscadores no indexarán ninguna de las páginas web que enlazan desde este menú, por lo que esa web perderá todos esos contenidos desde el punto de vista de la indexación de los buscadores. Igualmente, las cookies tampoco son del agrado de los buscadores y las ignorarán.

Se puede identificar si nuestro sitio web utiliza javascript o cookies a través dela herramienta Web Developer extensión para Firefox, que nos permite deshabilitar estas tecnologías y comprobar si nuestra web continúa funcionando. La tecnología Flash se puede comprobar colocando el cursor sobre el contenido y pinchando el botón derecho del ratón, donde se nos habilitará un menú informativo sobre el flash que se está utilizando, si no aparece, es que no se utiliza.

f) Contenido duplicado. Google ha ido penalizando cada vez más la duplicidad de contenidos en una misma web, reforzándose este hecho desde la actualización de Google en 2011, conocida como Panda. Los siguientes aspectos penalizan en el proceso de indexación de un contenido: acceso a la misma web desde www.dominio.es y dominio.es, acceso a la misma web desde http y https, distintas direcciones url para el mismo contenido, variables de sesión para identificar a los usuarios que acceden al mismo contenido, duplicidad de títulos y descripciones en diferentes páginas. La herramienta Screaming Frog permite analizar estas descripciones y duplicidades para todas nuestras páginas.

Ejemplo de búsqueda con la herramienta Screaming Frog

Existen diferentes procesos para indicar a los buscadores algunos aspectos que, de otra forma, los considerarían contenidos duplicados:

  • Uso del redireccionamiento 301. Indica a los buscadores la dirección correcta a la que queremos acceder, aunque se haya solicitado otras urls. Es útil utilizarlo en casos como: se accede a una página con diferentes urls, pero queremos indicar a los buscadores la dirección preferente. Ejemplo: www.cecarm.com y Cecarm.com. Se traslada una web a un nuevo dominio y en el periodo transitorio queremos redireccionar desde el antiguo dominio al nuevo.
  • Uso del elemento canonical. Permite indicarle a los buscadores la dirección web correcta de una url que contiene parámetros de seguimiento o de sesión, evitando confundir a los buscadores con la apariencia de ser diferentes web cuando en realidad es la misma y  de esta forma se evita la penalización de ser considerado contenido duplicado.

Finalmente debemos recordar que el principal criterio para la indexación de las páginas web es la calidad de los contenidos que se publiquen. El negocio de los buscadores es ofrecer contenidos de calidad a sus usuarios, por tanto, todo lo que refuerce la consecución de este objetivo, siempre será bien tratado por los buscadores. Aunque como hemos comentando durante todo este artículo, el primer paso siempre será ser reconocido y valorado por los robots de los buscadores durante el proceso de indexación.

Artículos relacionados:

Estrategia SEO (I): cómo conseguir enlaces externos de calidad

Estrategia SEO (II): términos de posicionamiento y factores internos

Otros recursos interesantes de Posicionamiento Web