Tengo un cliente que tenía su subdominio de desarrollo bloqueado con contraseña, pero que un buen día la quitó para hacer alguna modificación y olvidó reponerla.
Qué pasó? que Google llegó a ese subdominio (pongamos desarrollo.cliente.es) y comenzó a indexarlo TODO.
A día de hoy tiene más de 600 páginas en el buscador, compitiendo en las SERPs contra el site de producción. Nos toca evitar esta competencia “desleal”.

 

Actualización 4: Si es que soy un poco tonto. Desde el Webmaster Tools hay una opción para desindexar, si combinas esa solicitud de desindexación y borrado de caché con un robots restrictivo se desindexa perfectamente en menos de dos horas.

https://www.google.com/webmasters/tools/url-removal?hl=en&siteUrl=http://desarrollo.cliente.es/&rlf=pending

Cómo desindexamos el subdominio?
El Webmaster Tools no nos permite hacer cambios de dominio entre subdominios, sólo entre las raíces de los dominios, por lo que nos toca currárnoslo a manito.

Una opción si queremos que el bot no nos visite más es impedírselo a través del robots.txt del SUBDOMINIO (no del dominio principal, OJO):

User-agent: *
Disallow: /

El problema que tendremos si somos tan drásticos es que lo que ya tiene indexado se lo quedará, la solución correcta sería:

a.-Pedir que desindexe todo el contenido del site, y cuando la búsqueda site:desarrollo.cliente.es ya no devuelva resultados… .
b.-Bloquear el accesos de los robots a traves del robots.txt (con las líneas indicadas más arriba) y por seguridad una contraseña.

Cómo sacamos las páginas de Google?

Esto se consigue indicándole al Googlebot (y demás motores de búsqueda): no indexes y no sigas los enlaces mediante el Meta Robots (no incluyo el meta porque sino me desindexa el blog)

Al cabo de unas semanas (o meses incluso) si ya no vemos páginas indexadas podemos añadir la orden al robots.txt de que no deje entrar a los bots de los motores de búsqueda

Y la próxima vez toca tener más cuidado con los servidores de desarrollo… 😉

Actualización: Ya he subido el meta, os contaré cuando empiece a desindexar.
Actualización 2: 84 horas después hemos pasado de 600 URLS indexadas a menos de 140.
Actualización 3: 120 horas después tenemos 1100 páginas indexadas ?!?!?!