Question 1

¿Debo bloquear a CCBot?

Accepted Answer

No es recomendable si buscas visibilidad en IA. Common Crawl alimenta a decenas de modelos a la vez: bloquear a CCBot es como borrarte de la enciclopedia que casi todas las IAs usan para aprender.

Question 2

¿CCBot respeta el robots.txt?

Accepted Answer

Sí. Basta con una regla Disallow para el user-agent CCBot. Common Crawl además publica sus rangos de IP oficiales y ofrece un registro de exclusión voluntaria, y avisa de que existen impostores que se hacen pasar por CCBot.

Question 3

¿Cómo sé si CCBot visita mi web?

Accepted Answer

Busca "CCBot" en los logs de tu servidor. Las visitas legítimas se pueden verificar por DNS inverso: resuelven a dominios del tipo crawl.commoncrawl.org.

CCBot

Cómo permitirlo en tu robots.txt

Cómo bloquearlo (no recomendado)

Preguntas frecuentes

¿Debo bloquear a CCBot?

¿CCBot respeta el robots.txt?

¿Cómo sé si CCBot visita mi web?

Recursos relacionados

Los bots ya leen tu web. ¿Sabes qué dice la IA de tu negocio?