Todos los bots de IA

CCBot

Common CrawlEntrenamiento

CCBot es el rastreador de Common Crawl, una fundación sin ánimo de lucro que mantiene un archivo público y gratuito de la web. Ese archivo es la materia prima con la que se han entrenado muchísimos modelos de IA, tanto comerciales como de código abierto. Estar en Common Crawl significa estar en la base de conocimiento de buena parte del ecosistema de IA actual.

User-agent
CCBotCCBot/2.0 (https://commoncrawl.org/faq/)
¿Respeta robots.txt?
Documentación oficial
https://commoncrawl.org/ccbot

Cómo permitirlo en tu robots.txt

User-agent: CCBot
Allow: /

Cómo bloquearlo (no recomendado)

User-agent: CCBot
Disallow: /

Preguntas frecuentes

¿Debo bloquear a CCBot?

No es recomendable si buscas visibilidad en IA. Common Crawl alimenta a decenas de modelos a la vez: bloquear a CCBot es como borrarte de la enciclopedia que casi todas las IAs usan para aprender.

¿CCBot respeta el robots.txt?

Sí. Basta con una regla Disallow para el user-agent CCBot. Common Crawl además publica sus rangos de IP oficiales y ofrece un registro de exclusión voluntaria, y avisa de que existen impostores que se hacen pasar por CCBot.

¿Cómo sé si CCBot visita mi web?

Busca "CCBot" en los logs de tu servidor. Las visitas legítimas se pueden verificar por DNS inverso: resuelven a dominios del tipo crawl.commoncrawl.org.

Recursos relacionados

¿Sabes si estos bots ya leen tu web y qué dicen de ti? Haz el test gratis.

Hacer el test gratis