All AI bots

CCBot

Common CrawlTraining

CCBot es el rastreador de Common Crawl, una fundación sin ánimo de lucro que mantiene un archivo público y gratuito de la web. Ese archivo es la materia prima con la que se han entrenado muchísimos modelos de IA, tanto comerciales como de código abierto. Estar en Common Crawl significa estar en la base de conocimiento de buena parte del ecosistema de IA actual.

User-agent
CCBotCCBot/2.0 (https://commoncrawl.org/faq/)
Does it respect robots.txt?
Yes
Official documentation
https://commoncrawl.org/ccbot

How to allow it in your robots.txt

User-agent: CCBot
Allow: /

How to block it (not recommended)

User-agent: CCBot
Disallow: /

Frequently asked questions

¿Debo bloquear a CCBot?

No es recomendable si buscas visibilidad en IA. Common Crawl alimenta a decenas de modelos a la vez: bloquear a CCBot es como borrarte de la enciclopedia que casi todas las IAs usan para aprender.

¿CCBot respeta el robots.txt?

Sí. Basta con una regla Disallow para el user-agent CCBot. Common Crawl además publica sus rangos de IP oficiales y ofrece un registro de exclusión voluntaria, y avisa de que existen impostores que se hacen pasar por CCBot.

¿Cómo sé si CCBot visita mi web?

Busca "CCBot" en los logs de tu servidor. Las visitas legítimas se pueden verificar por DNS inverso: resuelven a dominios del tipo crawl.commoncrawl.org.

Related resources

Do you know if these bots already read your site and what they say about you? Run the free test.

Run the free test