CCBot
CCBot es el rastreador de Common Crawl, una fundación sin ánimo de lucro que mantiene un archivo público y gratuito de la web. Ese archivo es la materia prima con la que se han entrenado muchísimos modelos de IA, tanto comerciales como de código abierto. Estar en Common Crawl significa estar en la base de conocimiento de buena parte del ecosistema de IA actual.
- User-agent
CCBotCCBot/2.0 (https://commoncrawl.org/faq/)- Does it respect robots.txt?
- Yes
- Official documentation
- https://commoncrawl.org/ccbot
How to allow it in your robots.txt
User-agent: CCBot
Allow: /How to block it (not recommended)
User-agent: CCBot
Disallow: /Frequently asked questions
¿Debo bloquear a CCBot?
No es recomendable si buscas visibilidad en IA. Common Crawl alimenta a decenas de modelos a la vez: bloquear a CCBot es como borrarte de la enciclopedia que casi todas las IAs usan para aprender.
¿CCBot respeta el robots.txt?
Sí. Basta con una regla Disallow para el user-agent CCBot. Common Crawl además publica sus rangos de IP oficiales y ofrece un registro de exclusión voluntaria, y avisa de que existen impostores que se hacen pasar por CCBot.
¿Cómo sé si CCBot visita mi web?
Busca "CCBot" en los logs de tu servidor. Las visitas legítimas se pueden verificar por DNS inverso: resuelven a dominios del tipo crawl.commoncrawl.org.