cohere-training-data-crawler
Es el rastreador de entrenamiento de Cohere, una empresa de IA centrada en modelos de lenguaje para el mundo empresarial. Recoge texto público de la web para entrenar y refinar sus modelos. Cohere no publica una página oficial de documentación del bot, así que la referencia disponible procede de directorios especializados solventes, que confirman su user-agent y su comportamiento.
- User-agent
cohere-training-data-crawler- Does it respect robots.txt?
- Yes
- Official documentation
- https://knownagents.com/agents/cohere-training-data-crawler
How to allow it in your robots.txt
User-agent: cohere-training-data-crawler
Allow: /How to block it (not recommended)
User-agent: cohere-training-data-crawler
Disallow: /Frequently asked questions
¿Debo bloquear a cohere-training-data-crawler?
Si quieres que los modelos de Cohere, usados por muchas empresas en sus propios productos, conozcan tu contenido, no. Bloquearlo te excluye de esa rama del ecosistema de IA sin ganar nada a cambio.
¿Este bot respeta el robots.txt?
No está confirmado por Cohere. Los directorios especializados que lo documentan asumen que, como la mayoría de bots de empresas reputadas, atiende las directivas de robots.txt dirigidas a "cohere-training-data-crawler", pero Cohere no publica documentación oficial que lo garantice.
¿Cómo sé si visita mi web?
Busca "cohere-training-data-crawler" en los logs de tu servidor. A veces aparece acompañado de un correo de contacto del equipo de rastreo de Cohere en la propia cadena del user-agent.