AI2Bot
AI2Bot es el rastreador del Allen Institute for AI (Ai2), una organización de investigación sin ánimo de lucro. Recoge páginas web para construir datasets abiertos, como Dolma, que sirven para entrenar y evaluar sus modelos de lenguaje de código abierto. Esos datasets los reutilizan después muchos otros proyectos de IA, así que estar en ellos amplía tu huella en el ecosistema.
- User-agent
AI2BotMozilla/5.0 (compatible) AI2Bot (+https://www.allenai.org/crawler)- Does it respect robots.txt?
- Yes
- Official documentation
- https://allenai.org/crawler
How to allow it in your robots.txt
User-agent: AI2Bot
Allow: /How to block it (not recommended)
User-agent: AI2Bot
Disallow: /Frequently asked questions
¿Debo bloquear a AI2Bot?
No es recomendable. Sus datasets abiertos alimentan modelos de código abierto que usan miles de desarrolladores y productos. Permitirlo extiende el alcance de tu contenido en la IA sin coste para ti.
¿AI2Bot respeta el robots.txt?
Sí. Ai2 publica un aviso de rastreo oficial donde documenta su user-agent y confirma que puedes filtrar o rechazar su tráfico con las reglas estándar dirigidas a "AI2Bot".
¿Cómo sé si AI2Bot visita mi web?
Busca "AI2Bot" en los logs de tu servidor. Su user-agent incluye un enlace a allenai.org/crawler, la página oficial donde el instituto explica su funcionamiento.