Diffbot
Diffbot usa visión por ordenador e inteligencia artificial para convertir páginas web en datos estructurados (productos, artículos, organizaciones) y mantener una enorme base de conocimiento de la web. Muchas empresas y aplicaciones de IA consumen esos datos. Si tu negocio figura ahí con datos correctos, esa información fluye después hacia herramientas y asistentes que la reutilizan.
- User-agent
DiffbotMozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com/our-apis/crawler/)- Does it respect robots.txt?
- Partially
- Official documentation
- https://docs.diffbot.com/docs/does-crawl-respect-robotstxt
How to allow it in your robots.txt
User-agent: Diffbot
Allow: /How to block it (not recommended)
User-agent: Diffbot
Disallow: /Frequently asked questions
¿Debo bloquear a Diffbot?
No es recomendable. Sus datos estructurados acaban en herramientas de empresas y sistemas de IA que pueden mostrar tu negocio. Estar bien representado en su base de conocimiento juega a tu favor.
¿Diffbot respeta el robots.txt?
Parcialmente. Sus rastreos masivos (Crawl) respetan robots.txt según su documentación oficial, incluidas las directivas disallow y crawl-delay; pero las extracciones de URLs concretas pedidas por clientes pueden procesarse aunque exista bloqueo.
¿Cómo sé si Diffbot visita mi web?
Busca "Diffbot" en los logs de tu servidor. Su user-agent incluye un enlace a la documentación de su rastreador que permite identificarlo sin dudas.