Diffbot
Diffbot usa visión por ordenador e inteligencia artificial para convertir páginas web en datos estructurados (productos, artículos, organizaciones) y mantener una enorme base de conocimiento de la web. Muchas empresas y aplicaciones de IA consumen esos datos. Si tu negocio figura ahí con datos correctos, esa información fluye después hacia herramientas y asistentes que la reutilizan.
- User-agent
DiffbotMozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com/our-apis/crawler/)- ¿Respeta robots.txt?
- Parcialmente
- Documentación oficial
- https://docs.diffbot.com/docs/does-crawl-respect-robotstxt
Cómo permitirlo en tu robots.txt
User-agent: Diffbot
Allow: /Cómo bloquearlo (no recomendado)
User-agent: Diffbot
Disallow: /Preguntas frecuentes
¿Debo bloquear a Diffbot?
No es recomendable. Sus datos estructurados acaban en herramientas de empresas y sistemas de IA que pueden mostrar tu negocio. Estar bien representado en su base de conocimiento juega a tu favor.
¿Diffbot respeta el robots.txt?
Parcialmente. Sus rastreos masivos (Crawl) respetan robots.txt según su documentación oficial, incluidas las directivas disallow y crawl-delay; pero las extracciones de URLs concretas pedidas por clientes pueden procesarse aunque exista bloqueo.
¿Cómo sé si Diffbot visita mi web?
Busca "Diffbot" en los logs de tu servidor. Su user-agent incluye un enlace a la documentación de su rastreador que permite identificarlo sin dudas.