img2dataset
img2dataset es una herramienta de código abierto creada por Romain Beaumont que descarga millones de imágenes de internet de forma automatizada. Fue la pieza clave para construir LAION-400M y LAION-5B, dos de los conjuntos de datos de imágenes más grandes del mundo, que sirvieron para entrenar modelos como Stable Diffusion. Si visita tu web, tus imágenes podrían acabar en datasets de entrenamiento de IA visual o generativa. No influye directamente en que ChatGPT o Gemini mencionen tu negocio.
- User-agent
img2datasetMozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0 (compatible; img2dataset; +https://github.com/rom1504/img2dataset)- ¿Respeta robots.txt?
- Parcialmente
- Documentación oficial
- https://github.com/rom1504/img2dataset
Cómo permitirlo en tu robots.txt
User-agent: img2dataset
Allow: /Cómo bloquearlo (no recomendado)
User-agent: img2dataset
Disallow: /Preguntas frecuentes
¿Debo bloquear img2dataset?
Depende de si quieres que tus imágenes formen parte de datasets de entrenamiento de IA. Permitirlo no te da más visibilidad en herramientas como ChatGPT o Perplexity; solo significa que tus fotos podrían usarse para entrenar modelos de generación de imágenes. Si tienes imágenes propias que prefieres no ceder, bloquearlo es una decisión razonable.
¿img2dataset afecta a mi visibilidad en IA?
No directamente. Este rastreador alimenta datasets de imágenes, no los modelos de lenguaje que hay detrás de los asistentes conversacionales. Dejarlo pasar no hará que ChatGPT o Gemini recomienden más tu negocio cuando alguien pregunte por lo que ofreces.
¿Cómo sé si img2dataset está visitando mi web?
Revisa los registros de tu servidor y busca entradas que contengan «img2dataset» o la cadena «(compatible; img2dataset;». Puedes añadir una regla en tu archivo robots.txt con el token «img2dataset» para bloquearlo; el rastreador lo respeta de forma parcial, aunque su cumplimiento oficial con robots.txt no está documentado de manera explícita.