Si la IA responde distinto cada vez, ¿se puede medir la visibilidad? Cómo funciona la medición seria
La objeción llega siempre de la persona más técnica de la sala, y es la mejor objeción que existe contra los servicios de visibilidad en IA: «He preguntado dos veces lo mismo a ChatGPT y me ha recomendado empresas distintas. Si la respuesta cambia cada vez, ¿qué demonios estáis midiendo?».
Quien pregunta eso ha entendido algo que la mitad del sector prefiere ignorar: los modelos de lenguaje no son deterministas. La misma pregunta, el mismo día, puede producir respuestas diferentes. No hay un «ranking» fijo que consultar, no hay una posición 3 que capturar. Cualquiera que te venda «estás en el puesto 2 de ChatGPT» como si fuera una clasificación de liga te está vendiendo una foto de algo que se mueve.
Y sin embargo, la conclusión de «entonces no se puede medir» es errónea, y la mejor prueba es que media ciencia funciona midiendo cosas que cambian cada vez que las miras. Vamos por partes.
Por qué varían las respuestas (la parte que el escéptico ya sabe)
Tres fuentes de variación, para tenerlas nombradas:
- El modelo sortea. Los modelos generan texto eligiendo entre opciones probables, con azar deliberado de por medio. Dos ejecuciones idénticas pueden tomar caminos distintos, sobre todo en listas («dime cinco gestorías en Sevilla»): los nombres con presencia fuerte en las fuentes salen casi siempre; los marginales entran y salen.
- El contexto contamina. La misma pregunta con historiales, cuentas o ubicaciones distintas produce respuestas distintas. Lo que tú ves en tu ChatGPT no es lo que ve el cliente de tu cliente en el suyo.
- El suelo se mueve. Los modelos se actualizan, los buscadores que usan cambian de índice, y la respuesta de marzo puede ser irreconocible en junio sin que nadie haya tocado nada.
Conclusión parcial del escéptico: una captura de pantalla de ChatGPT no demuestra casi nada. Correcto. Concedido. Ahora viene lo que no se sigue de ahí.
La encuesta electoral: así se mide lo que varía
Nadie sabe qué votará un votante concreto, y aun así las encuestas estiman resultados electorales con márgenes razonables. ¿Cómo? No preguntando una vez a una persona, sino muchas veces a muchas, y mirando frecuencias en lugar de casos. La medición de visibilidad en IA seria funciona exactamente igual:
Muestreo en lugar de foto. No se pregunta una vez: se lanza una batería de prompts —las preguntas que haría el público real del cliente— de forma repetida y periódica, a varias IAs. Si en 40 preguntas relevantes lanzadas esta semana tu cliente aparece en 12 respuestas, eso es una frecuencia de aparición: un dato. Que una respuesta individual varíe deja de importar, igual que a la encuesta no le importa que un encuestado concreto cambie de opinión. De hecho, la variabilidad es la razón de medir así, no el impedimento. Qué preguntas componen una buena batería es un oficio en sí mismo — lo desarrollamos en cómo elegir los prompts que monitorizas para un cliente.
Tendencias en lugar de momentos. Una medición aislada de «apareces en el 30 %» dice poco: puede ser ruido. Doce semanas de mediciones dibujando una curva que va del 10 % al 30 % mientras trabajas las fuentes — eso ya es señal. La pregunta seria nunca es «¿qué dijo ChatGPT el martes?» sino «¿la frecuencia de aparición sube, baja o se mantiene desde que empezamos?». Lo mismo vale para el competidor: si él aparece en el 70 % de las respuestas de la categoría y tu cliente en el 15 %, esa diferencia es demasiado grande para ser azar.
Intervalos en lugar de certezas. Aun así, la medición tiene grano grueso, y conviene presentarla como tal: «apareces en torno al 25-35 % de las respuestas de tu categoría» es defendible; «apareces exactamente en el 28,4 %» es falsa precisión. Los movimientos pequeños entre semanas son ruido; los movimientos sostenidos y las distancias grandes son información. El informe honesto distingue ambos delante del cliente, no en la letra pequeña.
Esto tiene una consecuencia práctica inmediata: medir bien a mano es inviable. Una batería digna son 40-75 preguntas, por 3-4 IAs, cada semana, con registro de quién aparece y qué se dice — por cliente. Hazlo con capturas de pantalla y tienes un empleo a media jornada que produce datos peores. Es el tipo de trabajo que se delega en herramientas: nosotros lo hacemos con Surfeo, que ejecuta la batería completa cada semana contra las 4 IAs y convierte el resultado en frecuencias y tendencias listas para el informe. Pero la metodología importa más que la marca: cualquier medición que no sea muestreo repetido y periódico es una captura con ínfulas.
Qué puede prometer una medición así (y qué no)
Al escéptico se le gana terminando la frase que él empezó:
Puede: decirte con qué frecuencia aparece el cliente en las respuestas de su categoría, en qué IAs sí y en cuáles no, qué se dice de él cuando aparece, quién ocupa el espacio cuando no, y —lo más valioso— si todo eso mejora o empeora a lo largo de los meses, que es al final lo único que justifica un retainer.
No puede: garantizarte lo que verá un usuario concreto en una conversación concreta, ni prometerte una «posición» estable, ni atribuir con precisión quirúrgica cada mejora a cada acción. Quien promete eso no ha entendido el instrumento — o confía en que el cliente no lo entienda.
Esta frontera entre lo medible y lo prometible es exactamente la que debería dibujar tu propuesta comercial: comprometerse a medir bien y a trabajar las fuentes, no a resultados que nadie controla. Cómo trasladar eso a objetivos concretos sin pillarte los dedos está en objetivos realistas de visibilidad en IA, y cómo se traduce en un documento mensual que el cliente entienda, en la anatomía de un informe de visibilidad en IA.
Y un apunte final para el escéptico que ha llegado hasta aquí: la variabilidad que motiva su objeción es también la mejor razón para medir. Si las respuestas fueran fijas, bastaría con mirarlas una vez al año. Como cambian —con cada actualización de modelo, con cada movimiento de las fuentes—, el que no monitoriza se entera de los cambios cuando ya le han costado clientes. La caída silenciosa de las búsquedas de marca es el ejemplo de manual: cómo saber si la IA está respondiendo por tu cliente.
Preguntas frecuentes
¿Cuántas preguntas y cuántas repeticiones hacen falta para que el dato sea fiable?
Más preguntas relevantes y más frecuencia dan más resolución, con rendimientos decrecientes. Como referencia práctica, una batería de 40-75 prompts por cliente ejecutada semanalmente contra 3-4 IAs detecta con solvencia las tendencias que importan a un negocio. Con 5 preguntas una vez al mes, en cambio, el ruido se come la señal.
¿Por qué medir varias IAs si mi cliente solo habla de ChatGPT?
Porque las respuestas no se parecen: en nuestro estudio sobre 9.865 pymes españolas, el 91 % solo aparecía en 1 de las 4 IAs principales. Estar bien en ChatGPT no dice nada de Gemini o Perplexity, y el público del cliente está repartido entre todas. Medir solo una es como hacer una encuesta solo en un barrio.
¿Esto no es lo mismo que el tracking de rankings de toda la vida?
Comparte el espíritu —medir presencia de forma sistemática— pero no la mecánica: un ranking es una lista pública y estable que se consulta; aquí no hay lista, hay que generarla preguntando muchas veces y contando. Por eso los informes hablan de frecuencias y tendencias, no de posiciones. Quien traslade la mentalidad de «puesto 3» a la IA sin adaptarla acabará prometiendo cosas que el medio no permite cumplir.
¿Cómo le explico todo esto a un cliente no técnico sin perderlo?
Con la encuesta electoral: «no podemos saber qué le dirá la IA a una persona concreta, igual que una encuesta no sabe qué votará tu vecino; podemos saber con qué frecuencia te recomienda y si esa frecuencia mejora con el trabajo». Dos frases, y la conversación pasa de la magia a la estadística.
La teoría se entiende mejor con un dato delante: haz el test de visibilidad en IA gratis con cualquier web y mira la primera foto — la tendencia empieza ahí.