Simular al consumidor: ¿hasta dónde llega la data sintética?

¿Quieres leer una edición en específico?

Simular al consumidor: ¿hasta dónde llega la data sintética?

La inteligencia artificial ya permite replicar patrones de compra y comportamiento, pero la comprensión profunda del consumidor sigue teniendo un límite humano, de acuerdo a los especialistas de CORPA Research.

Paz Muñoz, gerente comercial de CORPA Research.

Pavel Castillo, gerente de Intelligence de CORPA.

El desarrollo y uso de la Inteligencia Artificial ha llegado a muchos ámbitos, entre los que se cuenta la investigación de mercado, donde se está trabajando con data sintética. Esta es información generada artificialmente mediante modelos estadísticos, simulaciones o algoritmos, que imita las propiedades clave de datos reales sin provenir directamente de consumidores o mercados observados. Estos conjuntos de datos son capaces de reproducir patrones, distribuciones y relaciones presentes en datos reales, como comportamiento de compra, segmentación, elasticidades, sin contener registros reales de personas.

“La Data Sintética es, tal cual lo indica su nombre, crear datos a partir de ciertos componentes. Hay dos grandes líneas, la cuantitativa y cualitativa. En la cuantitativa, lo que se hace es generar datos a partir de un componente de aleatoriedad sujeto a las relaciones que tengan diversas variables; literalmente es crear encuestas a partir de algoritmos complejos que buscan capturar estadísticamente la complejidad humana. Por otro lado, está la data sintética cualitativa, en que distintas IA entrenadas para ser un perfil de consumidor particular ‘participan’ del estudio cualitativo”, explica Paz Muñoz, gerente comercial de CORPA Research.

La capacidad de procesamiento de información y el desarrollo de la IA hace que sean cada vez más precisas y rápidas este tipo de herramientas estadísticas. “Además, los negocios están buscando disminuir los timings para tomar decisiones. Esto hace que la data sintética se vuelva interesante”, acota Muñoz.

La herramienta se usa por lo general para acelerar la etapa de trabajo de campo. “Generalmente, el último 25% de la muestra que se debe abordar es el más lento, ya que hay que ir cuadrando cuotas o son segmentos más difíciles. Esto se puede suplir con data sintética y ayuda a optimizar los tiempos”, añade.

Pavel Castillo, gerente de Intelligence de CORPA, “es importante tener un historial previo robusto de la categoría para contrastar la fiabilidad de los modelos. Los modelos de data sintética pueden tener sesgos importantes si no se calibran bien. Cuando eso se logra suplir con historia y verificando la calidad de los modelos, básicamente se reducen los tiempos de entrega de un estudio con un error muy bajo, es decir, manteniendo la calidad de datos cuantitativos”.

¿Qué tipo de preguntas de negocio puede responder mejor la data sintética y cuáles siguen requiriendo datos reales?

En general, la data sintética funciona mejor para preguntas de negocio en contextos donde existe historia previa. En el ámbito cuantitativo, hace muchos años que se trabaja con simulaciones —por ejemplo, en economía— y eso tiene una base clara: aunque los individuos somos muy distintos entre sí, cuando se analiza el comportamiento agregado comienzan a aparecer patrones consistentes, como los que describe la curva de Gauss.

Por eso, una parte relevante de las preguntas de negocio que hoy se responden con estudios cuantitativos puede abordarse con data sintética, siempre que esté bien modelada y validada contra datos reales.

Un caso donde la data sintética es un gran aporte —y permite agilizar mucho la toma de decisiones— es en nichos de estudio difíciles de abordar. Por ejemplo, cuando una empresa debe tomar decisiones estratégicas tempranas, como invertir en una maquinaria específica para fabricar pañales o desarrollar un nuevo alimento con ingredientes muy particulares. En estos casos, el target suele ser muy acotado —por ejemplo, madres de bebés de cierta edad que usan talla G, o deportistas que consumen barras de proteína con formulaciones específicas—, lo que vuelve el levantamiento de muestra lento y costoso. Estudios de este tipo pueden extenderse por varias semanas, y combinar la muestra con hasta un 25% de data sintética permite acortar significativamente los tiempos, facilitando una toma de decisiones de negocio más ágil.

En lo cualitativo, en cambio, todavía vemos limitaciones claras y desafíos relevantes para la industria, especialmente cuando el objetivo es profundizar. A menos que se busque algo muy exploratorio, rápido o superficial, la riqueza del cualitativo está en comprender la experiencia desde los propios términos de las personas, algo que hoy sigue requiriendo interacción humana directa.

¿Cómo se asegura que la data sintética represente adecuadamente la realidad?

Por eso es importante tener historia, así uno puede contrastar la realidad con los datos sintéticos y corroborar la fiabilidad. Utilizar la data sintética sin historia, y sin corroborar los modelos en cada categoría en cada país, es un riesgo grande. Hemos visto casos en que se ofrecen estos modelos contrastando contra data real, y las diferencias son muy grandes, pero discursivamente lo hacen parecer pequeño, y el cliente no siempre logra distinguir eso. Cuando se busca comprensión profunda, la respuesta de un humano real sigue siendo más robusta que la de un algoritmo, aunque cada vez se acercarán más.

¿Puede esta herramienta amplificar sesgos preexistentes en los datos originales? Completamente. La investigación social siempre está sujeta a algún tipo de sesgo, lo importante es reducirlos, neutralizarlos o entender hacia dónde apuntan para considerarlo dentro del análisis. Con data sintética, este riesgo se mitiga haciendo proyecciones por culturas (un argentino responde muy diferente a un brasilero, por ejemplo), teniendo un trabajo de campo equilibrado, es decir, no dejar lo más difícil para el final, y siempre, siempre, tener muy presente los sesgos que pueden existir por la autoselección en cualquier tipo de investigación. Este último sesgo lamentablemente es más habitual de lo que uno se imagina, muy poco entendido, y daña enormemente los datos.

¿Qué tan relevante es contar con first-party data de calidad para generar data sintética útil y accionable?

Creo que contar con este tipo de datos es lo que le da confianza a los modelos de data sintética. Sin estos datos, puede ser mejor trabajar con muestras más chicas en vez de suplir eso con datos sintéticos.

¿Cómo imagina la convivencia entre datos reales, data sintética y métodos cualitativos en los próximos años?

Creo que a medida que vayamos avanzando en estos modelos y aprendiendo, podremos ir supliendo cada vez más la muestra con data sintética. En CORPA ofrecemos hasta un 25% de data sintética sobre la muestra, hemos visto que se ofrece hasta 75%, esos casos son muy riesgosos aún. Y respecto a la convivencia con los datos cualitativos, tiendo a ser un poco escéptico, veo difícil reemplazar la complejidad humana, la complejidad de la percepción sensorial con algoritmos. Por ejemplo, hemos hecho muchas pruebas para buscar predecir la percepción de las personas de un producto a partir de datos “objetivos” de laboratorio, pero no hemos encontrado nada concluyente, más allá que no hemos logrado modelar las percepciones de las personas de buena forma.

¿Cómo visualiza el rol de la data sintética en la estrategia de marketing de aquí a cinco años?

Creo que en los estudios o categorías en donde se tenga historia, esperaría que entre un 25% a un 50% se esté realizando con data sintética. Es importante de todas formas, cada cierto tiempo, ir haciendo pruebas para verificar la fiabilidad de los modelos y volver a hacer ajustes si es necesario.

RECUADRO

Los eventuales dilemas éticos

El uso de data sintética en marketing y research no está exento de ciertos dilemas éticos. “Desde nuestra mirada, el principal desafío ético no es la data sintética en sí, sino cómo se construye, valida y comunica su uso. Al final, el rol de las empresas de inteligencia es acercar a las marcas a sus consumidores reales, y la data sintética implica, en cierta medida, replicar virtualmente ese comportamiento. Cuando esto se hace sin suficiente historia, sin pruebas adecuadas o sin validación por categoría y contexto, el riesgo es alto y puede llevar a decisiones mal informadas. Hemos hecho ejercicios comparando con otras empresas de estudios que ofrecen abiertamente completar muestra con data sintética, y nos hemos topado con resultados que derechamente son malos, y que bajo ningún enfoque recomendaríamos usarlo”, advierte Pavel Castillo.

Paz Muñoz complementa que “es fundamental la transparencia con los clientes: dejar explícito cuándo se está trabajando con data sintética, en qué proporción y para qué tipo de decisiones es adecuada. Desde nuestra experiencia, somos cautos al ofrecer este tipo de alternativas y las utilizamos solo en escenarios acotados, con modelos previamente contrastados y siempre de forma complementaria a data real. Presentarla como un reemplazo total de la investigación con personas reales no solo es metodológicamente riesgoso, sino también éticamente cuestionable. Bien utilizada, la data sintética puede acelerar decisiones y proteger la privacidad; mal gobernada, se transforma en un riesgo estratégico para las marcas”.