Qué nos dice lo visual de una marca: cómo la visión por computador está transformando la investigación en branding visual
Cada día se suben cinco millones de imágenes a Instagram. Una parte significativa de ellas contiene una marca: un logotipo, una foto de producto, un rostro asociado a una empresa. Las personas procesan esas imágenes de forma visual, intuitiva y rápida. Los algoritmos pueden hacerlo ahora a escala, con una mayor consistencia de la que jamás permitieron los métodos manuales.
Esto no es un desarrollo periférico. En 2022, el 34% de las empresas ya habían incorporado la visión por computador como capacidad central de IA, por delante del procesamiento de lenguaje natural y de los agentes virtuales. El mercado global de visión artificial se valoró en 20.750 millones de dólares en 2025 y se prevé que alcance los 72.800 millones de dólares en 2034, con una tasa de crecimiento anual compuesta (CAGR) del 14,80%.Sin embargo, su aplicación sistemática en la investigación sobre branding ha quedado por detrás de su desarrollo técnico. La mayoría de los estudios utilizan la visión por computador como herramienta, sin anclarla a la teoría de la marca. El resultado es un campo empíricamente rico pero conceptualmente fragmentado.
En uno de nuestros proyectos, escrito junto a Yaqiu Li y Hsin Hsuan Meg Lee y publicado en el Journal of Business Research, realizamos una revisión exhaustiva de lo que sabemos, de lo que hemos ignorado sistemáticamente y de cómo debería orientarse la próxima década de investigación en branding visual.
Un marco que conecta proceso con resultado
El artículo propone el marco CTV-CBBE, que vincula la Teoría Computacional de la Visión (Marr, 1982) con el modelo de brand equity basado en el consumidor de Keller. La lógica es clara: la CTV explica cómo los sistemas visuales — biológicos o computacionales — procesan imágenes. El CBBE explica por qué ese procesamiento es importante para la estrategia de marca. Conectarlos crea un vocabulario estructurado que hasta ahora no teníamos para vincular el desarrollo tecnológico con la estrategia de marca.
El marco opera en tres niveles. En el nivel computacional, identifica qué características visuales son relevantes para el brand equity: desde atributos de bajo nivel, como color, textura, forma y composición espacial, hasta contenido semántico de alto nivel, como presencia humana, expresiones faciales, objetos, lugares y acciones. En el nivel algorítmico, mapea cómo las tareas de visión por computador (detección de objetos, reconocimiento de expresiones faciales, generación de imágenes, análisis multimodal) procesan dichas características. En el nivel de implementación, conecta los resultados con las dimensiones del CBBE: identidad de marca, significado de marca, respuesta del consumidor y relaciones de marca.
Lo que dicen 106 artículos
La revisión abarca una década de investigación en marketing, sistemas de información, informática y gestión. La tasa de crecimiento habla por sí sola: un incremento anual promedio del 66% en estudios sobre visión por computador y branding desde 2018. Esta no es una metodología de nicho.
El engagement domina como resultado más estudiado (27 artículos), impulsado por la prevalencia de plataformas visuales con métricas de interacción medibles. La identidad de marca, paradójicamente, es la dimensión menos estudiada — solo 7 artículos — pese a ser la base de todo lo demás.
Las aplicaciones prácticas documentadas en la literatura son concretas. L'Oréal despliega visión por computador para analizar en tiempo real las necesidades de la piel, la edad, el género y la etnia, y personalizar las recomendaciones de productos a nivel individual. La investigación sobre Airbnb demuestra que los atributos de las imágenes de portada (tipo de habitación, brillo, claridad espacial) predicen directamente la demanda de reservas. Estudios en comercio físico muestran que el reconocimiento de expresiones faciales puede orientar la estrategia de merchandising antes de que los clientes expresen una sola preferencia.
Tres cambios estructurales definen la trayectoria del campo: de características visuales individuales a constructos integrativos como la estética, la complejidad y la similitud; de imágenes estáticas a contenido dinámico que incluye vídeo y diseño de entornos de servicio; y del análisis monomodal al análisis multimodal que combina imagen, texto y audio. Cada uno de estos cambios permite una clase de preguntas de investigación cualitativamente diferente.
Lo que todavia no sabemos
La revisión es tan útil tanto por lo que encuentra ausente como por lo que documenta. La textura y la forma reciben mucha menos atención investigadora que el color y la presencia humana, pese a la evidencia de que inciden en la actitud hacia la marca y en la intención de compra. El movimiento (lenguaje corporal, gestos, pose, dinámica del logotipo) está prácticamente ausente de la investigación en branding, a pesar del volumen de contenido en vídeo que las marcas producen actualmente y de las herramientas técnicas disponibles para analizarlo.
El lugar o entorno se estudia principalmente en investigación turística y rara vez se aplica a la credibilidad de las marcas de servicios, pese a su clara relevancia. El bienestar del consumidor como resultado del branding es casi invisible en la literatura de visión por computador. La credibilidad de la marca personal — directamente relevante para los influencers virtuales y el brand equity humano — se plantea explícitamente en la agenda de investigación como una pregunta abierta.
Los estudios longitudinales sobre la evolución de la identidad de marca son escasos. La mayor parte del trabajo ofrece una instantánea transversal, sin seguir cómo evolucionan las asociaciones visuales de marca a lo largo del tiempo y entre plataformas. Las herramientas para hacerlo existen. Los estudios, en gran medida, no.
Dónde entra la IA generativa
La generación de imágenes se está convirtiendo rápidamente en una herramienta práctica para el branding. Los modelos ya pueden asistir en el rediseño de logotipos, en la iteración de packaging y en la evaluación de la consistencia visual. Los modelos de texto a imagen (text-to-image) están menos estudiados en contextos de branding, pero tienen implicaciones evidentes para la comunicación visual escalable. El reto no es la capacidad técnica — es saber qué generar y por qué, lo que exige exactamente el tipo de fundamentación teórica que ofrece el marco CTV-CBBE.
El análisis multimodal abre otra frontera. Combinar señales de imagen, texto y audio permite estudiar emociones discretas — envidia, asombro, interés — difíciles de capturar a través de un único canal. Esto tiene implicaciones directas para las teorías de la emoción del consumidor que han estado limitadas por las restricciones de los datos monomodales.
Qué implica esto en la práctica
Para investigadores: los espacios en blanco de esta revisión no son brechas marginales. Son constructos centrales del branding — identidad, credibilidad, bienestar, lealtad — que la visión por computador ya puede abordar técnicamente. La infraestructura para el análisis visual riguroso existe. El marco teórico para interpretarla es lo que proporciona el CTV-CBBE.
Para profesionales: si tu marca produce contenido visual a escala — publicaciones en redes sociales, imágenes de producto, vídeo, entornos de servicio — probablemente ya tengas un problema de analítica visual que aún no has formulado como tal. La pregunta no es si la visión por computador se aplica a tu estrategia. Es si tienes un marco para interpretar lo que encuentras, y si tus colaboradores de investigación lo tienen.
Los datos visuales no son solo un output de contenido. Es evidencia de cómo una marca se desarrolla en su entorno. Deberían tratarse como tal.
Fuente:
Li, Y., Lee, H.H.M., & Blasco-Arcas, L. (2025). Computer vision in branding: A conceptual framework and future research agenda. Journal of Business Research, 193, 115329. https://doi.org/10.1016/j.jbusres.2025.115329
El artículo completo está disponible en acceso abierto en el Journal of Business Research: doi.org/10.1016/j.jbusres.2025.115329. Si trabajas en analítica visual en marketing o exploras la visión por computador para la investigación de marca, escríbeme o sígueme para más contenido sobre IA, datos visuales y comportamiento del consumidor.