A/B testing: guía completa

Cómo diseñar, ejecutar e interpretar tests que mejoren tus conversiones de forma fiable

23 de enero de 2026 9 min

El A/B testing es la herramienta principal de CRO para validar hipótesis con datos reales. Consiste en mostrar dos versiones de una página o elemento a grupos de usuarios seleccionados aleatoriamente y medir cuál produce mejores resultados.

Pero un A/B test mal diseñado puede ser peor que no testar: genera falsos positivos, decisiones erróneas y una falsa sensación de certidumbre. Esta guía cubre todo el proceso: desde la formulación de hipótesis hasta la interpretación correcta de resultados.

Cómo formular hipótesis testeables

Un A/B test sin hipótesis es un experimento sin dirección. La hipótesis debe seguir la estructura: "Si cambiamos [variable], esperamos [resultado medible] porque [razón basada en datos]". La razón es fundamental: sin ella, no aprendes nada del test, gane o pierda.

Las hipótesis vienen de la investigación previa: un heatmap que muestra que nadie llega al CTA, una grabación donde los usuarios no encuentran el formulario, o un dato de analítica que revela un 70% de abandono en un paso del checkout. Sin investigación, las hipótesis son adivinanzas.

Estructura: "Si [cambio], entonces [resultado] porque [evidencia]"
Basada en datos cualitativos o cuantitativos, no en opiniones
Una sola variable por test para aislar el efecto
Resultado medible con la métrica principal y métricas guardrail

Calcular el tamaño de muestra necesario

El tamaño de muestra determina cuántas visitas necesitas antes de que el resultado sea estadísticamente fiable. Depende de tres factores: tu tasa de conversión actual, el efecto mínimo detectable (qué mejora quieres detectar) y el nivel de confianza deseado (habitualmente 95%).

Una calculadora de tamaño de muestra (Optimizely, Evan Miller, AB Test Guide) te dice cuántas visitas necesitas por variante. Si la respuesta es 50.000 y tu web recibe 2.000 visitas semanales, el test durará 25 semanas, lo cual probablemente no sea viable. Ajusta el efecto mínimo detectable o busca métricas intermedias con mayor volumen.

Significancia estadística: qué es y qué no es

La significancia estadística (habitualmente al 95%) indica que hay menos de un 5% de probabilidad de que el resultado observado sea producto del azar. No significa que el resultado sea correcto con un 95% de certeza: significa que si no hubiera diferencia real, solo verías ese resultado el 5% de las veces.

El error más grave es parar un test antes de alcanzar la muestra necesaria porque "ya se ve ganador". Los resultados fluctúan enormemente en las primeras horas y días. Un test parado prematuramente tiene una probabilidad de falso positivo mucho mayor que el 5% nominal.

No pares el test antes de alcanzar el tamaño de muestra calculado
Un test al 90% de significancia no es lo mismo que al 95%
Considera usar pruebas secuenciales si necesitas decisiones más rápidas
Mira el intervalo de confianza, no solo el p-value

Herramientas para A/B testing

Optimizely y VWO son las plataformas de referencia para A/B testing con editores visuales que permiten crear variantes sin código. Google Optimize fue descontinuado, pero GA4 integra test básicos y se puede complementar con Optimizely o VWO.

Para equipos técnicos, herramientas como LaunchDarkly, Statsig o GrowthBook permiten feature flags con A/B testing integrado, ideal para testar cambios de producto además de cambios de interfaz. La elección depende de tu stack técnico y del volumen de tests que planeas ejecutar.

Optimizely: la referencia enterprise, editor visual + server-side
VWO: alternativa potente con heatmaps y grabaciones integradas
GrowthBook: open source, ideal para equipos técnicos
Statsig: feature flags + experimentación con análisis estadístico avanzado

Errores comunes en A/B testing

Parar el test antes de tiempo es el error más frecuente y más peligroso. El segundo es no tener una hipótesis clara: testar por testar sin dirección genera aprendizajes superficiales y desperdicia tráfico valioso.

Otros errores incluyen: cambiar múltiples variables a la vez (no sabes qué causó el resultado), ignorar la estacionalidad (un test que empieza en Black Friday y termina después no es fiable) y no segmentar los resultados (la variante ganadora global puede ser perdedora en móvil).

Parar prematuramente por resultados iniciales prometedores
Cambiar múltiples variables en una sola variante
No considerar efectos de estacionalidad o eventos externos
No segmentar resultados por dispositivo, fuente o audiencia
Declarar ganador sin significancia estadística suficiente
No documentar los aprendizajes de tests perdedores

Más allá del A/B: multivariante y bandits

El test multivariante (MVT) testea múltiples combinaciones de cambios simultáneamente: por ejemplo, 3 titulares × 2 CTAs = 6 variantes. Requiere mucho más tráfico pero identifica la combinación óptima de elementos.

Los multi-armed bandits asignan más tráfico a la variante ganadora conforme se acumulan datos, maximizando conversiones durante el test en lugar de esperar al final. Son útiles cuando el coste de oportunidad de mostrar la variante perdedora es alto (ecommerce con alto volumen).

Puntos clave

Toda hipótesis de test debe estar basada en datos de investigación previa
Calcula el tamaño de muestra antes de empezar y no pares el test antes de alcanzarlo
La significancia estadística no garantiza que el resultado sea correcto, solo que no es azar
Documenta tanto los tests ganadores como los perdedores para acumular aprendizajes
Segmenta los resultados: un ganador global puede ser perdedor en un segmento clave

¿Quieres un programa de testing que genere resultados?

Diseñamos y ejecutamos programas de A/B testing con hipótesis fundamentadas, análisis riguroso y aprendizajes accionables.

A/B testing: guía completa

Cómo formular hipótesis testeables

Calcular el tamaño de muestra necesario

Significancia estadística: qué es y qué no es

Herramientas para A/B testing

Errores comunes en A/B testing

Más allá del A/B: multivariante y bandits

Puntos clave

¿Quieres un programa de testing que genere resultados?

Escríbenos

Agenda una llamada

¡Mensaje enviado!

Algo salió mal