A/B testing: guía completa
Cómo diseñar, ejecutar e interpretar tests que mejoren tus conversiones de forma fiable
El A/B testing es la herramienta principal de CRO para validar hipótesis con datos reales. Consiste en mostrar dos versiones de una página o elemento a grupos de usuarios seleccionados aleatoriamente y medir cuál produce mejores resultados.
Pero un A/B test mal diseñado puede ser peor que no testar: genera falsos positivos, decisiones erróneas y una falsa sensación de certidumbre. Esta guía cubre todo el proceso: desde la formulación de hipótesis hasta la interpretación correcta de resultados.
Cómo formular hipótesis testeables
Un A/B test sin hipótesis es un experimento sin dirección. La hipótesis debe seguir la estructura: "Si cambiamos [variable], esperamos [resultado medible] porque [razón basada en datos]". La razón es fundamental: sin ella, no aprendes nada del test, gane o pierda.
Las hipótesis vienen de la investigación previa: un heatmap que muestra que nadie llega al CTA, una grabación donde los usuarios no encuentran el formulario, o un dato de analítica que revela un 70% de abandono en un paso del checkout. Sin investigación, las hipótesis son adivinanzas.
- Estructura: "Si [cambio], entonces [resultado] porque [evidencia]"
- Basada en datos cualitativos o cuantitativos, no en opiniones
- Una sola variable por test para aislar el efecto
- Resultado medible con la métrica principal y métricas guardrail
Calcular el tamaño de muestra necesario
El tamaño de muestra determina cuántas visitas necesitas antes de que el resultado sea estadísticamente fiable. Depende de tres factores: tu tasa de conversión actual, el efecto mínimo detectable (qué mejora quieres detectar) y el nivel de confianza deseado (habitualmente 95%).
Una calculadora de tamaño de muestra (Optimizely, Evan Miller, AB Test Guide) te dice cuántas visitas necesitas por variante. Si la respuesta es 50.000 y tu web recibe 2.000 visitas semanales, el test durará 25 semanas, lo cual probablemente no sea viable. Ajusta el efecto mínimo detectable o busca métricas intermedias con mayor volumen.
Significancia estadística: qué es y qué no es
La significancia estadística (habitualmente al 95%) indica que hay menos de un 5% de probabilidad de que el resultado observado sea producto del azar. No significa que el resultado sea correcto con un 95% de certeza: significa que si no hubiera diferencia real, solo verías ese resultado el 5% de las veces.
El error más grave es parar un test antes de alcanzar la muestra necesaria porque "ya se ve ganador". Los resultados fluctúan enormemente en las primeras horas y días. Un test parado prematuramente tiene una probabilidad de falso positivo mucho mayor que el 5% nominal.
- No pares el test antes de alcanzar el tamaño de muestra calculado
- Un test al 90% de significancia no es lo mismo que al 95%
- Considera usar pruebas secuenciales si necesitas decisiones más rápidas
- Mira el intervalo de confianza, no solo el p-value
Herramientas para A/B testing
Optimizely y VWO son las plataformas de referencia para A/B testing con editores visuales que permiten crear variantes sin código. Google Optimize fue descontinuado, pero GA4 integra test básicos y se puede complementar con Optimizely o VWO.
Para equipos técnicos, herramientas como LaunchDarkly, Statsig o GrowthBook permiten feature flags con A/B testing integrado, ideal para testar cambios de producto además de cambios de interfaz. La elección depende de tu stack técnico y del volumen de tests que planeas ejecutar.
- Optimizely: la referencia enterprise, editor visual + server-side
- VWO: alternativa potente con heatmaps y grabaciones integradas
- GrowthBook: open source, ideal para equipos técnicos
- Statsig: feature flags + experimentación con análisis estadístico avanzado
Errores comunes en A/B testing
Parar el test antes de tiempo es el error más frecuente y más peligroso. El segundo es no tener una hipótesis clara: testar por testar sin dirección genera aprendizajes superficiales y desperdicia tráfico valioso.
Otros errores incluyen: cambiar múltiples variables a la vez (no sabes qué causó el resultado), ignorar la estacionalidad (un test que empieza en Black Friday y termina después no es fiable) y no segmentar los resultados (la variante ganadora global puede ser perdedora en móvil).
- Parar prematuramente por resultados iniciales prometedores
- Cambiar múltiples variables en una sola variante
- No considerar efectos de estacionalidad o eventos externos
- No segmentar resultados por dispositivo, fuente o audiencia
- Declarar ganador sin significancia estadística suficiente
- No documentar los aprendizajes de tests perdedores
Más allá del A/B: multivariante y bandits
El test multivariante (MVT) testea múltiples combinaciones de cambios simultáneamente: por ejemplo, 3 titulares × 2 CTAs = 6 variantes. Requiere mucho más tráfico pero identifica la combinación óptima de elementos.
Los multi-armed bandits asignan más tráfico a la variante ganadora conforme se acumulan datos, maximizando conversiones durante el test en lugar de esperar al final. Son útiles cuando el coste de oportunidad de mostrar la variante perdedora es alto (ecommerce con alto volumen).
Puntos clave
- Toda hipótesis de test debe estar basada en datos de investigación previa
- Calcula el tamaño de muestra antes de empezar y no pares el test antes de alcanzarlo
- La significancia estadística no garantiza que el resultado sea correcto, solo que no es azar
- Documenta tanto los tests ganadores como los perdedores para acumular aprendizajes
- Segmenta los resultados: un ganador global puede ser perdedor en un segmento clave
¿Quieres un programa de testing que genere resultados?
Diseñamos y ejecutamos programas de A/B testing con hipótesis fundamentadas, análisis riguroso y aprendizajes accionables.