El secreto para optimizar tus estrategias y maximizar tus resultados
.
Pruebas A/B - Análisis Estadístico
URL del proyecto en R:
AB-test-notebook-in-R.html
Herramientas Utilizadas:
RStudio, Microsoft Excel
Sección 1: Introducción al proyecto
Descripción del problema
Este es un proyecto de análisis de datos de pruebas A/B, en el cual analizaremos datos de un sitio web que lanzó un experimento A/B con el objetivo de aumentar sus ingresos.
Los datos proporcionados contienen algunas características engañosas que pueden afectar el resultado final del experimento, y nuestra tarea es determinar si existe una diferencia significativa entre las dos opciones.
Objetivo empresarial
"El propósito de este proyecto es analizar los resultados de un experimento A/B realizado en un sitio web con el objetivo de incrementar sus ingresos y proporcionar recomendaciones basadas en los hallazgos del análisis."
Sección 2: Descripción de los datos
El archivo de Excel proporcionado contiene datos en bruto, incluyendo el ID de usuario, el tipo de muestra y los ingresos generados por el usuario. El archivo contiene datos simulados de un experimento A/B con los siguientes atributos:
Columna |
Tipo de datos |
Subtipo de datos |
Rangos y categorías |
1. User ID |
Categorical |
Nominal |
ID with numbers from 1 to 10000 |
2. Variant Name |
Categorical |
Nominal |
Variant, Control |
3. Income |
Numerical |
Continuous |
$0 to $196 |
Section 3: Limpieza de datos
Distribución de usuarios
Observaciones
-
Usuarios duplicados:
Se puede observar que hay un gran número de usuarios duplicados, por lo que el proceso de limpieza debe llevarse a cabo con mucho cuidado.
Distribución de usuarios después de limpieza
Acciones tomadas para la limpieza
-
Eliminación de usuarios que participaron en dos experimentos:
Comenzamos eliminando la mayor fuente posible de sesgo; había usuarios que visitaron ambas versiones del sitio web, por lo que estos usuarios fueron eliminados por completo.
-
Selección de usuarios que repitieron un experimento:
Finalmente, había usuarios que visitaron el mismo sitio web varias veces, y se decidió seleccionar la visita que generó el ingreso más alto.
Section 4: Análisis Exploratorio de Datos
Distribución de ingresos en ambos grupos
Observaciones
-
Diferencias en los promedios:
Se puede observar una pequeña diferencia en las medias de ambas variantes, la cual podría ser estadísticamente significativa.
-
Distribuciones similares:
Ambas grupos tienen distribuciones similares y ninguna es una distribución normal.
Sección 5: Análisis Estadístico
Error estándar e intervalo de confianza del 95% para ambos grupos
Observaciones
-
Distribución de promedios:
Se utilizó la técnica de bootstrap para obtener la distribución de medias de ambas variantes. Las distribuciones se solapan debido a la cercanía de sus medias.
Curvas de densidad para ambos grupos
Observaciones
-
Sobrelapado de ambos groups:
La distribución de medias para ambas variantes se superpone, lo que indica que la diferencia entre ellas podría no ser estadísticamente significativa.
Es la diferencia entre los promedios estadísticamente significativa?
Observaciones
-
Diferencia observada de los promedios:
Se utilizó la técnica de permutación con 1000 iteraciones para comparar la diferencia observada en las medias y determinar si era un resultado aleatorio posible.
-
alfa >5%:
Se observó que el 8.2% de las veces, el resultado observado se debía al azar. Por lo tanto, se concluyó que este resultado no era estadísticamente significativo y se mantuvo la hipótesis nula.
Sección 6: Conclusión
Los resultados sugieren que la diferencia observada en los ingresos generados entre el grupo de control y el grupo de variante se encuentra dentro del rango de variación debido al azar, y por lo tanto, no es estadísticamente significativa.
Si se cuentan con recursos e interés, recomendamos continuar con la prueba A/B para recolectar más datos que puedan llevar a resultados más certeros, aunque debemos enfatizar que la diferencia entre ambas pruebas no es muy prometedora.