Measures of Center
Measures of Center
Las medidas de tendencia central, como la media, mediana y moda, son esenciales para describir datos. La media se calcula dividiendo la suma de los valores por su cantidad, la mediana es el valor central en un conjunto ordenado, y la moda es el valor más frecuente. Se discute la influencia de los outliers en la media y mediana, destacando que la mediana es más robusta ante datos sesgados. Se presentan ejemplos prácticos de cálculo en Python y se enfatiza la importancia de formular preguntas clave al analizar datos.
Measures of Spread
Measures of Spread
Las medidas de dispersión, como la varianza y la desviación estándar, describen cuán separados están los datos respecto a su media. La varianza se calcula como la suma de las distancias al cuadrado dividida por el número de puntos menos uno, mientras que la desviación estándar es la raíz cuadrada de la varianza. También se menciona la desviación absoluta de la media, que penaliza las distancias de manera uniforme. La desviación estándar es más comúnmente utilizada en estadísticas.
Grouped Statistics
Grouped Statistics
Se presentan técnicas para analizar estadísticas en Python utilizando el método .groupby() para agrupar datos por variables y calcular la media, así como el método .agg() para obtener múltiples estadísticas. También se puede agrupar por varias variables y columnas, permitiendo un análisis más detallado, como el peso por color y raza.
Pivot Tables
Pivot Tables
Las tablas dinámicas en Python permiten calcular estadísticas agrupadas usando .pivot_table(). Se puede especificar la columna a resumir y la columna para agrupar. Se pueden aplicar diferentes funciones estadísticas con el argumento aggfunc. También se pueden manejar valores faltantes con fill_value y agregar márgenes para mostrar promedios en la tabla.