Introducción a Pandas
Introducción a Pandas
Pandas es una librería de Python para la manipulación de datos, construida sobre NumPy y Matplotlib, que utiliza estructuras de datos como Series y DataFrames. Se puede instalar con pip y se importa con un alias comúnmente como pd. Los archivos se pueden convertir en DataFrames usando pd.read_csv.
Agregar Nuevas Columnas
Agregar Nuevas Columnas
Se explica cómo agregar nuevas columnas a un DataFrame en Pandas, incluyendo ejemplos de código para crear columnas que suman valores, clasifican ventas y calculan porcentajes. También se proponen ejercicios prácticos para agregar columnas que suman datos de personas sin hogar y calculan proporciones en relación con la población estatal.
Métodos para Cambiar Valores
Métodos para Cambiar Valores
Se describen métodos en Pandas para cambiar valores en un DataFrame: replace() para reemplazar valores específicos, fillna() para llenar valores faltantes con un valor específico, y dropna() para eliminar filas o columnas con valores faltantes.
Counting
Counting
Para contar cuántos perritos de cada raza han visitado la veterinaria, se debe evitar contar duplicados de nombres. Se puede usar el método drop_duplicates para eliminar filas repetidas, pero esto no es eficiente si hay perritos con el mismo nombre de diferentes razas. En su lugar, se debe seleccionar tanto el nombre como la raza y luego utilizar value_counts para contar las razas, con opciones para ordenar y normalizar los resultados.
Sorting y Subsetting
Sorting y Subsetting
Ordenar y filtrar datos en pandas facilita el análisis al permitir organizar información por columnas, ya sea en orden ascendente o descendente, y seleccionar subconjuntos de datos según condiciones específicas. Se pueden realizar operaciones como seleccionar columnas, filas por índice o condiciones lógicas, y combinar ambas técnicas para un análisis más efectivo.
Summary Statistics
Summary Statistics
Las estadísticas de resumen son herramientas para resumir conjuntos de datos. Se destacan funciones como .mean() para calcular la media, .min() y .max() para encontrar los valores mínimo y máximo, y .agg() para estadísticas personalizadas. También se mencionan estadísticas acumulativas, que se pueden calcular usando .cumsum() para obtener sumas acumulativas en un DataFrame.
Métodos para Transformación de Datos
Métodos para Transformación de Datos
La transformación de datos en pandas implica modificar y manipular datos en un DataFrame o Serie para facilitar el análisis. Se destacan métodos como apply() para funciones personalizadas en columnas o filas, map() para transformar valores individuales en series, applymap() para aplicar transformaciones a todo un DataFrame, y groupby() para sumar cantidades vendidas por producto.
Indexing Data []
Indexing Data []
Se pueden acceder a los datos en un DataFrame de varias maneras, siendo el uso de corchetes cuadrados [] una de las más comunes. Para seleccionar un país, se utilizan corchetes simples, mientras que para conservar los datos en un DataFrame se emplean dobles corchetes. También se pueden seleccionar filas especificando un rango, recordando que el índice comienza en 0 y es excluyente. Aunque útiles, los corchetes cuadrados tienen limitaciones.
Loc
Loc
Loc es una técnica en Pandas para seleccionar datos basados en etiquetas. Permite acceder a filas específicas, como la de Rusia, y seleccionar múltiples filas, como India y China. También se pueden especificar columnas de interés y seleccionar todas las filas con un número específico de columnas usando dos puntos.
Iloc
Iloc
Iloc es una técnica en Pandas para seleccionar datos según su posición. Se pueden obtener filas específicas como Rusia, India y China usando índices, y también se puede seleccionar columnas específicas como país y capital.
Setting Indexes
Setting Indexes
En Pandas, se pueden establecer columnas como índices para organizar datos de manera eficiente, facilitando búsquedas rápidas y análisis significativos. Se puede usar .set_index() para asignar un índice y .reset_index() para revertirlo. Los índices pueden no ser únicos y se pueden crear índices jerárquicos con múltiples columnas. Además, se pueden realizar operaciones como .sort_index() para ordenar los datos por índice, aunque su uso puede complicar el código.