Prueba ahora 7 días gratis (Promoción por tiempo limitado)
Aprende el proceso de limpieza y transformación de datos con PySpark en Databricks y consume tablas delta con SQL para el análisis y visualización de datos.
Nivel: Fundamentos
Duración: 01h 15m
En nuestro taller «PySpark Fundamentals en Databricks», exploramos de manera práctica cómo utilizar una de las herramientas más potentes del mundo del análisis de datos: Apache Spark, a través de la plataforma Databricks. Comenzamos con una introducción sencilla al entorno Databricks Free Edition, explicando cómo crear y configurar un espacio de trabajo en la nube. Desde allí, guiamos paso a paso a los participantes en cómo establecer la conexión con archivos CSV y JSON almacenados en volumes en la nube, los cuales representan conjuntos de datos prácticos. Todo esto sin necesidad de instalar ningún software adicional, aprovechando la interfaz amigable que ofrece Databricks para trabajar directamente desde el navegador.
El siguiente paso fue aplicar técnicas de limpieza de datos utilizando PySpark, el módulo de Python que permite trabajar con Spark. Aprendimos a realizar operaciones de filtrado, creación de columnas calculadas, agrupaciones, combinaciones (join), entre multiples operaciones más. Todo esto utilizando código simple y claro, ideal para quienes están comenzando en el mundo de la programación orientada a datos.
Una vez transformados los datos, mostramos cómo crear una tabla Delta, el formato optimizado para almacenamiento y consulta en Databricks. Este tipo de tabla no solo permite almacenar grandes volúmenes de información, sino que también ofrece ventajas como versiones de datos, rapidez en las consultas y compatibilidad con procesos de análisis avanzados. Los asistentes aprendieron a guardar los datos procesados en una tabla Delta, asegurando así su disponibilidad para futuros proyectos sin necesidad de volver a procesarlos.
Finalmente, demostramos el poder del análisis visual dentro del mismo entorno de Databricks. Usando código SQL desde el editor nativo, realizamos consultas sobre la tabla Delta y, a partir de los resultados, construimos un dashboard interactivo. Este panel permite visualizar tendencias, patrones y resultados clave de manera clara y atractiva. Los participantes vieron cómo convertir sus datos en conocimiento accionable, todo desde una sola plataforma, reforzando la idea de que hoy en día es posible hacer análisis de principio a fin en un solo entorno, sin necesidad de ser un experto en programación o infraestructura.
Ingeniero de Sistemas , Certificado por Microsoft como Data Analyst Associate, con 5 años de experiencia en herramientas y plataformas como SQL Server, Power BI, Python, Azure Data Factory, Databricks, SQL Server Integration Services con aplicaciones para empresas en Perú, Latinoamérica y España.
Ingeniero de Sistemas , Certificado por Microsoft como Data Analyst Associate, con 5 años de experiencia en herramientas y plataformas como SQL Server, Power BI, Python, Azure Data Factory, Databricks, SQL Server Integration Services con aplicaciones para empresas en Perú, Latinoamérica y España.
Duración: 01h 15m
Nivel: Fundamentos
Aprende Databricks desde cero
Aprende Azure desde cero
Regístrate para desbloquear los talleres premium.
¿Ya tienes una cuenta? Inicia Sesión
La suscripción dura un mes (1) y durante ese tiempo podrás:
Información de la suscripción
Un comentario
Con ganas de aprender más del mundo de los datos.