Horas
Minutos
Segundos

Prueba ahora 7 días gratis (Promoción por tiempo limitado)

Manipulación de datos con PySpark

Aprende el proceso de limpieza y transformación de datos con PySpark en Databricks y consume tablas delta con SQL para el análisis y visualización de datos.

Gratis

Nivel: Fundamentos

Duración: 01h 15m

¿Qué aprenderás?

  • Fundamentos de Apache Spark y PySpark
  • Cargar archivos CSV y JSON en Databricks
  • Limpiar y transformar datos con PySpark
  • Crear y guardar datos en tablas Delta
  • Consultar datos con código SQL
  • Crear dashboards visuales en Databricks

Descripción

En nuestro taller «PySpark Fundamentals en Databricks», exploramos de manera práctica cómo utilizar una de las herramientas más potentes del mundo del análisis de datos: Apache Spark, a través de la plataforma Databricks. Comenzamos con una introducción sencilla al entorno Databricks Free Edition, explicando cómo crear y configurar un espacio de trabajo en la nube. Desde allí, guiamos paso a paso a los participantes en cómo establecer la conexión con archivos CSV y JSON almacenados en volumes en la nube, los cuales representan conjuntos de datos prácticos. Todo esto sin necesidad de instalar ningún software adicional, aprovechando la interfaz amigable que ofrece Databricks para trabajar directamente desde el navegador.

El siguiente paso fue aplicar técnicas de limpieza de datos utilizando PySpark, el módulo de Python que permite trabajar con Spark. Aprendimos a realizar operaciones de filtrado, creación de columnas calculadas, agrupaciones, combinaciones (join), entre multiples operaciones más. Todo esto utilizando código simple y claro, ideal para quienes están comenzando en el mundo de la programación orientada a datos.

Una vez transformados los datos, mostramos cómo crear una tabla Delta, el formato optimizado para almacenamiento y consulta en Databricks. Este tipo de tabla no solo permite almacenar grandes volúmenes de información, sino que también ofrece ventajas como versiones de datos, rapidez en las consultas y compatibilidad con procesos de análisis avanzados. Los asistentes aprendieron a guardar los datos procesados en una tabla Delta, asegurando así su disponibilidad para futuros proyectos sin necesidad de volver a procesarlos.

Finalmente, demostramos el poder del análisis visual dentro del mismo entorno de Databricks. Usando código SQL desde el editor nativo, realizamos consultas sobre la tabla Delta y, a partir de los resultados, construimos un dashboard interactivo. Este panel permite visualizar tendencias, patrones y resultados clave de manera clara y atractiva. Los participantes vieron cómo convertir sus datos en conocimiento accionable, todo desde una sola plataforma, reforzando la idea de que hoy en día es posible hacer análisis de principio a fin en un solo entorno, sin necesidad de ser un experto en programación o infraestructura.

Instructores

Edgar Quispe (Data Analyst Engineer)

Enseñar de manera didáctica es mi pasión

Ingeniero de Sistemas , Certificado por Microsoft como Data Analyst Associate, con 5 años de experiencia en herramientas y plataformas como SQL Server, Power BI, Python, Azure Data Factory, Databricks, SQL Server Integration Services con aplicaciones para empresas en Perú, Latinoamérica y España.

Edgar Quispe (Data Analyst Engineer)

Enseñar de manera didáctica es mi pasión

Ingeniero de Sistemas , Certificado por Microsoft como Data Analyst Associate, con 5 años de experiencia en herramientas y plataformas como SQL Server, Power BI, Python, Azure Data Factory, Databricks, SQL Server Integration Services con aplicaciones para empresas en Perú, Latinoamérica y España.

Un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Duración: 01h 15m

Nivel: Fundamentos

Requisitos

  • Conocimiento básico de SQL y Python
  • Cuenta de Databricks Free Edition

     👉Registrate AQUI

Aprende Databricks desde cero

🚀https://wa.link/b1dogc

Aprende Azure desde cero

☁️ https://wa.link/5p3ts3

 

Materiales del taller

Continúa tu aprendizaje con este curso:

Mi Primer Pipeline ELT en Azure

Por:
Edgar Quispe (Azure Data Engineer)

Mi Primer Pipeline ELT en Azure

Por:
Edgar Quispe (Azure Data Engineer)

Talleres relacionados

Power BI Fundamentals for Data Analyst

Por:
Edgar Quispe

54m 27s

Gratis

Fundamentos del lenguaje SQL para consultar datos

Por:
Edgar Quispe

01h 15m

Gratis

Mi Primer Pipeline ETL con Azure Data Factory

Por:
Edgar Quispe (Data Analyst Engineer)

01h 27m

Gratis

¡Añadido al carrito con éxito!

Ir al carrito

Regístrate para desbloquear los talleres premium.

¿Ya tienes una cuenta? Inicia Sesión

Beneficios de la suscripción

La suscripción dura un mes (1) y durante ese tiempo podrás:

Información de la suscripción