Contenidos
Apache Spark SQL: curso maestro de Bigdata In-Memory Analytics
Domine la computación distribuida en memoria con Apache Spark SQL. Aproveche el poder de Dataframe y Dataset Demostración de la vida real
Lo que aprenderás
Apache Spark SQL: curso maestro de Bigdata In-Memory Analytics
- Sintaxis de Spark SQL, arquitectura de componentes en Apache Spark
- Conjunto de datos, marcos de datos, RDD
- Funciones avanzadas sobre la interacción de Spark SQL con otros componentes
- Usando datos de varias fuentes de datos como MS Excel, RDBMS, AWS S3, No SQL Mongo DB,
- Usando los diferentes formatos de archivos como Parquet, Avro, JSON
- Partición y agrupación de tablas
Requisitos
- Introducción al ecosistema de Big Data
- Conceptos básicos sobre SQL
Descripción
Este curso está diseñado para profesionales de experiencia cero ya profesionales calificados para mejorar sus habilidades de Spark SQL. La sesión práctica cubre la configuración de punta a punta de Spark Cluster en AWS y en sistemas locales.
Lo que dicen los estudiantes:
- 5 estrellas, “Esto es clásico. Los conceptos relacionados con Spark se explican claramente con ejemplos de la vida real. ”- Temitayo Joseph
En la etapa final, debemos trabajar con los datos estructurados. SQL es un lenguaje de consulta popular para realizar análisis de datos estructurados.
Apache Spark facilita la computación distribuida en memoria. Spark tiene un módulo incorporado llamado Spark-SQL para el procesamiento de datos estructurados. Los usuarios pueden mezclar consultas SQL con programas Spark y se integra perfectamente con otras construcciones de Spark.
Spark SQL facilita la carga y escritura de datos de varias fuentes como RDBMS, NoSQL bases de datos, almacenamiento en la nube como S3 y fácilmente puede manejar diferentes formatos de datos como Parquet, Avro, JSON y muchos más.
Spark proporciona dos tipos de API
API de bajo nivel: RDD
API de alto nivel: Marcos de datos y Conjuntos de datos
Spark SQL combina muy bien con varios componentes de Spark como Spark Streaming, Spark Core y GraphX, ya que tiene una buena integración de API entre Nivel alto y API de bajo nivel.
La parte inicial del curso es Introducción a la arquitectura Lambda y el ecosistema de Big Data. La sección restante se concentraría en leer y escribir datos entre Spark y varias fuentes de datos.
El marco de datos y los conjuntos de datos son los bloques de construcción básicos para Spark SQL. Aprenderemos a trabajar en Transformaciones y acciones con RDD, marcos de datos y conjuntos de datos.
Optimización en la mesa con Fraccionamiento y Agrupamiento.
1) Conjunto de datos de la NHL Análisis
2) Conjunto de datos de bicicletas compartidas del área de la bahía Análisis
Actualizaciones:
++ Cuaderno Apache Zeppelin (instalación, configuración, entrada dinámica)
++ Demostración de Spark con Apache Zeppelin