Apache Spark SQL: curso maestro de Bigdata In-Memory Analytics

Apache Spark SQL: curso maestro de Bigdata In-Memory Analytics

Domine la computación distribuida en memoria con Apache Spark SQL. Aproveche el poder de Dataframe y Dataset Demostración de la vida real

Lo que aprenderás

Apache Spark SQL: curso maestro de Bigdata In-Memory Analytics

  • Sintaxis de Spark SQL, arquitectura de componentes en Apache Spark
  • Conjunto de datos, marcos de datos, RDD
  • Funciones avanzadas sobre la interacción de Spark SQL con otros componentes
  • Usando datos de varias fuentes de datos como MS Excel, RDBMS, AWS S3, No SQL Mongo DB,
  • Usando los diferentes formatos de archivos como Parquet, Avro, JSON
  • Partición y agrupación de tablas

Requisitos

  • Introducción al ecosistema de Big Data
  • Conceptos básicos sobre SQL

Descripción

Este curso está diseñado para profesionales de experiencia cero ya profesionales calificados para mejorar sus habilidades de Spark SQL. La sesión práctica cubre la configuración de punta a punta de Spark Cluster en AWS y en sistemas locales.

Lo que dicen los estudiantes:

  • 5 estrellas, “Esto es clásico. Los conceptos relacionados con Spark se explican claramente con ejemplos de la vida real. ”- Temitayo Joseph

En la etapa final, debemos trabajar con los datos estructurados. SQL es un lenguaje de consulta popular para realizar análisis de datos estructurados.

Apache Spark facilita la computación distribuida en memoria. Spark tiene un módulo incorporado llamado Spark-SQL para el procesamiento de datos estructurados. Los usuarios pueden mezclar consultas SQL con programas Spark y se integra perfectamente con otras construcciones de Spark.

Spark SQL facilita la carga y escritura de datos de varias fuentes como RDBMS, NoSQL bases de datos, almacenamiento en la nube como S3 y fácilmente puede manejar diferentes formatos de datos como Parquet, Avro, JSON y muchos más.

LEER
Ajuste de Apache Spark: curso de recetas de procesamiento de Big Data de gran alcance

Spark proporciona dos tipos de API

API de bajo nivel: RDD

API de alto nivel: Marcos de datos y Conjuntos de datos

Spark SQL combina muy bien con varios componentes de Spark como Spark Streaming, Spark Core y GraphX, ya que tiene una buena integración de API entre Nivel alto y API de bajo nivel.

La parte inicial del curso es Introducción a la arquitectura Lambda y el ecosistema de Big Data. La sección restante se concentraría en leer y escribir datos entre Spark y varias fuentes de datos.

El marco de datos y los conjuntos de datos son los bloques de construcción básicos para Spark SQL. Aprenderemos a trabajar en Transformaciones y acciones con RDD, marcos de datos y conjuntos de datos.

Optimización en la mesa con Fraccionamiento y Agrupamiento.

1) Conjunto de datos de la NHL Análisis

2) Conjunto de datos de bicicletas compartidas del área de la bahía Análisis

Actualizaciones:

++ Cuaderno Apache Zeppelin (instalación, configuración, entrada dinámica)

++ Demostración de Spark con Apache Zeppelin

Etiquetasapach spark Apache Spark ejemplo de apache spark instalación apache spark sql apache spark tutorial de sql transmisión de apache spark transmisión de apache spark tutorial de apache spark tutorial de apache spark para principiantes conectarse al servidor sql usando apache spark cómo conectarse a ms sql desde apache spark aprender chispa odbc y jdbc controladores para apache spark sql optimización de apache spark sql se une a Spark Spark arquitectura hadoop Spark sql formación Spark tutorial de Spark qué es Apache Spark qué es Spark

.

Más Información

Subir

Este sitio web utiliza cookies para ofrecerle una mejor experiencia de navegación, si continua en navegando consideramos que acepta su uso.