Ingeniería de datos con los servicios de AWS Analytics

Ingeniería de datos con los servicios de AWS Analytics

Cree canalizaciones de ingeniería de datos utilizando los servicios de AWS Analytics como Glue, EMR, Athena, Kinesis, Quick Sight, etc.

Lo que aprenderás

Ingeniería de datos con los servicios de AWS Analytics

  • Ingeniería de datos que aprovecha las funciones de AWS Analytics
  • Gestión de tablas mediante Glue Catalog
  • Ingeniería de canalizaciones de datos por lotes mediante trabajos de pegamento
  • Orquestación de canalizaciones de datos por lotes mediante flujos de trabajo de Glue
  • Ejecución de consultas con Athena: servicio de motor de consultas sin servidor
  • Uso de clústeres de AWS Elastic Map Reduce (EMR) para crear canalizaciones de datos
  • Uso de clústeres de AWS Elastic Map Reduce (EMR) para informes y paneles
  • Ingestión de datos mediante funciones Lambda
  • Programación mediante Events Bridge
  • Ingeniería de canalizaciones de transmisión con Kinesis
  • Transmisión de registros del servidor web con Kinesis Firehose

Requisitos

  • Experiencia de programación usando Python
  • Experiencia en ingeniería de datos con Spark
  • Capacidad para escribir e interpretar consultas SQL
  • Este curso es ideal para que los ingenieros de datos con experiencia agreguen los servicios de AWS Analytics como habilidades clave a su perfil.

Descripción

La ingeniería de datos tiene que ver con la creación de canalizaciones de datos para obtener datos de múltiples fuentes en Data Lake o Data Warehouse y luego de Data Lake o Data Warehouse a los sistemas posteriores. Como parte de este curso, le explicaré cómo crear canalizaciones de ingeniería de datos con AWS Analytics Stack. Incluye servicios como Glue, Elastic Map Reduce (EMR), Lambda Functions, Athena, QuickSight y muchos más.

Estos son los pasos de alto nivel que seguirá como parte del curso.

  • Entorno de desarrollo de configuración
  • Introducción a AWS
  • Ciclo de vida de desarrollo de Pyspark
  • Descripción general de los componentes del pegamento
  • Configurar el servidor de historial de Spark para trabajos de pegamento
  • Profundización en el catálogo de pegamento
  • Explorando las API de Glue Job
  • Marcadores de trabajo de pegamento
  • Ingestión de datos mediante funciones Lambda
  • Streaming Pipeline usando Kinesis
  • Consumir datos de s3 usando boto3
  • Rellenar datos de GitHub en Dynamodb
LEER
SEO para WordPress: Guía del idiota para el éxito de Google

Introducción a AWS

  • Introducción: introducción a AWS
  • Crear depósito s3
  • Crear grupo y usuario de IAM
  • Resumen de roles
  • Crear y adjuntar una política personalizada
  • Configurar y validar AWS CLI

Ciclo de vida de desarrollo para Pyspark

  • Configurar el entorno virtual e instalar Pyspark
  • Empezando con Pycharm
  • Pasar argumentos en tiempo de ejecución
  • Acceder a las variables de entorno del sistema operativo
  • Introducción a Spark
  • Crear función para la sesión de Spark
  • Configurar datos de muestra
  • Leer datos de archivos
  • Procesar datos con las API de Spark
  • Escribir datos en archivos
  • Validar la escritura de datos en archivos
  • Producción del código

Descripción general de los componentes del pegamento

  • Introducción: descripción general de los componentes del pegamento
  • Crear tabla de catálogo y rastreador
  • Analizar datos con Athena
  • Creación de un segmento y un rol de S3
  • Crear y ejecutar el trabajo de pegamento
  • Validar usando Glue CatalogTable y Athena
  • Crear y ejecutar Glue Trigger
  • Crear flujo de trabajo de pegamento
  • Ejecute el flujo de trabajo de Glue y valide

Más Información

Subir

Este sitio web utiliza cookies para ofrecerle una mejor experiencia de navegación, si continua en navegando consideramos que acepta su uso.