Ingeniería de datos con características de Databricks en AWS y Azure

Ingeniería de datos con características de Databricks en AWS y Azure

Cree canalizaciones de ingeniería de datos utilizando las funciones principales de Databricks, como Spark, Delta Lake, archivos en la nube, etc.

Lo que aprenderás

Ingeniería de datos con características de Databricks en AWS y Azure

  • Ingeniería de datos aprovechando las características de Databricks
  • CLI de Databricks para administrar archivos, trabajos de ingeniería de datos y clústeres para canalizaciones de ingeniería de datos
  • Implementación de aplicaciones de ingeniería de datos desarrolladas con PySpark en clústeres de trabajos
  • Implementación de aplicaciones de ingeniería de datos desarrolladas con PySpark usando Notebooks en clústeres de trabajos
  • Realice operaciones CRUD aprovechando Delta Lake utilizando Spark SQL para aplicaciones de ingeniería de datos o canalizaciones
  • Realice operaciones CRUD aprovechando Delta Lake utilizando Pyspark para aplicaciones de ingeniería de datos o canalizaciones
  • Configuración del entorno de desarrollo para desarrollar aplicaciones de ingeniería de datos utilizando Databricks
  • Creación de canalizaciones de ingeniería de datos mediante transmisión estructurada de Spark en clústeres de Databricks
  • Procesamiento incremental de archivos mediante Spark Structured Streaming aprovechando los archivos en la nube de Databricks Auto Loader
  • Descripción general de los archivos en la nube del Autocargador Modos de descubrimiento de archivos: listado de directorios y notificaciones de archivos
  • Diferencias entre los archivos en la nube de Auto Loader Modos de descubrimiento de archivos: listado de directorios y notificaciones de archivos
  • Diferencias entre el Streaming estructurado de Spark tradicional y el aprovechamiento de los archivos en la nube de Databricks Auto Loader para el procesamiento incremental de archivos.

Requisitos

  • Experiencia de programación usando Python
  • Experiencia en ingeniería de datos con Spark
  • Capacidad para escribir e interpretar consultas SQL
  • Este curso es ideal para que los ingenieros de datos con experiencia agreguen Databricks como una de las habilidades clave como parte del perfil.

Descripción

Como parte de este curso, aprenderá toda la Ingeniería de datos utilizando tecnología independiente de la plataforma en la nube llamada Databricks.

Acerca de la ingeniería de datos

La ingeniería de datos no es más que procesar los datos en función de nuestras necesidades posteriores. Necesitamos construir diferentes pipelines como Batch Pipelines, Streaming Pipelines, etc. como parte de la Ingeniería de Datos.
Todos los roles relacionados con el procesamiento de datos se consolidan en Ingeniería de datos. Convencionalmente, se les conoce como desarrollo ETL, desarrollo de almacenamiento de datos, etc.

Acerca de Databricks

Databricks es la pila de tecnología de ingeniería de datos independiente de la plataforma en la nube más popular. Son los responsables del proyecto Apache Spark. El tiempo de ejecución de Databricks proporciona a Spark aprovechando la elasticidad de la nube. Con Databricks, paga por lo que usa. Durante un período de tiempo, se les ocurrió una idea de Lakehouse al proporcionar todas las características que se requieren para BI tradicional, así como para AI y ML. Estas son algunas de las características principales de Databricks.

  • Spark - Computación distribuida
  • Delta Lake: realiza operaciones CRUD. Se utiliza principalmente para crear capacidades como insertar, actualizar y eliminar los datos de los archivos en Data Lake.
  • cloudFiles: obtenga los archivos de forma incremental de la forma más eficiente aprovechando las funciones de la nube.
LEER
Aprendizaje automático sin código: guía práctica de herramientas de aprendizaje automático modernas

detalles del curso

Como parte de este curso, aprenderá Ingeniería de datos utilizando Databricks.

  • Introducción a Databricks
  • Configurar el entorno de desarrollo local para desarrollar aplicaciones de ingeniería de datos utilizando Databricks
  • Uso de la CLI de Databricks para administrar archivos, trabajos, clústeres, etc. relacionados con aplicaciones de ingeniería de datos
  • Ciclo de desarrollo de aplicaciones de Spark para crear aplicaciones de ingeniería de datos
  • Clústeres y trabajos de Databricks
  • Implementar y ejecutar trabajos de ingeniería de datos en clústeres de trabajos de Databricks como aplicación Python
  • Implementar y ejecutar trabajos de ingeniería de datos en un clúster de trabajos mediante Notebooks
  • Sumérjase en Delta Lake utilizando marcos de datos
  • Sumérjase en Delta Lake con Spark SQL
  • Creación de canalizaciones de ingeniería de datos mediante transmisión estructurada de Spark en clústeres de Databricks
  • Procesamiento de archivos incremental mediante Spark Structured Streaming aprovechando los archivos en la nube de Databricks Auto Loader
  • Descripción general de los archivos en la nube del Autocargador Modos de descubrimiento de archivos: listado de directorios y notificaciones de archivos
  • Diferencias entre los archivos en la nube de Auto Loader Modos de descubrimiento de archivos: listado de directorios y notificaciones de archivos
  • Diferencias entre el Streaming estructurado de Spark tradicional y el aprovechamiento de los archivos en la nube de Databricks Auto Loader para el procesamiento incremental de archivos.

Agregaremos algunos módulos más relacionados con Pyspark, Spark con Scala, Spark SQL, Streaming Pipelines en las próximas semanas.

Público deseado

Aquí está la audiencia deseada para este curso avanzado.

  • Desarrolladores de aplicaciones con experiencia para obtener experiencia relacionada con la ingeniería de datos con conocimiento previo y experiencia de Spark.
  • Ingenieros de datos con experiencia para adquirir las habilidades necesarias para agregar Databricks a su perfil.
  • Testers para mejorar sus capacidades de prueba relacionadas con aplicaciones de ingeniería de datos utilizando Databricks.

Prerrequisitos

  • Logística
    • Computadora con una configuración decente (al menos 4 GB de RAM, sin embargo, se desean 8 GB)
    • Se requiere Dual Core y Quad-Core es altamente deseado
    • Navegador Chrome
    • Internet de alta velocidad
    • Cuenta de AWS válida
    • Cuenta de Databricks válida (la cuenta gratuita de Databricks no es suficiente)
  • Experiencia como ingeniero de datos, especialmente con Apache Spark
  • Conocimiento sobre algunos conceptos de la nube como almacenamiento, usuarios, roles, etc.

Costos asociados

Como parte de la formación, solo recibirás el material. Necesita practicar en su propia cuenta de nube o corporativa y cuenta de Databricks.

  • Debe hacerse cargo de los costos asociados de AWS o Azure.
  • Necesita hacerse cargo de los costos asociados de Databricks.

Enfoque de formación

Aquí están los detalles relacionados con el enfoque de capacitación.

  • Es a su propio ritmo con material de referencia, fragmentos de código y videos proporcionados como parte de Udemy.
  • Es necesario registrarse en su propio entorno de Databricks para practicar todas las funciones principales de Databricks.
  • Recomendamos completar 2 módulos cada semana gastando 4 a 5 horas semanales.
  • Es muy recomendable hacerse cargo de todas las tareas para que uno pueda obtener una experiencia real con Databricks.
  • El soporte se proporcionará a través de Udemy Q&A.

Ingeniería de datos con características de Databricks en AWS y Azure


Contenido de: https://www.udemy.com/course/data-engineering-using-databricks-on-aws-and-azure/

Más Información

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Subir

Este sitio web utiliza cookies para ofrecerle una mejor experiencia de navegación, si continua en navegando consideramos que acepta su uso.