PySpark para ciencia de datos: nivel intermedio

05/11/2021

PySpark para ciencia de datos nivel intermedio
Índice
  1. PySpark para ciencia de datos: nivel intermedio
    1. Aprenderá a usar Spark Python o PySpark para realizar análisis de datos.

PySpark para ciencia de datos: nivel intermedio

Aprenderá a usar Spark Python o PySpark para realizar análisis de datos.

Lo que aprenderás

PySpark para ciencia de datos: nivel intermedio

  • Este módulo sobre los tutoriales de PySpark tiene como objetivo explicar los conceptos intermedios como el uso de la sesión de Spark en el caso de versiones posteriores y el uso de Spark Config y Spark Context en el caso de versiones anteriores.
  • Esto también lo ayudará a comprender cómo se configura el entorno relacionado con Spark, los conceptos de transmisión y acumulador, otros ...

Requisitos

  • El requisito previo de estos tutoriales de PySpark no es mucho, excepto que la persona debe estar bien familiarizada y debe tener una gran experiencia práctica en cualquiera de los lenguajes como Java, Python o Scala, o su equivalente. Los otros requisitos previos incluyen la experiencia en desarrollo y el conocimiento sólido y fundamental de los conceptos y el ecosistema de Big Data, ya que Spark API se basa solo en la parte superior de Big Data Hadoop. Otros incluyen el conocimiento de la transmisión en tiempo real y cómo funcionan los macrodatos, junto con un conocimiento sólido de la analítica y la calidad de la predicción relacionada con el modelo de aprendizaje automático.

Descripción

Este módulo sobre los tutoriales de PySpark tiene como objetivo explicar los conceptos intermedios como el uso de la sesión de Spark en el caso de versiones posteriores y el uso de Spark Config y Spark Context en el caso de versiones anteriores. Esto también lo ayudará a comprender cómo se configura el entorno relacionado con Spark, los conceptos de transmisión y acumulador, otras técnicas de optimización incluyen aquellas como paralelismo, tungsteno y optimizador de catalizador. También se le enseñará sobre las diversas técnicas de compresión como Snappy y Zlib.

LEER
Curso intensivo práctico de Python para ciencia de datos | 12+ proyectos

Aprenderemos lo siguiente en este curso:

  • Regresión
  • Regresión lineal
  • Columna de salida
  • Datos de prueba
  • Predicción
  • Regresión lineal generalizada
  • Regresión forestal
  • Clasificación
  • Regresión logística binomial
  • Regresión logística multinomial
  • Árbol de decisión
  • Bosque aleatorio
  • Agrupación
  • Modelo de K-medias

Pyspark es una solución de big data que es aplicable para la transmisión en tiempo real utilizando el lenguaje de programación Python y proporciona una forma mejor y más eficiente de hacer todo tipo de cálculos y cálculos. También es probablemente la mejor solución del mercado, ya que es interoperable, es decir, Pyspark se puede administrar fácilmente junto con otras tecnologías y otros componentes de toda la tubería. Las primeras técnicas de big data y Hadoop incluían técnicas de procesamiento por lotes.

PySpark para ciencia de datos: nivel intermedio

Una característica única que viene junto con Pyspark es el uso de conjuntos de datos y no marcos de datos, ya que este último no es proporcionado por Pyspark. Los profesionales necesitan más herramientas que a menudo sean más confiables y rápidas cuando se trata de transmitir datos en tiempo real. Las herramientas anteriores, como Map-reduce, hacían uso del mapa y los conceptos reducidos que incluían el uso de los mapeadores, luego barajarlos o clasificarlos y luego reducirlos a una sola entidad. Este MapReduce proporcionó una forma de cálculo y cálculo en paralelo. El Pyspark hace uso de técnicas en memoria que no hacen uso del espacio de almacenamiento que se coloca en el disco duro. Proporciona una unidad de cálculo más rápida y de uso general.

Más Información

Subir

Este sitio web utiliza cookies para ofrecerle una mejor experiencia de navegación, si continua en navegando consideramos que acepta su uso.