Curso Building Batch Data Analytics Solutions on AWS

CAS Training AWS Partner Select Tier Training
 

Calendario

FechaDuraciónHorarioModalidadMatrícula
22 de julio de 20247 horasLun a Mar, 16:00 - 19:30Aula virtualDescargar matrícula
22 de julio de 202410 horasLun a Mié, 18:45 - 22:00Aula virtualDescargar matrícula

Acerca del curso

En el curso Building Batch Data Analytics Solutions on AWS aprenderás a crear soluciones de análisis de datos por lotes con Amazon EMR, un servicio administrado de Apache Spark y Apache Hadoop de nivel empresarial. Aprenderá cómo Amazon EMR se integra con proyectos de código abierto como Apache Hive, Hue y HBase, y con servicios de AWS como AWS Glue y AWS Lake Formation. El curso aborda los componentes de recopilación, ingestión, catalogación, almacenamiento y procesamiento de datos en el contexto de Spark y Hadoop. Aprenderás a utilizar EMR Notebooks para respaldar cargas de trabajo de análisis y aprendizaje automático. También aprenderás a aplicar las mejores prácticas de seguridad, rendimiento y gestión de costos al funcionamiento de Amazon EMR.

Preparación para el examen de certificación:

Examen AWS Certified Data Analytics Specialty

  • Ingenieros de plataformas de datos.
  • Arquitectos y operadores que construyen y administran canalizaciones de análisis de datos.

  • Comparar las características y los beneficios de los almacenes de datos, los lagos de datos y las arquitecturas de datos modernas.
  • Diseñar e implementar una solución de análisis de datos por lotes.
  • Identificar y aplicar técnicas adecuadas, incluida la compresión, para optimizar el almacenamiento de datos.
  • Seleccionar e implementar las opciones apropiadas para ingerir, transformar y almacenar datos.
  • Eligir la instancia y los tipos de nodos, los clústeres, el escalado automático y la topología de red apropiados para un caso de uso comercial particular.
  • Comprender cómo el almacenamiento y el procesamiento de datos afectan los mecanismos de análisis y visualización necesarios para obtener información comercial útil.
  • Proteger los datos en reposo y en tránsito.
  • Supervisar las cargas de trabajo de análisis para identificar y solucionar problemas.
  • Aplicar las mejores prácticas de gestión de costos.

  • Es recomendable tener, al menos, un año de experiencia en la administración de marcos de datos de código abierto como Apache Spark o Apache Hadoop.
  • Para aquellas personas que requieran un repaso de Apache Hadoop, es recomendable haber completado, previamente, el curso AWS Hadoop Fundamentals.
  • Es recomendable haber completado, previamente los cursos:
  • AWS Technical Essentials o Architecting on AWS.
  • Building Data Lakes on AWS o Getting Started with AWS Glue.

A. Overview of Data Analytics and the Data Pipeline

  • Data analytics use cases
  • Using the data pipeline for analytics

Módulo 1: Introduction to Amazon EMR

  • Using Amazon EMR in analytics solutions
  • Amazon EMR cluster architecture
  • Interactive Demo 1: Launching an Amazon EMR cluster
  • Cost management strategies

Módulo 2: Data Analytics Pipeline Using Amazon EMR: Ingestion and Storage

  • Storage optimization with Amazon EMR
  • Data ingestion techniques

Módulo 3: High-Performance Batch Data Analytics Using Apache Spark on Amazon EMR

  • Apache Spark on Amazon EMR use cases
  • Why Apache Spark on Amazon EMR
  • Spark concepts
  • Interactive Demo 2: Connect to an EMR cluster and perform Scala commands using the Spark shell
  • Transformation, processing, and analytics
  • Using notebooks with Amazon EMR
  • Practice Lab 1: Low-latency data analytics using Apache Spark on Amazon EMR

Módulo 4: Processing and Analyzing Batch Data with Amazon EMR and Apache Hive

  • Using Amazon EMR with Hive to process batch data
  • Transformation, processing, and analytics
  • Practice Lab 2: Batch data processing using Amazon EMR with Hive
  • Introduction to Apache HBase on Amazon EMR

Módulo 5: Serverless Data Processing

  • Serverless data processing, transformation, and analytics
  • Using AWS Glue with Amazon EMR workloads
  • Practice Lab 3: Orchestrate data processing in Spark using AWS Step Functions

Módulo 6: Security and Monitoring of Amazon EMR Clusters

  • Securing EMR clusters
  • Interactive Demo 3: Client-side encryption with EMRFS
  • Monitoring and troubleshooting Amazon EMR clusters
  • Demo: Reviewing Apache Spark cluster history

Módulo 7: Designing Batch Data Analytics Solutions

  • Batch data analytics use cases
  • Activity: Designing a batch data analytics workflow

B: Developing Modern Data Architectures on AWS

  • Modern data architectures

Documentación oficial del curso Building Batch Data Analytics Solutions on AWS.

  • Formador certificado por AWS.
  • Más de 5 años de experiencia profesional.
  • Más de 4 años de experiencia docente.
  • Profesional activo en empresas del sector IT.

Solicita información


Descarga el programa del curso
Descargar programa
Hoja de Matriculación:
Descargar matrícula

Si no has encontrado lo que buscabas, prueba buscar tu curso o certificación aquí

Compartir: