Curso Building Batch Data Analytics Solutions on AWS

Calendario

Estamos preparando nuevas convocatorias, déjanos tus datos a través del formulario y te avisaremos en cuanto estén disponibles.

Acerca del curso

En el curso Building Batch Data Analytics Solutions on AWS aprenderás a crear soluciones de análisis de datos por lotes con Amazon EMR, un servicio administrado de Apache Spark y Apache Hadoop de nivel empresarial. Aprenderá cómo Amazon EMR se integra con proyectos de código abierto como Apache Hive, Hue y HBase, y con servicios de AWS como AWS Glue y AWS Lake Formation. El curso aborda los componentes de recopilación, ingestión, catalogación, almacenamiento y procesamiento de datos en el contexto de Spark y Hadoop. Aprenderás a utilizar EMR Notebooks para respaldar cargas de trabajo de análisis y aprendizaje automático. También aprenderás a aplicar las mejores prácticas de seguridad, rendimiento y gestión de costos al funcionamiento de Amazon EMR.

Preparación para el examen de certificación:

Examen AWS Certified Data Analytics Specialty

Ingenieros de plataformas de datos.
Arquitectos y operadores que construyen y administran canalizaciones de análisis de datos.

Comparar las características y los beneficios de los almacenes de datos, los lagos de datos y las arquitecturas de datos modernas.
Diseñar e implementar una solución de análisis de datos por lotes.
Identificar y aplicar técnicas adecuadas, incluida la compresión, para optimizar el almacenamiento de datos.
Seleccionar e implementar las opciones apropiadas para ingerir, transformar y almacenar datos.
Eligir la instancia y los tipos de nodos, los clústeres, el escalado automático y la topología de red apropiados para un caso de uso comercial particular.
Comprender cómo el almacenamiento y el procesamiento de datos afectan los mecanismos de análisis y visualización necesarios para obtener información comercial útil.
Proteger los datos en reposo y en tránsito.
Supervisar las cargas de trabajo de análisis para identificar y solucionar problemas.
Aplicar las mejores prácticas de gestión de costos.

Es recomendable tener, al menos, un año de experiencia en la administración de marcos de datos de código abierto como Apache Spark o Apache Hadoop.
Para aquellas personas que requieran un repaso de Apache Hadoop, es recomendable haber completado, previamente, el curso AWS Hadoop Fundamentals.
Es recomendable haber completado, previamente los cursos:
AWS Technical Essentials o Architecting on AWS.
Building Data Lakes on AWS o Getting Started with AWS Glue.

A. Overview of Data Analytics and the Data Pipeline

Data analytics use cases
Using the data pipeline for analytics

Módulo 1: Introduction to Amazon EMR

Using Amazon EMR in analytics solutions
Amazon EMR cluster architecture
Interactive Demo 1: Launching an Amazon EMR cluster
Cost management strategies

Módulo 2: Data Analytics Pipeline Using Amazon EMR: Ingestion and Storage

Storage optimization with Amazon EMR
Data ingestion techniques

Módulo 3: High-Performance Batch Data Analytics Using Apache Spark on Amazon EMR

Apache Spark on Amazon EMR use cases
Why Apache Spark on Amazon EMR
Spark concepts
Interactive Demo 2: Connect to an EMR cluster and perform Scala commands using the Spark shell
Transformation, processing, and analytics
Using notebooks with Amazon EMR
Practice Lab 1: Low-latency data analytics using Apache Spark on Amazon EMR

Módulo 4: Processing and Analyzing Batch Data with Amazon EMR and Apache Hive