En el curso Building Batch Data Analytics Solutions on AWS aprenderás a crear soluciones de análisis de datos por lotes con Amazon EMR, un servicio administrado de Apache Spark y Apache Hadoop de nivel empresarial. Aprenderá cómo Amazon EMR se integra con proyectos de código abierto como Apache Hive, Hue y HBase, y con servicios de AWS como AWS Glue y AWS Lake Formation. El curso aborda los componentes de recopilación, ingestión, catalogación, almacenamiento y procesamiento de datos en el contexto de Spark y Hadoop. Aprenderás a utilizar EMR Notebooks para respaldar cargas de trabajo de análisis y aprendizaje automático. También aprenderás a aplicar las mejores prácticas de seguridad, rendimiento y gestión de costos al funcionamiento de Amazon EMR.
Curso Building Batch Data Analytics Solutions on AWS
- AWS-BBDAS
- Intermedio

Próximos inicios
No disponibles en este momento.
Objetivos
- Comparar las características y los beneficios de los almacenes de datos, los lagos de datos y las arquitecturas de datos modernas.
- Diseñar e implementar una solución de análisis de datos por lotes.
- Identificar y aplicar técnicas adecuadas, incluida la compresión, para optimizar el almacenamiento de datos.
- Seleccionar e implementar las opciones apropiadas para ingerir, transformar y almacenar datos.
- Eligir la instancia y los tipos de nodos, los clústeres, el escalado automático y la topología de red apropiados para un caso de uso comercial particular.
- Comprender cómo el almacenamiento y el procesamiento de datos afectan los mecanismos de análisis y visualización necesarios para obtener información comercial útil.
- Proteger los datos en reposo y en tránsito.
- Supervisar las cargas de trabajo de análisis para identificar y solucionar problemas.
- Aplicar las mejores prácticas de gestión de costos.
Dirigido a
- Ingenieros de plataformas de datos.
- Arquitectos y operadores que construyen y administran canalizaciones de análisis de datos.
Requisitos
- Es recomendable tener, al menos, un año de experiencia en la administración de marcos de datos de código abierto como Apache Spark o Apache Hadoop.
- Para aquellas personas que requieran un repaso de Apache Hadoop, es recomendable haber completado, previamente, el curso AWS Hadoop Fundamentals.
- Es recomendable haber completado, previamente los cursos:
- AWS Technical Essentials o Architecting on AWS.
- Building Data Lakes on AWS o Getting Started with AWS Glue.
Certificación
Preparación para el examen de certificación:
Contenidos
A. Overview of Data Analytics and the Data Pipeline
- Data analytics use cases
- Using the data pipeline for analytics
Módulo 1: Introduction to Amazon EMR
- Using Amazon EMR in analytics solutions
- Amazon EMR cluster architecture
- Interactive Demo 1: Launching an Amazon EMR cluster
- Cost management strategies
Módulo 2: Data Analytics Pipeline Using Amazon EMR: Ingestion and Storage
- Storage optimization with Amazon EMR
- Data ingestion techniques
Módulo 3: High-Performance Batch Data Analytics Using Apache Spark on Amazon EMR
- Apache Spark on Amazon EMR use cases
- Why Apache Spark on Amazon EMR
- Spark concepts
- Interactive Demo 2: Connect to an EMR cluster and perform Scala commands using the Spark shell
- Transformation, processing, and analytics
- Using notebooks with Amazon EMR
- Practice Lab 1: Low-latency data analytics using Apache Spark on Amazon EMR
Módulo 4: Processing and Analyzing Batch Data with Amazon EMR and Apache Hive
- Using Amazon EMR with Hive to process batch data
- Transformation, processing, and analytics
- Practice Lab 2: Batch data processing using Amazon EMR with Hive
- Introduction to Apache HBase on Amazon EMR
Módulo 5: Serverless Data Processing
- Serverless data processing, transformation, and analytics
- Using AWS Glue with Amazon EMR workloads
- Practice Lab 3: Orchestrate data processing in Spark using AWS Step Functions
Módulo 6: Security and Monitoring of Amazon EMR Clusters
- Securing EMR clusters
- Interactive Demo 3: Client-side encryption with EMRFS
- Monitoring and troubleshooting Amazon EMR clusters
- Demo: Reviewing Apache Spark cluster history
Módulo 7: Designing Batch Data Analytics Solutions
- Batch data analytics use cases
- Activity: Designing a batch data analytics workflow
B: Developing Modern Data Architectures on AWS
- Modern data architectures
Material del curso
Documentación oficial del curso Building Batch Data Analytics Solutions on AWS.
Perfil del docente
- Formador certificado por AWS.
- Más de 5 años de experiencia profesional.
- Más de 4 años de experiencia docente.
- Profesional activo en empresas del sector IT.
Beneficios para tu formación
Haz click aquí y descubre los descuentos, promociones y ayudas disponibles para tu formación tecnológica.