Curso Serverless Data Processing with Dataflow

GC-Partner-outline-V

El curso Serverless Data Processing with Dataflow est谩 destinado a profesionales de Big Data que deseen ampliar su comprensi贸n de Dataflow para avanzar en sus aplicaciones de procesamiento de datos.

Comenzando con los fundamentos, este curso explica c贸mo Apache Beam y Dataflow funcionan juntos para satisfacer sus necesidades de procesamiento de datos sin el riesgo de depender de un proveedor. La secci贸n sobre el desarrollo de canalizaciones (pipelines) cubre c贸mo convertir la l贸gica comercial en aplicaciones de procesamiento de datos que puedan ejecutarse en Dataflow.聽El curso culmina con un enfoque en las operaciones, que revisa las lecciones m谩s importantes para operar una aplicaci贸n de datos en Dataflow, incluido el monitoreo, la resoluci贸n de problemas, las pruebas y la confiabilidad.

Pr贸ximos inicios

No disponibles en este momento.
Objetivos
  • Demostrar c贸mo Apache Beam y Dataflow funcionan juntos para satisfacer las necesidades de procesamiento de datos de tu organizaci贸n.
  • Resumir los beneficios de Beam Portability Framework y activarlo para sus canalizaciones de Dataflow.
  • Habilitar Shuffle y Streaming Engine, para canalizaciones por lotes y de transmisi贸n respectivamente, para obtener el m谩ximo rendimiento.
  • Habilitar Flexible Resource Scheduling para obtener un rendimiento m谩s rentable.
  • Seleccionar la combinaci贸n correcta de permisos de IAM para el trabajo de Dataflow.
  • Implementar las mejores pr谩cticas para un entorno de procesamiento de datos seguro.
  • Seleccionar y ajustar聽I/O de tu elecci贸n para la canalizaci贸n de Dataflow.
  • Utilizar esquemas para simplificar tu c贸digo Beam y mejorar el rendimiento de su canalizaci贸n.
  • Desarrollar una canalizaci贸n Beam utilizando SQL y DataFrames.
  • Realizar monitoreo, resoluci贸n de problemas, pruebas y CI/CD en canalizaciones de Dataflow.
Audiencia
  • Ingeniero de datos.
  • Analistas de datos y cient铆ficos de datos que aspiren a desarrollar habilidades de ingenier铆a de datos.
Requisitos
  • Haber completado Building Batch Data Pipelines.
  • Haber completado Building Resilient Streaming Analytics Systems.
Contenidos

M贸dulo 1: Introduction

Temas:

  • Course Introduction
  • Beam and Dataflow Refresher

Objetivos:

  • Introduce the course objectives.
  • Demonstrate how Apache Beam and Dataflow work together to fulfill your organization鈥檚 data processing needs.

M贸dulo 2: Beam Portability

Temas:

  • Beam Portability
  • Runner v2
  • Container Environments
  • Cross-Language Transforms

Objetivos:

  • Summarize the benefits of the Beam Portability Framework.
  • Customize the data processing environment of your pipeline using custom containers.
  • Review use cases for cross-language transformations.
  • Enable the Portability framework for your Dataflow pipelines.

M贸dulo 3: Separating Compute and Storage with Dataflow

Temas:

  • Dataflow
  • Dataflow Shuffle Service
  • Dataflow Streaming Engine
  • Flexible Resource Scheduling

Objetivos:

  • Enable Shuffle and Streaming Engine, for batch and streaming pipelines respectively, for maximum performance.
  • Enable Flexible Resource Scheduling for more cost-efficient performance.

M贸dulo 4: IAM, Quotas, and Permissions

Temas:

  • IAM
  • Quota

Objetivos:

  • Select the right combination of IAM permissions for your Dataflow job.
  • Determine your capacity needs by inspecting the relevant quotas for your Dataflow jobs.

M贸dulo 5: Security

Temas:

  • Data Locality
  • Shared VPC
  • Private IPs
  • CMEK

Objetivos:

  • Select your zonal data processing strategy using Dataflow, depending on your data locality needs.
  • Implement best practices for a secure data processing environment.

M贸dulo 6: Beam Concepts Review

Temas:

  • Beam Basics
  • Utility Transforms
  • DoFn Lifecycle

Objetivos:

Review main Apache Beam concepts (Pipeline, PCollections, PTransforms, Runner, reading/writing, Utility PTransforms, side inputs), bundles and DoFn Lifecycle.

M贸dulo 7: Windows, Watermarks, Triggers

Temas:

  • Windows
  • Watermarks
  • Triggers

Objetivos:

  • Implement logic to handle your late data.
  • Review different types of triggers.
  • Review core streaming concepts (unbounded PCollections, windows).

M贸dulo 8: Sources and Sinks

Temas:

  • Sources and Sinks
  • Text IO and File IO
  • BigQuery IO
  • PubSub IO
  • Kafka IO
  • Bigable IO
  • Avro IO
  • Splittable DoFn

Objetivos:

  • Write the I/O of your choice for your Dataflow pipeline.
  • Tune your source/sink transformation for maximum performance.
  • Create custom sources and sinks using SDF.

M贸dulo 9: Schemas

Temas:

  • Beam Schemas
  • Code Examples

Objetivos:

  • Introduce schemas, which give developers a way to express structured data in their Beam pipelines.
  • Use schemas to simplify your Beam code and improve the performance of your pipeline.

M贸dulo 10: State and Timers

Temas:

  • State API
  • Timer API
  • Summary

Objetivos:

  • Identify use cases for state and timer API implementations.
  • Select the right type of state and timers for your pipeline.

M贸dulo 11: Best Practices

Temas:

  • Schemas
  • Handling unprocessable Data
  • Error Handling
  • AutoValue Code Generator
  • JSON Data Handling
  • Utilize DoFn Lifecycle
  • Pipeline Optimizations

Objetivos:

Implement best practices for Dataflow pipelines.

M贸dulo 12: Dataflow SQL and DataFrames

Temas:

  • Dataflow and Beam SQL
  • Windowing in SQL
  • Beam DataFrames

Objetivos:

Develop a Beam pipeline using SQL and DataFrames.

M贸dulo 13: Beam Notebooks

Temas:

Beam Notebooks

Objetivos:

  • Prototype your pipeline in Python using Beam notebooks.
  • Launch a job to Dataflow from a notebook.

M贸dulo 14: Monitoring

Temas:

  • Job List
  • Job Info
  • Job Graph
  • Job Metrics
  • Metrics Explorer

Objetivos:

  • Navigate the Dataflow Job Details UI.
  • Interpret Job Metrics charts to diagnose pipeline regressions.
  • Set alerts on Dataflow jobs using Cloud Monitoring.

M贸dulo 15: Logging and Error Reporting

Temas:

  • Logging
  • Error Reporting

Objetivos:

Use the Dataflow logs and diagnostics widgets to troubleshoot pipeline issues.

M贸dulo 16: Troubleshooting and Debug

Temas:

  • Troubleshooting Workflow
  • Types of Troubles

Objetivos:

  • Use a structured approach to debug your Dataflow pipelines.
  • Examine common causes for pipeline failures.

M贸dulo 17: Performance

Temas:

  • Pipeline Design
  • Data Shape
  • Source, Sinks, and External Systems
  • Shuffle and Streaming Engine

Objetivos:

  • Understand performance considerations for pipelines.
  • Consider how the shape of your data can affect pipeline performance.

M贸dulo 18: Testing and CI/CD

Temas:

  • Testing and CI/CD Overview
  • Unit Testing
  • Integration Testing
  • Artifact Building
  • Deployment

Objetivos:

  • Testing approaches for your Dataflow pipeline.
  • Review frameworks and features available to streamline your CI/CD workflow for Dataflow pipelines.

M贸dulo 19: Reliability

Temas:

  • Introduction to Reliability
  • Monitoring
  • Geolocation
  • Disaster Recovery
  • High Availability

Objetivos:

Implement reliability best practices for your Dataflow pipelines.

M贸dulo 20: Flex Templates

Temas:

  • Classic Templates
  • Flex Templates
  • Using Flex Templates
  • Google-provided Templates

Objetivos:

Using flex templates to standardize and reuse Dataflow pipeline code.

M贸dulo 21: Summary

Temas:

Summary

Objetivos:

Quick recap of training topics

Material del curso

Documentaci贸n oficial para el curso Serverless Data Processing with Dataflow.

Perfil del docente
  • Formador certificado por Google Cloud.
  • M谩s de 5 a帽os de experiencia profesional.
  • M谩s de 4 a帽os de experiencia docente.
  • Profesional activo en empresas del sector IT.
Promociones

Antiguos alumnos

Si has asistido a alguno de nuestros cursos, tienes un 10% de descuento en la matr铆cula de tus pr贸ximos cursos o certificaciones oficiales.

Carn茅 Joven Comunidad de Madrid

Si tienes el Carn茅 Joven de la Comunidad de Madrid, dispones de un 15% de descuento en todos nuestros cursos y certificaciones. 脷nicamente deber谩s presentar tu carn茅.

Desempleados

Bonificamos un 10% la matr铆cula de tu curso o certificaci贸n oficial. 脷nicamente deber谩s acreditarlo con cualquiera de los documentos oficiales disponibles.

Discapacitados

Si tienes alg煤n tipo de discapacidad, cuentas con un 10% de descuento en la matr铆cula de tu curso. 脷nicamente deber谩s acreditarlo.

Familia numerosa

隆Te ayudamos! Sabemos que es importante cuidar de la econom铆a familiar, por eso, y en cumplimiento de nuestra pol铆tica de Responsabilidad Social Corporativa, si eres miembro de una familia numerosa, puedes beneficiarte de un 10% de descuento en la matr铆cula de cualquier curso. 脷nicamente deber谩s acreditarlo.

Amigos o compa帽eros profesionales

Si te inscribes a nuestros cursos con uno o m谩s amigos o compa帽eros t茅cnicos, cada uno de vosotros obtendr茅is un descuento del 10% en vuestra formaci贸n.

Si trabaj谩is en la misma empresa, consulta los descuentos para departamentos profesionales.

Empresas

Mantener, actualizar y perfeccionar las habilidades y conocimientos del equipo de trabajo es esencial para la adaptaci贸n y el 茅xito de la estrategia empresarial en el entorno din谩mico y desafiante en el que competimos.

Si deseas planificar la formaci贸n (t茅cnica, metodol贸gica o de habilidades) de tu equipo, consulta nuestros planes de formaci贸n continua o los descuentos en cursos y certificaciones t茅cnicas.

Medios de pago

Fundae (Formaci贸n bonificable)

Pr谩cticamente la totalidad de nuestra formaci贸n puede ser bonificada aplicando el cr茅dito de formaci贸n que las empresas y aut贸nomos tienen anualmente en Fundae.

Cons煤ltanos y no te preocupes, lo gestionamos por ti.

Sodexo (Pluxee)

Ahorra con tu cheque virtual.

Formaci贸n Pass de Pluxee (Sodexo) es un servicio que facilita el acceso y pago de formaci贸n y certificaci贸n oficial. Al estar exento del IRPF, ahorras al menos un 25% del importe total.

脷salo con nosotros.


Descuentos no aplicables a Red Hat ni Oracle. La formaci贸n de聽Red Hat no es bonificable en Fundae. Los ex谩menes de certificaci贸n no se pueden bonificar. Podr谩n bonificarse 煤nicamente si son indivisibles del curso que los prepara.

Solicita informaci贸n

Partner oficial de los principales fabricantes tecnol贸gicos

The Swirl Logo es una marca registrada del grupo PeopleCert庐. Utilizada bajo licencia de PeopleCert庐. Todos los derechos reservados.