Curso Introduction to Data Engineering on Google Cloud

GC-Partner-outline-V

En este curso aprenderás sobre ingeniería de datos en Google Cloud, los roles y responsabilidades de los ingenieros de datos, y cómo se relacionan con las soluciones proporcionadas por Google Cloud. También conocerás formas de abordar los desafíos de la ingeniería de datos.

Próximos inicios

Objetivos
  • Comprender el rol de un ingeniero de datos.
  • Identificar tareas de ingeniería de datos y componentes clave utilizados en Google Cloud.
  • Comprender cómo crear e implementar flujos de datos con distintos patrones en Google Cloud.
    Identificar y utilizar diversas técnicas de automatización en Google Cloud.
Dirigido a

Este curso está dirigido a:

  • Ingenieros de datos
  • Administradores de bases de datos
  • Administradores de sistemas
Requisitos

Es necesario contar con:

  • Experiencia previa con Google Cloud a nivel fundamental utilizando Cloud Shell y accediendo a productos desde la consola de Google Cloud.
  • Competencia básica con un lenguaje de consulta común como SQL.
  • Experiencia en modelado de datos y actividades ETL (extracción, transformación, carga).
  • Experiencia en desarrollo de aplicaciones utilizando un lenguaje de programación común como Python.
Contenidos

Módulo 1: Tareas y componentes de la ingeniería de datos

Objetivos:

  • Explicar el rol de un ingeniero de datos.
  • Comprender las diferencias entre una fuente de datos y un destino de datos.
  • Explicar los diferentes tipos de formatos de datos.
  • Explicar las opciones de soluciones de almacenamiento en Google Cloud.
  • Conocer las opciones de gestión de metadatos en Google Cloud.
  • Comprender cómo compartir conjuntos de datos fácilmente utilizando Analytics Hub.
  • Comprender cómo cargar datos en BigQuery utilizando la consola de Google Cloud o la CLI de gcloud.

Contenidos:

  • El rol de un ingeniero de datos.
  • Fuentes de datos versus destinos de datos.
  • Formatos de datos.
  • Opciones de soluciones de almacenamiento en Google Cloud.
  • Opciones de gestión de metadatos en Google Cloud.
  • Uso de Analytics Hub para compartir conjuntos de datos.
  • Laboratorio: Cargar datos en BigQuery.
  • Cuestionario.

Módulo 2: Replicación y migración de datos

Objetivos:

  • Explicar la arquitectura base de replicación y migración de datos en Google Cloud.
  • Comprender las opciones y casos de uso de la herramienta de línea de comandos gcloud.
  • Explicar la funcionalidad y los casos de uso de Storage Transfer Service.
  • Explicar la funcionalidad y los casos de uso de Transfer Appliance.
  • Comprender las características y el despliegue de Datastream.

Contenidos:

  • Arquitectura de replicación y migración.
  • La herramienta de línea de comandos gcloud.
  • Movimiento de conjuntos de datos.
  • Datastream.
  • Laboratorio: Datastream: Replicación de PostgreSQL a BigQuery (opcional para ILT).
  • Cuestionario.

Módulo 3: Patrón de extracción y carga de flujos de datos

Objetivos:

  • Explicar el diagrama base de arquitectura de extracción y carga.
  • Comprender las opciones de la herramienta de línea de comandos bq.
  • Explicar la funcionalidad y los casos de uso de BigQuery Data Transfer Service.
  • Explicar la funcionalidad y los casos de uso de BigLake como un patrón no relacionado con extracción y carga.

Contenidos:

  • Arquitectura de extracción y carga.
  • Herramienta de línea de comandos bq.
  • BigQuery Data Transfer Service.
  • BigLake.
  • Laboratorio: BigLake: Inicio Rápido.
  • Cuestionario.

Módulo 4: Patrón de extracción, carga y transformación de flujos de datos

Objetivos:

  • Explicar el diagrama base de arquitectura de extracción, carga y transformación.
  • Comprender un flujo de datos ELT común en Google Cloud.
  • Aprender sobre las capacidades de scripting y programación en BigQuery.
  • Explicar la funcionalidad y los casos de uso de Dataform.

Contenidos:

  • Arquitectura de extracción, carga y transformación (ELT).
  • Programación y scripting SQL con BigQuery.
  • Dataform.
  • Laboratorio: Crear y ejecutar un flujo de trabajo SQL en Dataform.
  • Cuestionario.

Módulo 5: Patrón de extracción, transformación y carga de flujos de datos

Objetivos:

  • Explicar el diagrama base de arquitectura de extracción, transformación y carga.
  • Conocer las herramientas GUI en Google Cloud utilizadas para flujos de datos ETL.
  • Explicar el procesamiento por lotes con Dataproc.
  • Aprender a usar Dataproc Serverless para Spark en ETL.
  • Explicar las opciones de procesamiento de datos en tiempo real.
  • Explicar el rol de Bigtable en los flujos de datos.

Contenidos:

  • Arquitectura de extracción, transformación y carga (ETL).
  • Herramientas GUI de Google Cloud para flujos ETL.
  • Procesamiento de datos por lotes con Dataproc.
  • Uso de Dataproc Serverless para Spark.
  • Opciones de procesamiento de datos en tiempo real.
  • Bigtable y flujos de datos.
  • Laboratorios:
    • Usar Dataproc Serverless para Spark para cargar datos en BigQuery (opcional para ILT).
    • Crear un flujo de datos en tiempo real para un panel con Dataflow.
  • Cuestionario.

Módulo 6: Técnicas de automatización

Objetivos:

  • Explicar los patrones y opciones de automatización disponibles para flujos de datos.
  • Aprender sobre Cloud Scheduler y Workflows.
  • Aprender sobre Cloud Composer.
  • Aprender sobre funciones de Cloud Run.
  • Explicar la funcionalidad y los casos de uso de Eventarc para automatización.

Contenidos:

  • Patrones y opciones de automatización para flujos de datos.
  • Cloud Scheduler y Workflows.
  • Cloud Composer.
  • Funciones de Cloud Run.
  • Eventarc.
  • Laboratorio: Usar funciones de Cloud Run para cargar datos en BigQuery (opcional para ILT).
  • Cuestionario
Material del curso

Documentación oficial para el curso Introduction to Data Engineering on Google Cloud.

Perfil del docente
  • Formador certificado por Google Cloud.
  • Más de 5 años de experiencia profesional.
  • Más de 4 años de experiencia docente.
  • Profesional activo en empresas del sector IT.
Beneficios para tu formación

Haz click aquí y descubre los descuentos, promociones y ayudas disponibles para tu formación tecnológica.

Solicitar información
Partner oficial de los principales fabricantes tecnológicos

The Swirl Logo es una marca registrada del grupo PeopleCert®. Utilizada bajo licencia de PeopleCert®. Todos los derechos reservados.