Apache Beam es un modelo de programación unificada de fuente abierta para definir y ejecutar tuberías de procesamiento de datos en paralelo Su poder radica en su capacidad para ejecutar canalizaciones por lotes y streaming, y la ejecución se lleva a cabo por uno de los backends de procesamiento distribuido admitidos por Beam: Apache Apex, Apache Flink, Apache Spark y Google Cloud Dataflow Apache Beam es útil para tareas ETL (Extraer, Transformar y Cargar), como mover datos entre diferentes medios de almacenamiento y fuentes de datos, transformar datos en un formato más deseable y cargar datos en un nuevo sistema En este entrenamiento en vivo instrumentado (in situ o remoto), los participantes aprenderán a implementar los SDK de Apache Beam en una aplicación Java o Python que define un canal de procesamiento de datos para descomponer un gran conjunto de datos en trozos más pequeños para un procesamiento paralelo independiente Al final de esta capacitación, los participantes podrán: Instalar y configurar Apache Beam Use un único modelo de programación para llevar a cabo el procesamiento por lotes y de flujo desde su aplicación Java o Python Ejecutar tuberías en múltiples entornos Audiencia Desarrolladores Formato del curso Conferencia de parte, parte de discusión, ejercicios y práctica manual Nota Este curso estará disponible Scala en el futuro Por favor contáctenos para hacer arreglos .
Machine Translated
Introduction
- Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink
Installing and Configuring Apache Beam
Overview of Apache Beam Features and Architecture
- Beam Model, SDKs, Beam Pipeline Runners
- Distributed processing back-ends
Understanding the Apache Beam Programming Model
- How a pipeline is executed
Running a sample pipeline
- Preparing a WordCount pipeline
- Executing the Pipeline locally
Designing a Pipeline
- Planning the structure, choosing the transforms, and determining the input and output methods
Creating the Pipeline
- Writing the driver program and defining the pipeline
- Using Apache Beam classes
- Data sets, transforms, I/O, data encoding, etc.
Executing the Pipeline
- Executing the pipeline locally, on remote machines, and on a public cloud
- Choosing a runner
- Runner-specific configurations
Testing and Debugging Apache Beam
- Using type hints to emulate static typing
- Managing Python Pipeline Dependencies
Processing Bounded and Unbounded Datasets
Making Your Pipelines Reusable and Maintainable
Create New Data Sources and Sinks
- Apache Beam Source and Sink API
Integrating Apache Beam with other Big Data Systems
- Apache Hadoop, Apache Spark, Apache Kafka
Troubleshooting
Summary and Conclusion