Cursos de Hadoop para Administradores

Algunos de nuestros clientes

Código del Curso

hadoopadm1

Duración

21 horas (usualmente 3 días, incluidas las pausas)

Requerimientos

  • Cómodo con la administración básica del sistema Linux
  • Habilidades básicas de scripting

El conocimiento de Hadoop y Computación Distribuida no es necesario, pero será introducido y explicado en el curso.

Entorno de laboratorio


Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • Un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
  • Un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
     

Descripción General

Apache Hadoop es el marco más popular para procesar Big Data en clústeres de servidores. En este curso de tres (opcionalmente, cuatro) días, los asistentes aprenderán sobre los beneficios empresariales y los casos de uso de Hadoop y su ecosistema, cómo planificar el despliegue y crecimiento del clúster, cómo instalar, mantener, monitorear, solucionar y optimizar Hadoop. También practicarán la carga de datos a granel del clúster, se familiarizarán con varias distribuciones de Hadoop y practicarán la instalación y administración de herramientas del ecosistema de Hadoop. El curso finaliza con la discusión sobre la seguridad del clúster con Kerberos.

"... Los materiales estaban muy bien preparados y cubiertos a fondo. El laboratorio fue muy servicial y bien organizado "
- Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising

Audiencia
Administradores de Hadoop

Formato
Conferencias y laboratorios prácticos, balance aproximado 60% conferencias, 40% laboratorios.

Programa del Curso

  • Introducción
    • Historia de Hadoop, conceptos
    • Ecosistema
    • Distribuciones
    • Arquitectura de alto nivel
    • Mitos de Hadoop
    • Retos de Hadoop (hardware / software)
    • Laboratorios: discuta sus proyectos y problemas de Big Data
  • Planificación e instalación
    • Selección de software, distribuciones Hadoop
    • Dimensionamiento del cluster, planificación del crecimiento
    • Selección de hardware y red
    • Topología de bastidor
    • Instalación
    • Multi Alquiler
    • Estructura de directorios, registros
    • Benchmarking
    • Labs: instalación de clústeres, ejecución de benchmarks de rendimiento
  • Operaciones HDFS
    • Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
    • Nodos y demonios (NameNode, Second NameNode, HA Standby NameNode, DataNode)
    • Vigilancia de la salud
    • Administración basada en la línea de comandos y en el navegador
    • Adición de almacenamiento, sustitución de unidades defectuosas
    • Labs: familiarizarse con las líneas de comando HDFS
  • Ingesta de datos
    • Flume para registros y otra ingesta de datos en HDFS
    • Sqoop para importar desde bases de datos SQL a HDFS, así como exportar de nuevo a SQL
    • Almacenamiento de datos Hadoop con Hive
    • Copiar datos entre clústeres (distcp)
    • Uso de S3 como complemento de HDFS
    • Mejores prácticas y arquitecturas de la ingesta de datos
    • Labs: configurar y usar Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
    • Computación paralela antes de mapreduce: comparar administración HPC vs Hadoop
    • Cargas del clúster MapReduce
    • Nodos y Daemons (JobTracker, TaskTracker)
    • La interfaz de usuario de MapReduce
    • Configuración de Mapreduce
    • Configuración de trabajo
    • Optimización de MapReduce
    • Fool-proofing MR: qué decirle a tus programadores
    • Labs: ejecutando ejemplos de MapReduce
  • YARN: nueva arquitectura y nuevas capacidades
    • Objetivos de diseño y arquitectura de implementación de YARN
    • Nuevos actores: ResourceManager, NodeManager, Application Master
    • Instalación de YARN
    • Programación de trabajos bajo YARN
    • Laboratorios: investigar la programación de tareas
  • Temas avanzados
    • Monitorización de hardware
    • Monitoreo de Cluster
    • Adición y eliminación de servidores, actualización de Hadoop
    • Planificación de la copia de seguridad, recuperación y continuidad del negocio
    • Flujos de trabajo Oozie
    • Hadoop alta disponibilidad (HA)
    • Federación Hadoop
    • Asegurar el clúster con Kerberos
    • Labs: configurar el monitoreo
  • Pistas opcionales
    • Cloudera Manager para administración de clústeres, monitoreo y tareas de rutina; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
    • Ambari para administración de clúster, monitoreo y tareas de rutina; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del Administrador de clústeres de Ambari y Hortonworks Data Platform (HDP 2.0)

 

Testimonios

★★★★★
★★★★★

Categorías Relacionadas

Promociones

Descuentos en los Cursos

Respetamos la privacidad de su dirección de correo electrónico. No transmitiremos ni venderemos su dirección a otras personas.
En cualquier momento puede cambiar sus preferencias o cancelar su suscripción por completo.

is growing fast!

We are looking to expand our presence in Paraguay!

As a Business Development Manager you will:

  • expand business in Paraguay
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!