Cursos de Inteligencia de Negocios de Big Data para Agencias del Gobierno

Algunos de nuestros clientes

Código del Curso

bdbiga

Duración

35 horas (usualmente 5 días, incluidas las pausas)

Requerimientos

  • Conocimientos básicos de operación de negocios y sistemas de datos en Gbno. En su dominio
  • Conocimiento básico de SQL / Oracle o base de datos relacional
  • Comprensión básica de las estadísticas (a nivel de hoja de cálculo)

Descripción General

Los avances en las tecnologías y la creciente cantidad de información están transformando la forma en que los negocios se llevan a cabo en muchas industrias, incluyendo el gobierno. Los índices de generación de gobierno y de archivos digitales están aumentando debido al rápido crecimiento de dispositivos y aplicaciones móviles, sensores y dispositivos inteligentes, soluciones de cloud computing y portales orientados a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión de la información, el procesamiento, el almacenamiento, la seguridad y la disposición también se vuelven más complejos. Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información sobre sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, al darse cuenta de que la información es un activo estratégico y el gobierno necesita proteger, aprovechar y analizar información estructurada y no estructurada para servir mejor y cumplir con los requisitos de la misión. A medida que los líderes del gobierno se esfuerzan por evolucionar las organizaciones impulsadas por datos para cumplir con éxito la misión, están sentando las bases para correlacionar dependencias a través de eventos, personas, procesos e información.

Las soluciones gubernamentales de alto valor se crearán a partir de un mashup de las tecnologías más perjudiciales:

  • Dispositivos y aplicaciones móviles
  • Servicios en la nube
  • Tecnologías de redes sociales y redes
  • Big Data y análisis

IDC predice que para el año 2020, la industria de TI alcanzará los $ 5 billones, aproximadamente $ 1.7 trillones más que hoy, y que el 80% del crecimiento de la industria será impulsado por estas tecnologías de la 3ª Plataforma. A largo plazo, estas tecnologías serán herramientas clave para hacer frente a la complejidad del aumento de la información digital. Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones tomando medidas basadas en patrones revelados al analizar grandes volúmenes de datos relacionados y no relacionados, estructurados y no estructurados.

Pero el logro de estas hazañas lleva mucho más que la simple acumulación de cantidades masivas de datos. "Haciendo sentido de estos volúmenes de Big Datarequires herramientas de vanguardia y" tecnologías que pueden analizar y extraer conocimiento útil de las corrientes de información vasta y diversa ", Tom Kalil y Fen Zhao de la Oficina de la Casa Blanca de Política Científica y Tecnológica escribió en un post en el blog de OSTP.

La Casa Blanca dio un paso hacia ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Grandes Datos en 2012. La iniciativa incluyó más de $ 200 millones para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarla .

Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. El almacenamiento eficiente de los datos es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte de almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlo cuando lo deseen y cómo lo necesitan. Copia de seguridad de grandes cantidades de datos aumenta el reto.

Otro gran desafío es analizar los datos de manera eficaz. Muchas agencias emplean herramientas comerciales que les permiten tamizar las montañas de datos, detectando tendencias que pueden ayudarles a operar de manera más eficiente. (Un estudio reciente de MeriTalk encontró que los ejecutivos federales de TI piensan que Big Data podría ayudar a las agencias a ahorrar más de 500.000 millones de dólares mientras cumplen los objetivos de la misión).

Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de análisis de datos Piranha. El sistema ha ayudado a los investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre los aneurismas de la aorta antes de que hagan huelga. También se utiliza para tareas más mundanas, tales como tamizar a través de currículos para conectar candidatos de trabajo con los gerentes de contratación.

Programa del Curso

Cada sesión dura 2 horas

Día-1: Sesión -1: Visión general del negocio de ¿Por qué Big Business Intelligence de datos en Gbno.

  • Estudios de casos de NIH, DoE
  • Gran tasa de adaptación de datos en Gbno. Agencias y cómo están alineando su operación futura con Big Data Predictive Analytics
  • Área de Aplicación a Escala Amplia en DoD, NSA, IRS, USDA, etc.
  • Interfacing Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de Dashboard
  • Gestión de fraude
  • Regla comercial / Generación de detección de fraude
  • Detección y perfilamiento de amenazas
  • Análisis costo-beneficio para la implementación de Big Data

Día-1: Sesión-2: Introducción de datos grandes-1

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura de MPP para el volumen.
  • Almacenes de datos - esquema estático, conjunto de datos que evoluciona lentamente
  • MPP Bases de datos como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop - no hay condiciones sobre la estructura del dataset.
  • Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
  • Adecuado para análisis analítico / no interactivo
  • Volumen: datos de streaming de CEP
  • Opciones típicas - productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista - Storm / S4
  • Bases de datos NoSQL - (columnar y clave-valor): Mejor adaptado como adjunto analítico al almacén de datos / base de datos

Día-1: Sesión -3: Introducción a Big Data-2

Soluciones NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (jerárquico) - GT.m, caché
  • KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherencia, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Río Apache
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Tienda de Documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Bases de Datos, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Tienda Columnar ancha - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción al problema de limpieza de datos en Big Data

  • RDBMS - estructura estática / esquema, no promueve ágil, el ambiente exploratorio.
  • NoSQL - estructura semi estructurada, suficiente para almacenar datos sin esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Día-1: Sesión-4: Introducción de grandes datos-3: Hadoop

  • Cuándo seleccionar Hadoop?
  • ESTRUCTURADO - Los almacenes / bases de datos de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS - difíciles de hacer con soluciones tradicionales (DW / DB)
  • Almacenamiento de datos = ENORME esfuerzo y estática incluso después de la implementación
  • Por la variedad y el volumen de datos, crujido en el hardware de la materia - HADOOP
  • H / W de productos necesarios para crear un clúster Hadoop

Introducción a la reducción de mapa / HDFS

  • MapReduce - distribuye la computación en varios servidores
  • HDFS - hacer los datos disponibles localmente para el proceso de computación (con redundancia)
  • Datos - pueden ser no estructurados / sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programación MapReduce = trabajo con Java (pros / contras), carga manual de datos en HDFS

Día-2: Sesión-1: Big Data Ecosystem-Building Big Data ETL: universo de Big Data Tools-cuál usar y cuándo?

  • Hadoop vs. Otras soluciones NoSQL
  • Para acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a datos pero restricciones impuestas (max 1 PB)
  • No es bueno para análisis ad-hoc, bueno para registrar, contar, series de tiempo
  • Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC / ODBC)
  • Flume - Flujo de datos (por ejemplo, datos de registro) en HDFS

Día-2: Sesión-2: Gran Sistema de Gestión de Datos

  • Partes móviles, los nodos de cálculo de inicio / error: ZooKeeper - Para la configuración / coordinación / servicios de nombres
  • Oleoducto / flujo de trabajo complejos: Oozie - gestionar flujo de trabajo, dependencias, conexión en cadena
  • Implementar, configurar, administrar el clúster, actualizar etc (sys admin): Ambari
  • En la nube: Whirr

Día-2: Sesión-3: Análisis predictivo en Inteligencia de Negocios -1: Técnicas Fundamentales y Aprendizaje Automático basado en BI:

  • Introducción al aprendizaje automático
  • Técnicas de clasificación de aprendizaje
  • Bayesian Prediction-preparación del archivo de entrenamiento
  • Máquinas de vectores soporte
  • KNN p-Árbol Álgebra y minería vertical
  • Red Neural
  • Big Data problema variable grande -Random forest (RF)
  • Problema de Big Data Automation - Conjunto de múltiples modelos RF
  • Automatización a través de Soft10-M
  • Herramienta analítica de texto-Treeminer
  • Aprendizaje Ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a Herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahut

Día-2: Sesión-4 Análisis predictivo eco-sistema-2: Problemas analíticos predictivos comunes en Gbno.

  • Análisis analítico
  • Visualización analítica
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfil de amenaza / fraude / proveedor
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas / escenarios: falla, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de los sentimientos
  • Análisis de CRM
  • Analítica de red
  • Análisis de texto
  • Revisión asistida por tecnología
  • Analisis de fraude
  • Analítica en tiempo real

Día-3: Sesion-1: Análisis escalable y en tiempo real sobre Hadoop

  • Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
  • Apache Hama- para Bulk Synchronous distribued computing
  • Apache SPARK- para la computación en clúster para análisis analítico en tiempo real
  • CMU Graphics Lab2- Enfoque asincrónico basado en gráficos para la computación distribuida
  • KNN enfoque p-álgebra de Treeminer para reducir el costo de hardware de la operación

Día-3: Sesión-2: Herramientas para el eDiscovery y forense

  • EDiscovery sobre datos Big Data vs. Legacy - una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de un producto de alquitrán (vMiner) para entender cómo TAR funciona para un descubrimiento más rápido
  • Indexación más rápida a través de HDFS - velocidad de los datos
  • PNL o Procesamiento de Lenguaje Natural - diversas técnicas y productos de código abierto
  • EDiscovery en lenguas extranjeras-tecnología para el procesamiento de lenguas extranjeras

Día 3: Sesión 3: Big Data BI para la Seguridad Cibernética -Comprendiendo vistas completas de 360 grados de la rápida recopilación de datos para la identificación de amenazas

  • Conceptos básicos de análisis de seguridad: superficie de ataque, configuración errónea de seguridad, defensas del host
  • Infraestructura de la red / ETL grande del datapipe / de la respuesta para la analítica en tiempo real
  • Prescriptivo vs predictivo - Regla fija basada en auto-descubrimiento de las reglas de amenaza de los metadatos

Día 3: Sesión 4: Datos grandes en el USDA: Aplicación en la agricultura

  • Introducción a IoT (Internet de Cosas) para la agricultura-sensor basado en Big Data y control
  • Introducción a la imagen por satélite y su aplicación en la agricultura
  • Integración de sensores y datos de imagen para la fertilidad del suelo, recomendación de cultivo y previsión
  • Seguro agrícola y Big Data
  • Predicción de pérdidas de cultivos

Día-4: Sesión-1: prevención del fraude BI de Big Data en Govt-Fraud analítica:

  • Clasificación básica de la analítica de fraude-basada en reglas y analítica predictiva
  • Supervisado vs no supervisado Aprendizaje de máquina para la detección de patrón de fraude
  • Fraude de proveedores / sobre facturación de proyectos
  • Medicare y Medicaid fraude-técnicas de detección de fraude para el procesamiento de reclamaciones
  • Fraude de reembolso de viajes
  • Fraude de reembolso del IRS
  • Los estudios de casos y la demostración en vivo se darán siempre que se disponga de datos.

Día-4: Sesión-2: Recopilación y análisis de la inteligencia analítica de los medios sociales

  • Big Data ETL API para extraer datos de redes sociales
  • Texto, imagen, metadatos y vídeo
  • Análisis de sentimientos de los medios de comunicación social feed
  • Filtrado contextual y no contextual de los medios de comunicación social feed
  • Social Media Dashboard para integrar diversas redes sociales
  • Perfiles automatizados de perfil de redes sociales
  • Demostración en vivo de cada analítica se dará a través de Treeminer Tool.

Día-4: Sesión-3: Análisis de datos grandes en procesamiento de imágenes y video feeds

  • Técnicas de almacenamiento de imágenes en la solución Big Data-Storage para datos que exceden los petabytes
  • LTFS y LTO
  • GPFS-LTFS (solución de almacenamiento en capas para datos de imagen grande)
  • Fundamental del análisis de imagen
  • Reconocimiento de objetos
  • Segmentación de imagen
  • Rastreo de movimiento
  • Reconstrucción 3D de imágenes

Día-4: Sesión-4: Aplicaciones de datos grandes en NIH:

  • Nuevas áreas de Bio-informática
  • Meta-genómica y cuestiones de minería de datos grandes
  • Analítica predictiva de Big Data para Farmacogenómica, Metabolómica y Proteómica
  • Datos grandes en el proceso de Genómica descendente
  • Aplicación de la analítica predictiva de grandes datos en salud pública

Big Data Dashboard para una rápida accesibilidad de diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Gestión de grandes datos
  • Estudio de caso de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar servicios basados en ubicación en Gbno.
  • Sistema de seguimiento y gestión

Día-5: Sesión-1: Cómo justificar la implementación de Big Data BI dentro de una organización:

  • Definición del ROI para la implementación de Big Data
  • Estudios de caso para el ahorro Analista Tiempo de recolección y preparación de datos - Aumento de la ganancia de productividad
  • Estudios de caso de ganancia de ingresos al guardar el coste de base de datos con licencia
  • Ganancia de ingresos de servicios basados en ubicación
  • Ahorro de la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular aprox. Gasto vs. Ganancia / ahorro de ingresos de la implementación de Big Data.

Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredados a Big Data System:

  • Entender la hoja de ruta práctica de Big Data Migration
  • Cuáles son la información importante necesaria antes de diseñar una implementación de Big Data
  • Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos
  • Cómo estimar el crecimiento de los datos
  • Estudios de caso

Día 5: Sesión 4: Revisión de los proveedores de Big Data y revisión de sus productos. Sesión de Q / A:

  • Accenture
  • APTEAN (Anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuántico
  • Espacio en bastidor
  • Revolution Analytics
  • Fuerza de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG / Terracota
  • Automatización Soft10
  • Splunk
  • Cuadrado
  • Supermicro
  • Tabla Software
  • Teradata
  • Piensa en Big Analytics
  • Tidemark Sistemas
  • Treeminer
  • VMware (parte de EMC)

Testimonios

★★★★★
★★★★★

Categorías Relacionadas

Cursos Relacionados

Promociones

Descuentos en los Cursos

Respetamos la privacidad de su dirección de correo electrónico. No transmitiremos ni venderemos su dirección a otras personas.
En cualquier momento puede cambiar sus preferencias o cancelar su suscripción por completo.

is growing fast!

We are looking to expand our presence in Paraguay!

As a Business Development Manager you will:

  • expand business in Paraguay
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!

Este sitio en otros países / regiones