CA$3,700

Data Engineering on Google Cloud Platform, Montreal, Français

Event Information

Share this event

Date and Time

Location

Location

Montreal

Canada

View Map

Event description

Description

DATA ENGINEER

Les compétences essentielles pour concevoir et construire des systèmes de traitement de données

(4 days)

Ce cours de quatre jours, animé par un de nos formateurs certifiés Google Cloud Platform, fournit une introduction pratique à la conception et au développement de systèmes de traitement de données sur Google Cloud Platform. Grâce à un mélange de présentations et de démonstrations et d’exercices pratiques, les participants apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données de bout en bout, à analyser des données et à utiliser le potentiel du Machine Learning. Le cours couvre les données structurées, non structurées et par flux.


  • Concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Traiter des données par lot ou par flux en implémentant des pipelines de données scalables automatiquement sur Cloud Dataflow
  • Obternir des informations métier à partir d'extrêmement grands ensembles de données en utilisant Google BigQuery
  • Entraîner, évaluer et faire des prédictions en utilisant des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
  • Tirer parti des données non structurées à l'aide de Spark et des API de Machine Learning sur Cloud Dataproc
  • Activer Instant Insights à partir des données par flux

Course Outline

Présentation de Google Cloud Dataproc

  • Création et gestion des clusters
  • Exploitation des types de machines personnalisés et des nœuds de calcul préemptifs
  • Évolutivité et suppression des clusters
  • Lab : Création de clusters Hadoop avec Google Cloud Dataproc
  • Running Pig and Hive jobs.
  • Separation of storage and compute.
  • Lab: Running Hadoop and Spark Jobs with Dataproc.
  • Lab: Submit and monitor jobs.

Exécution de tâches sur Dataproc

  • Exécution de tâches Pig et Hive
  • Séparation du stockage et du calcul
  • Lab : Exécution de tâches Hadoop et Spark avec Dataproc
  • Lab : Envoyer et surveiller des tâches

Intégrer Dataproc à Google Cloud Platform

  • Personnalisation d'un cluster à l'aide d'actions d'initialisation
  • Assistance BigQuery
  • Lab : Exploiter les services Google Cloud Platform

Comprendre les données non-structurées avec les API Machine Learning de Google

  • Les API Machine Learning de Google
  • Cas d'utilisation courants du Machine Learning
  • Appeler des API de Machine Learning
  • Lab : Ajouter les capacités de Machine Learning à l'analyse Big Data

Analyse de données en mode serverless avec BigQuery

  • Qu'est-ce que BigQuery ?
  • Requêtes et fonctions
  • Lab : Écrire des requêtes dans BigQuery
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Lab : Charger et exporter des données
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Lab : Requêtes complexes
  • Performances et tarification

Pipelines de données d'autoscaling serverless avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Lab : Écrire un pipeline Dataflow
  • Traitement évolutif du big data avec Beam
  • Lab : MapReduce dans Dataflow
  • Intégrer des données supplémentaires
  • Lab : Entrées secondaires
  • Gestion des données par flux
  • Architecture de référence GCP

Bien démarrer avec le Machine Learning

  • Qu'est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation
  • Lab : Explorer et créer des ensembles de données de ML

Construction de modèles Machine Learning avec Tensorflow

  • Premiers pas avec TensorFlow
  • Lab : Utiliser tf.learn
  • Graphiques et boucles TensorFlow + atelier
  • Lab : Utiliser TensorFlow de bas niveau + arrêt prématuré
  • Surveiller l'entraînement ML
  • Lab : Graphiques d'entraînement TensorFlow

Mise à l’échelle de modèles Machine Learning avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d'un modèle TensorFlow
  • Entraînement de bout en bout
  • Lab : Exécuter un modèle de ML localement et sur le cloud

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Pré-traitement avec Cloud ML
  • Lab : Extraction de caractéristiques

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gestion de volumes de données variables
  • Gestion des données non triées/en retard
  • Lab : Concevoir un pipeline de flux de données

Ingérer de volumes de variables

  • Qu'est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements
  • Lab : Simulateur

Mettre en place des pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation
  • Lab : Pipeline de traitement des données par flux pour le trafic en direct

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu'est-ce que Google Data Studio ?
  • Lab : Créer un tableau de bord en temps réel pour visualiser les données traitées

Haut débit et faible latence avec Bigtable

  • Qu'est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
  • Lab : Flux dans Bigtable

** Notice: Cancellations will be charged an administrative fee through Eventbrite.

Share with friends

Date and Time

Location

Montreal

Canada

View Map

Save This Event

Event Saved