Comment trouver du code, des référentiels, des utilisateurs, des problèmes et des demandes de recherche…

Plusieurs ingénieurs de Leverege ont récemment étudié et réussi l’examen de certification Professional Data Engineer de Google Cloud. Cet examen couvre non seulement les produits phares de Google en matière de big data et de machine learning (par exemple, BigQuery, BigTable, Cloud ML Engine), mais il vous teste également sur votre capacité à analyser et à concevoir des problèmes d’ingénierie des données. Bien que nous ayons déjà de l’expérience avec de nombreux produits GCP testés lors de l’examen, il était nécessaire d’étudier davantage pour couvrir l’ensemble du programme de l’examen. Nous avons donc rassemblé une collection de matériel d’étude que nous avons utilisé pour nous préparer à l’examen. Nous espérons que nos guides d’étude vous aideront à réussir votre examen dès la première tentative !

Table des matières

Format de l’examen

L’examen Google Cloud Professional Data Engineer se compose de 50 questions à choix multiples. Vous disposez de deux heures pour terminer l’examen dans un centre de test agréé. Il est important de noter que le papier et les crayons ne sont pas autorisés pendant l’examen. Nous vous recommandons vivement de passer par l’examen de pratique officiel sans rien écrire pour simuler un environnement de test réel. Certaines questions vous demanderont de choisir plusieurs réponses, mais le texte vous indiquera également combien de bonnes réponses il y a. Par exemple, il peut y avoir une question sur les types d’algorithmes d’apprentissage automatique que vous pouvez utiliser pour un ensemble de données donné, et avec six choix, vous devez en choisir trois corrects.

Nous avons trouvé que l’examen de pratique officiel était similaire en difficulté à l’examen réel. L’examen de pratique inclus à la fin de la préparation pour l’examen de certification Google Cloud Professional Data Engineer sur Coursera était également utile pour se familiariser avec les types de questions qui pourraient être posées. Nous avons également passé l’examen de pratique de 50 questions sur le cours de Linux Academy, mais nous avons trouvé qu’il était un peu trompeur en termes de style de question. Une question d’exemple de Linux Academy pourrait demander quel produit GCP utiliser lorsque vous disposez d’une grappe Hadoop existante, mais la plupart des questions de l’examen réel présentaient un scénario client et se concentraient sur la conception de la solution plutôt que sur la simple sélection d’un produit. C’était tout de même une bonne ressource pour évaluer votre rythme, car les autres tests de pratique ne comportent que 25 questions chacun.

Plan d’étude

Puisqu’il s’agit d’un examen de GCP Data Engineering, il est impératif de connaître les principaux produits GCP. Il est préférable d’acquérir de l’expérience pratique en suivant la formation Data Engineering sur Qwiklabs, mais si vous manquez de temps, vous pouvez lire nos notes sur l’ingénierie des données ou d’autres fiches de triche compilées par jorwalk et ml874.

Une fois que vous êtes familiarisé avec les produits GCP, il est bon d’étudier l’écosystème Hadoop (par exemple, Hadoop, Hive, Spark) et son équivalent sur GCP, ainsi que les concepts clés de l’apprentissage automatique. Il n’y avait pas de questions approfondies sur TensorFlow, l’apprentissage automatique ou les réseaux neuronaux profonds, mais l’examen portait sur les stratégies d’ingénierie des caractéristiques (par exemple, comment lutter contre le surapprentissage) et l’identification des questions potentielles d’apprentissage automatique à résoudre.

Il y avait plusieurs questions sur les deux études de cas répertoriées sur le site Web (c’est-à-dire Flowlogistic, MJTelco), mais les questions ne nécessitaient pas que vous relisiez l’étude de cas réelle pendant l’examen. Toutes les informations nécessaires pour répondre à la question concernant les études de cas étaient intégrées à la question elle-même. Nous vous recommandons de regarder la vidéo du cours Coursera pour analyser les études de cas, mais ne pas les mémoriser ou les analyser excessivement.

Dans l’ensemble, il y avait une forte emphase sur la conception, le dépannage et l’optimisation de divers scénarios d’ingénierie des données. Un type courant de problème consistait à demander comment reconfigurer une solution existante à grande échelle ou à mettre en œuvre une correction compte tenu des problèmes de l’architecture actuelle.

Par exemple :

Une implémentation actuelle de Cloud SQL a une seule table avec quelques données. À l’avenir, si le débit est 100 fois plus élevé, comment pouvez-vous partitionner/partager les tables pour améliorer les performances ?
Vous devez concevoir une application de commerce électronique mondiale qui peut gérer plusieurs clients essayant d’acheter le même article en même temps. Comment gérez-vous les données désordonnées ?
Une commande BigQuery prend trop de temps pour lire/calculer/écrire. Comment modifiez-vous votre requête pour résoudre ce problème ?

Il y avait également un certain nombre de questions liées à IAM, conformément aux types de questions de l’examen de pratique. Il était vraiment utile de passer en revue tous les rôles IAM par produit, de connaître les différents types de rôles attribués à un utilisateur humain par rapport à un compte de service, et les stratégies de chiffrement.

Comment donner à un consultant externe un accès à DataFlow/BigQuery/BigTable, quel rôle lui attribuer sans lui donner accès aux données réelles ?
Le client souhaite chiffrer les données au repos, mais ne souhaite pas stocker les clés sur GCP. Où devez-vous créer les clés et comment chiffrer ces données ?

Enfin, toutes les questions n’étaient pas basées sur des scénarios. Il y avait un bon nombre de questions demandant simplement des détails spécifiques sur les produits qui testaient les concepts fondamentaux des produits GCP.

Comment concevoir l’index BigTable pour améliorer les performances.
Comment éviter le problème d’index explosif pour DataStore.
Quelle combinaison de produits GCP utiliser pour les données en continu et le stockage.
En fonction des exigences techniques, quels produits Hadoop open source utiliser pour traiter/stocker les données.

Chaque examen puise probablement dans un plus grand nombre de questions, il est donc difficile de donner des indications définitives sur les sujets à étudier davantage, mais il est raisonnable de s’attendre à plus de questions sur BigQuery, l’apprentissage automatique, BigTable et DataFlow que sur Cloud SQL, PubSub ou Stackdriver. Certains membres de notre équipe ont mentionné une ou deux questions sur les exigences réglementaires (par exemple, HIPAA, GDPR), mais rien de trop spécifique.

Nous espérons que le guide d’étude que nous avons préparé et utilisé vous aidera également à réussir l’examen. Si vous remarquez des inexactitudes ou si vous souhaitez contribuer, n’hésitez pas à nous en faire part !

Ressources

Fiches de triche :

Autres aperçus/retours sur l’examen :

Formations :

TECHNOLOGIE

Format de l’examen

Plan d’étude

Ressources

Soren Harquin