Plusieurs ingénieurs de Leverege ont récemment étudié et réussi l’examen de certification Google Cloud Professional Data Engineer. Cet examen couvre non seulement les produits phares de Google en matière de big data et d’apprentissage automatique (BigQuery, BigTable, Cloud ML Engine, etc.), mais il teste également votre capacité à analyser et à concevoir des problèmes d’ingénierie de données. Bien que nous ayons déjà de l’expérience avec bon nombre des produits GCP testés dans l’examen, nous avons dû étudier davantage pour couvrir l’ensemble du contenu de l’examen. Nous avons donc rassemblé une collection de matériel d’étude que nous avons utilisé pour préparer l’examen. Nous espérons que nos guides d’étude vous aideront à réussir votre examen du premier coup !
Format de l’examen
L’examen Google Cloud Professional Data Engineer se compose de 50 questions à choix multiples. Vous disposez de deux heures pour terminer l’examen dans un centre de test agréé. Il est important de noter que le papier et les crayons ne sont pas autorisés pendant l’examen. Nous vous recommandons fortement de passer l’examen de pratique officiel sans rien écrire pour simuler un véritable environnement d’examen. Certaines questions vous demanderont de choisir plusieurs réponses, mais la consigne vous indiquera également combien de réponses correctes il y a. Par exemple, il peut y avoir une question sur les types d’algorithmes d’apprentissage automatique que vous pouvez utiliser pour un ensemble de données donné, et vous devrez choisir trois bonnes options parmi les six choix proposés.
Nous avons constaté que l’examen de pratique officiel était similaire en termes de difficulté à l’examen réel. L’examen de pratique inclus à la fin de la préparation à l’examen Google Cloud Professional Data Engineer sur Coursera était également utile pour voir les types de questions qui pourraient être posées. Nous avons également passé l’examen de pratique de 50 questions sur le cours de Linux Academy, mais nous avons trouvé qu’il était un peu trompeur en termes de style des questions. Une question-type de LinuxAcademy pourrait demander quel produit GCP utiliser lorsque vous avez déjà un cluster Hadoop, mais la plupart des questions de l’examen réel étaient axées sur la conception de la solution en fonction d’un scénario client plutôt que de simplement choisir un produit. C’était néanmoins une bonne ressource pour évaluer votre rythme, car les autres examens de pratique ne comportent que 25 questions chacun.
Plan d’étude
Puisqu’il s’agit d’un examen sur l’ingénierie des données GCP, il est impératif de connaître les principaux produits GCP. Il est préférable d’acquérir de l’expérience pratique en suivant la formation Data Engineering sur Qwiklabs, mais si vous manquez de temps, vous pouvez lire nos notes sur l’ingénierie des données ou d’autres mémos compilés par jorwalk et ml874.
Une fois que vous êtes familiarisé avec les produits GCP, il est bon d’étudier également l’écosystème Hadoop (Hadoop, Hive, Spark, etc.) et son équivalent sur GCP, ainsi que les concepts clés de l’apprentissage automatique. Il n’y avait pas de questions approfondies sur TensorFlow, l’apprentissage automatique ou les réseaux neuronaux profonds, mais l’examen portait sur les stratégies d’ingénierie des caractéristiques (par exemple, comment lutter contre le surajustement) et l’identification des questions potentielles d’apprentissage automatique à résoudre.
Il y avait plusieurs questions sur les deux études de cas mentionnées sur le site web (Flowlogistic, MJTelco), mais les questions ne nécessitaient pas de relire l’étude de cas réelle pendant l’examen. Toutes les informations nécessaires pour répondre aux questions concernant les études de cas étaient incluses dans la question elle-même. Nous vous recommandons de regarder la vidéo du cours sur Coursera pour analyser les études de cas, sans toutefois les mémoriser ou les analyser trop en détail.
En général, l’accent était mis sur la conception, le dépannage et l’optimisation de divers scénarios d’ingénierie des données. Un type de problème courant consistait à demander comment reconfigurer une solution existante à grande échelle ou à implémenter une correction en fonction des problèmes de l’architecture actuelle.
Par exemple:
- Une implémentation actuelle de Cloud SQL a une seule table avec quelques points de données. À l’avenir, si le débit est 100 fois plus élevé, comment pouvez-vous partitionner/fragmenter les tables pour améliorer les performances ?
- Vous devez concevoir une application de commerce électronique mondiale capable de traiter plusieurs clients qui essaient d’acheter le même article en même temps. Comment gérez-vous les données non ordonnées ?
- Une commande BigQuery prend trop de temps pour lire/calculer/écrire. Comment modifiez-vous votre requête pour résoudre ce problème ?
Il y avait également un nombre considérable de questions liées à l’IAM, conformément aux types de questions de l’examen de pratique. Il était très utile de passer en revue tous les rôles IAM par produit, de connaître les différents types de rôles attribués à un utilisateur humain par rapport à un compte de service, ainsi que les stratégies de chiffrement.
- Comment donner à un consultant externe un accès à DataFlow/BigQuery/BigTable sans lui donner accès aux données réelles ?
- Un client souhaite chiffrer les données au repos, mais ne souhaite pas stocker les clés sur GCP. Où devez-vous créer les clés et comment chiffrez-vous ces données ?
Enfin, toutes les questions n’étaient pas basées sur des scénarios. Il y avait un certain nombre de questions demandant simplement des détails spécifiques aux produits, testant sur les concepts fondamentaux des produits GCP.
- Comment concevoir l’index BigTable pour améliorer les performances.
- Comment éviter le problème d’explosion d’index pour DataStore.
- Quelle combinaison de produits GCP utiliser pour les données en streaming et le stockage.
- En fonction des exigences techniques, quels produits Hadoop open-source utiliser pour traiter/stoker des données.
Chaque examen puise probablement dans un plus grand ensemble de questions, il est donc difficile d’être définitif quant aux sujets à étudier davantage, mais il est raisonnable de s’attendre à plus de questions sur BigQuery, l’apprentissage automatique, BigTable et DataFlow que sur Cloud SQL, PubSub ou Stackdriver. Certains membres de notre équipe ont mentionné une ou deux questions sur les exigences réglementaires (par exemple, HIPAA, GDPR), mais rien de trop spécifique.
Nous espérons que le guide d’étude pour l’examen que nous avons préparé et utilisé vous aidera également à réussir l’examen. Si vous constatez des inexactitudes ou si vous souhaitez contribuer, n’hésitez pas à signaler un problème !
Ressources
Mémos :
- https://github.com/jorwalk/data-engineering-gcp/blob/master/study-guide.md
- https://github.com/ml874/Data-Engineering-on-GCP-Cheatsheet
- https://medium.com/google-cloud/a-tensorflow-glossary-cheat-sheet-382583b22932
- https://www.slideshare.net/GuangXu5/gcp-data-engineer-cheatsheet
Autres présentations/débriefings de l’examen :
- https://medium.com/@simonleewm/a-study-guide-to-the-google-cloud-professional-data-engineer-certification-path-9e83e41e311
- https://www.linkedin.com/pulse/google-cloud-certified-professional-data-engineer-writeup-rix/
Cours :