GCPDE - Data Engineering trên Google Cloud Platform
4 ngày
Khóa học hướng dẫn trong 4 ngày này cung cấp cho học viên trải nghiệm thiết kế & xây dựng hệ thống xử lý dữ liệu trên GCP. Qua bài giảng, demo và lab thực hành, học viên học cách xây dựng pipeline, phân tích dữ liệu & thực hiện machine learning. Bao phủ structured, unstructured & streaming data.
- Thiết kế & xây dựng hệ thống xử lý dữ liệu trên GCP
- Xử lý batch & streaming data với pipeline autoscaling trên Dataflow
- Phân tích dataset lớn bằng BigQuery
- Huấn luyện, đánh giá & dự đoán ML với TensorFlow & Cloud ML
- Làm việc với unstructured data qua Spark & ML APIs trên Dataproc
- Insight tức thì từ streaming data
- Developer có kinh nghiệm xử lý dữ liệu lớn: ETL, pipeline, thiết kế ML/statistics models, trực quan hóa & báo cáo
- Hoàn thành GCP Fundamentals: Big Data & ML hoặc tương đương
- Thành thạo SQL, ETL, Python, quen ML/statistics
Sau khi hoàn tất khóa học, học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của Cecomtech.
Module 1: Giới thiệu Data Engineering, BigQuery, Data Lakes, Transactional vs Warehouse, DLP API, lab BigQuery
Module 2: Xây dựng Data Lake với Cloud Storage, Cloud SQL, lab
Module 3: Xây dựng Data Warehouse với BigQuery, schema design, nested field, partition & clustering, lab
Module 4: Xây dựng Batch Pipeline (ETL, ELT), quality
Module 5: Chạy Spark trên Dataproc, lab Spark job
Module 6: Dataflow serverless data processing, lab Dataflow pipeline
Module 7: Cloud Data Fusion & Composer orchestration, lab pipeline graph & Airflow
Module 8-10: Streaming data, Pub/Sub, Dataflow Streaming, BigQuery Streaming, Bigtable Streaming, labs
Module 11-12: BigQuery advanced function, optimizing query, lab
Module 13-17: ML trên GCP: AI Platform, Kubeflow, BQML, AutoML, lab ML NLP, Vision, regression, recommendation
