Giới thiệu khóa học:
Data Engineering là tất cả về việc xây dựng Data Pipelines để đưa dữ liệu từ nhiều nguồn vào Data Lakes hoặc Data Warehouses, sau đó từ Data Lakes hoặc Data Warehouses đến các downstream system. Là một phần của khóa học này, tôi sẽ hướng dẫn bạn cách xây dựng Data Engineering Pipelines bằng GCP Data Analytics Stack. Nó bao gồm các dịch vụ như Google Cloud Storage, Google BigQuery, GCP Dataproc, Databricks on GCP và nhiều dịch vụ khác.
✓ Là một phần của khóa học này, trước tiên, bạn sẽ tiếp tục và thiết lập môi trường để học cách sử dụng VS Code trên Windows và Mac.
✓ Khi môi trường đã sẵn sàng, bạn cần đăng ký Google Cloud Account. Chúng tôi sẽ cung cấp tất cả các hướng dẫn để đăng ký Google Cloud Account, bao gồm xem xét thanh toán cũng như nhận Tín dụng 300 USD.
✓ Chúng tôi thường sử dụng Cloud Object Storage làm Data Lake. Là một phần của khóa học này, bạn sẽ tìm hiểu cách sử dụng Google Cloud Storage làm Data Lake cùng với cách quản lý các tệp trong Google Cloud Storage bằng cách sử dụng các lệnh cũng như Python. Nó cũng đề cập đến việc tích hợp Pandas với các file trong Google Cloud Storage.
✓ GCP cung cấp RDBMS dưới dạng service qua Cloud SQL. Bạn sẽ tìm hiểu cách setup Postgresql Database Server bằng Cloud SQL. Khi Database Server được thiết lập, bạn cũng sẽ quan tâm đến việc thiết lập user và database ứng dụng cần thiết. Bạn cũng sẽ hiểu cách phát triển các ứng dụng dựa trên Python bằng cách tích hợp với GCP Secretmanager để truy xuất thông tin đăng nhập.
✓ Một trong những cách sử dụng chính của Data không gì khác ngoài việc xây dựng các report và dashboard. Thông thường, các report và dashboard được tạo bằng cách sử dụng các công cụ reporting trỏ đến Data Warehouse. Là một phần của Google Data Analytics Services, BigQuery có thể được sử dụng làm Data Warehouse. Bạn sẽ tìm hiểu các tính năng của BigQuery dưới dạng một Data Warehouse cùng với các tích hợp chính bằng Python và Pandas.
✓ Đôi khi, chúng ta cần xử lý khối lượng dữ liệu lớn, còn được gọi là Big Data Processing. GCP Dataproc là một Big Data Service được quản lý hoàn toàn với Hadoop, Spark, Kafka, v.v. Bạn sẽ không chỉ tìm hiểu cách thiết lập GCP Dataproc cluster mà còn học cách sử dụng Dataproc cluster single node cho development. Bạn sẽ thiết lập môi trường phát triển bằng VS Code với remote connection đến Dataproc Cluster.
✓ Sau khi bạn hiểu cách bắt đầu với Big Data Processing bằng Dataproc, bạn sẽ quan tâm đến việc xây dựng ELT Data Pipelines end to end bằng cách sử dụng Dataproc Workflow Templates. Bạn sẽ tìm hiểu tất cả các lệnh chính để gửi Dataproc Jobs cũng như Workflows. Cuối cùng, bạn sẽ xây dựng ELT Pipelines bằng cách sử dụng Spark SQL.
✓ Mặc dù Dataproc là GCP Native Big Data Service, nhưng Databricks là một Big Data Service nổi bật khác có sẵn trong GCP. Bạn cũng sẽ hiểu cách bắt đầu với Databricks trên GCP.
✓ Khi bạn xem qua các chi tiết về cách bắt đầu với Databricks trên GCP, bạn sẽ quan tâm đến việc xây dựng ELT Datapipelins từ đầu đến cuối bằng cách sử dụng Databricks Jobs và Workflows.
✓ Khi kết thúc khóa học, bạn sẽ khá thoải mái với BigQuery for Data Warehouse và GCP Dataproc for Data Processing, bạn sẽ tìm hiểu cách tích hợp hai dịch vụ chính này bằng cách xây dựng end to end ELT Data Pipeline bằng cách sử dụng Dataproc Dataproc Workflow. Bạn cũng sẽ hiểu cách bao gồm ứng dụng dựa trên Pyspark với Spark BigQuery connector như một phần của Pipeline.
✓ Trong quá trình xây dựng Data Pipelines, bạn cũng sẽ sửa đổi vòng đời phát triển ứng dụng của Spark, khắc phục sự cố liên quan đến Spark bằng các giao diện web có liên quan như YARN Timeline Server, Spark UI, v.v.
Mục lục:
✓ 01. Giới thiệu về Data Engineering sử dụng GCP Data Analytics.
✓ 02. Setup Environment cho Data Engineering sử dụng GCP Data Analytics.
✓ 03. Bắt đầu với GCP for Data Engineering sử dụng GCP Data Analytics.
✓ 04. Thiết lập Data Lake sử dụng Google Cloud Storage.
✓ 05. Setup Postgres Database sử dụng Cloud SQL.
✓ 06. Xây dựng Data Warehouse sử dụng Google Big Query.
✓ 07. Big Data Processing sử dụng Google Dataproc.
✓ 08. ELT Data Pipelines sử dụng Dataproc trên GCP.
✓ 09. Big Data Processing sử dụng Databricks trên GCP.
✓ 10. ELT Data Pipelines sử dụng Databricks trên GCP.
✓ 11. Tích hợp Spark trên Google Dataproc và BigQuery.
✓ 12. Data Pipeline Orchestration sử dụng Google Cloud Composer.
✓ 13. Data Pipelines sử dụng DBT, Airflow và Google BigQuery.
Bạn sẽ học được gì:
✓ Data Engineering leveraging Services trong GCP Data Analytics.
✓ Thiết lập môi trường phát triển bằng Visual Studio Code trên Windows.
✓ Xây dựng Data Lake bằng GCS.
✓ Process Data trong Data Lake bằng Python và Pandas.
✓ Xây dựng Data Warehouse bằng Google BigQuery.
✓ Loading Data vào các Google BigQuery table bằng Python và Pandas.
✓ Thiết lập Môi trường Phát triển bằng Visual Studio Code trên Google Dataproc với Remote Connection.
✓ Big Data Processing hoặc Data Engineering bằng Google Dataproc.
✓ Chạy các ứng dụng dựa trên Spark SQL dưới dạng Dataproc Jobs bằng Commands.
✓ Xây dựng ELT Data Pipelines dựa trên Spark SQL bằng cách sử dụng Google Dataproc Workflow Templates.
✓ Run hoặc Instantiate ELT Data Pipelines hoặc Dataproc Workflow Template bằng các lệnh gcloud dataproc.
✓ Big Data Processing hoặc Data Engineering bằng Databricks trên GCP.
✓ Tích hợp GCS và Databricks trên GCP.
✓ Xây dựng và chạy ELT Data Pipelines dựa trên Spark bằng cách sử dụng Databricks Workflows trên GCP.
✓ Tích hợp Spark trên Dataproc với Google BigQuery.
✓ Xây dựng và chạy ELT Pipeline dựa trên Spark bằng cách sử dụng Google Dataproc Workflow Template với BigQuery Integration.
Khóa học này dành cho ai:
Tham gia Tổng kho khóa học online trọn đời
- Truy cập hơn 4.000 khóa học ở nhiều chủ đề như Kinh doanh, marketing, lập trình, tin học văn phòng, ngôn ngữ,...
- Học trọn đời, học mọi lúc, mọi nơi.
- Khóa học mới lên kho mỗi ngày
Copyright Disclaimer:
This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.
Tuyên bố miễn trừ bản quyền:
Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.