data-engineering-zoomcamp - 無料のデータエンジニアリングコース!

(Free Data Engineering course! )

Created at: 2021-10-21 17:32:50
Language: Jupyter Notebook

データエンジニアリングズームキャンプ

シラバス

コースの受講

2023年コホート

セルフペースモード

コースのすべての資料は自由に利用できるので、 自分のペースで受講できる

  • 提案されたシラバス(下記参照)を週ごとにフォローしてください
  • 登録フォームに記入する必要はありません。ビデオを見始めてSlackに参加するだけです
  • 問題がある場合はFAQを確認してください
  • FAQで問題の解決策が見つからない場合は、Slackで助けを求めてください

2022年コホート

Slack で助けを求める

サポートを受ける最良の方法は、DataTalks.ClubのSlackを使用することです。#course データ エンジニアリング チャネルに参加します。

Slack でのディスカッションを整理するには:

シラバス

手記:NYC TLCは、使用するデータの形式を寄木細工に変更しました。しかし、あなたはまだアクセスできます CSVファイルはこちら

1週目:はじめにと前提条件

  • コース概要
  • GCP の概要
  • Docker と docker-compose
  • Dockerを使用してPostgresをローカルで実行する
  • Terraform を使用した GCP でのインフラストラクチャのセットアップ
  • コースのための環境の準備
  • 宿題

詳細を見る

2 週目: データ インジェスト

  • データレイク
  • ワークフローオーケストレーション
  • エアフローをローカルに設定する
  • エアフローを使用した GCP へのデータの取り込み
  • エアフローを使用したローカルの Postgres へのデータの取り込み
  • AWS から GCP へのデータの移行 (転送サービス)
  • 宿題

詳細を見る

3週目:データウェアハウス

  • データ ウェアハウス
  • ビッグクエリ
  • パーティショニングとクラスタリング
  • BigQuery のベスト プラクティス
  • BigQuery の内部
  • BigQuery とエアフローの統合
  • BigQuery Machine Learning

詳細を見る

4週目:分析エンジニアリング

  • 分析エンジニアリングの基礎
  • DBT (データ構築ツール)
  • BigQuery と dbt
  • Postgres と dbt
  • DBT モデル
  • テストと文書化
  • クラウドおよびローカルへのデプロイ
  • グーグルデータスタジオとメタベースでデータを視覚化する

詳細を見る

5週目:バッチ処理

  • バッチ処理
  • スパークとは
  • スパークデータフレーム
  • スパーク SQL
  • 内部: グループ化と結合

詳細を見る

6週目:ストリーミング

  • カフカ入門
  • スキーマ (アブロ)
  • カフカストリーム
  • Kafka Connect と KSQL

詳細を見る

7、8、9週目:プロジェクト

学んだことをすべて実践する

  • 7週目と8週目:プロジェクトに取り組む
  • 9週目:仲間を見直す

詳細を見る

概要

アーキテクチャ図

技術

  • Google Cloud Platform(GCP):Google によるクラウドベースの自動スケーリング プラットフォーム
    • Google Cloud Storage (GCS): Data Lake
    • BigQuery: データ ウェアハウス
  • Terraform: Infrastructure-as-Code (IaC)
  • ドッカー:コンテナ化
  • SQL: Data Analysis & Exploration
  • エアフロー:パイプラインオーケストレーション
  • dbt: データ変換
  • スパーク: 分散処理
  • フカ:ストリーミング

前提 条件

このコースを最大限に活用するには、コーディングとコマンドラインに慣れている必要があります SQLの基本を知っています。Pythonの以前の経験が役立ちますが、選択できます 他のプログラミング言語の経験がある場合は、Pythonは比較的高速です。

データエンジニアリングの経験は必要ありません。

インストラクター

ツール

このコースでは、次のソフトウェアがコンピューターにインストールされている必要があります。

  • Docker and Docker-Compose
  • Python 3 (例: Anaconda 経由))
  • グーグルクラウドSDK
  • テラフォーム

これらのツールのインストールの詳細については、第 1 週を参照してください。

FAQ

  • Q: 登録しましたが、確認メールが届きません。正常ですか?A:はい、正常です。自動化されていません。しかし、あなたは最終的に電子メールを受け取ります
  • Q:それは一日の何時に起こりますか?A: 営業時間は月曜日の17:00 CETに行われます。しかし、すべてが記録されるので、都合の良いときにいつでも見ることができます
  • Q:証明書はありますか?A:はい、プロジェクトを完了すれば
  • Q:参加できるかどうか100%わかりません。それでもサインアップできますか?A:はい、してください!すべての更新を受け取り、自分のペースでコースを見ることができます。
  • Q: ML エンジニアリング コースも実施する予定ですか?A:よろしくお願いします。私たちは:)
  • Q:私は立ち往生しています!技術的な質問があります!A: Slack で質問しましょう!そして、学生FAQをチェックしてください。多くの一般的な問題はすでに回答されています。問題が解決した場合は、解決方法をドキュメントに追加してください。感謝!

サポーターとパートナー

私たちのコースとコミュニティをサポートしたいですか?alexey@datatalks.club までご連絡ください

コースについての情報を広めるのを手伝ってくれた他のコミュニティに感謝します: