incubator-seatunnel - SeaTunnelは、大量のデータ(オフラインとリアルタイム)の同期と変換のための分散型の高性能データ統合プラットフォームです。

(SeaTunnel is a distributed, high-performance data integration platform for the synchronization and transformation of massive data (offline & real-time).)

Created at: 2017-08-05 17:14:47
Language: Java
License: Apache-2.0

アパッチシートンネル(インキュベーション)

シートンネル ロゴ

バックエンドワークフロー スラック ツイッターフォロー


EN doc

シートンネルは以前はウォータードロップと呼ばれていましたが、2021年10月12日からシートンネルに改名されました。


SeaTunnelは、リアルタイムをサポートする非常に使いやすい超高性能分散データ統合プラットフォームです。 大量のデータの同期。毎日数百億のデータを安定して効率的に同期でき、 ほぼ100社の生産に使用されています。

なぜシートンネルが必要なのですか

SeaTunnelは、大量のデータの同期で発生する可能性のある問題を解決するために最善を尽くします。

  • データの損失と重複
  • タスクの累積と遅延
  • 低スループット
  • 生産環境に適用される長いサイクル
  • アプリケーションの実行状態監視の欠如

シートンネルの利用シナリオ

  • 大量のデータ同期
  • マスデータ統合
  • 大量のデータを使用した ETL
  • 大量のデータ集約
  • マルチソースデータ処理

シートンネルの特徴

  • 使いやすく、柔軟な構成、ローコード開発
  • リアルタイムストリーミング
  • オフラインのマルチソースデータ分析
  • 高性能で大規模なデータ処理機能
  • モジュール式およびプラグイン機構、拡張が容易
  • SQLによるデータ処理と集計をサポート
  • Spark 構造化ストリーミングのサポート
  • サポートスパーク 2.x

シートンネルのワークフロー

シートンネルワークフロー.svg

Source[Data Source Input] -> Transform[Data Processing] -> Sink[Result Output]

データ処理パイプラインは、さまざまなデータ処理ニーズを満たすために複数のフィルターで構成されています。あなたがいる場合 SQLに慣れているので、SQLで直接データ処理パイプラインを構築することもでき、シンプルで効率的です。 現在、SeaTunnelでサポートされているフィルターリストはまだ拡張中です。さらに、独自のデータを開発できます システム全体を簡単に拡張できるため、プラグインの処理。

シートンネルがサポートするコネクタ

コネクタとその正常性状態の一覧を次に示します。コネクタの状態

環境依存

  1. Java ランタイム環境、Java > = 8

  2. SeaTunnel をクラスター環境で実行する場合は、次の Spark クラスター環境のいずれかを使用できます。

  • 糸の火花
  • スパークスタンドアロン

データ量が少ない場合、または単に機能検証が目的である場合は、ローカルモードで起動することもできます。 SeaTunnelはスタンドアロン操作をサポートしているため、クラスター環境です。注: SeaTunnel 2.0 は Spark での実行をサポートしています とフリンク。

プロジェクトのコンパイル

このドキュメントに従ってください。

ダウンロード

直接実行ソフトウェアパッケージのダウンロードアドレス:https://seatunnel.apache.org/download

クイックスタート

スパークhttps://seatunnel.apache.org/docs/deployment

フリンクhttps://seatunnel.apache.org/docs/deployment

SeaTunnelhttps://seatunnel.apache.org/docs/intro/about に関する詳細なドキュメント

アプリケーション実践事例

  • Weibo、付加価値事業部データプラットフォーム

Weiboビジネスは、SeaTunnelの内部カスタマイズバージョンとそのサブプロジェクトであるGuardian for SeaTunnel On Yarnタスクを使用しています 何百ものリアルタイムストリーミングコンピューティングタスクを監視します。

  • Sina、ビッグデータ運用分析プラットフォーム

Sinaデータ運用分析プラットフォームは、SeaTunnelを使用して、データ操作のリアルタイムおよびオフライン分析を実行し、 Sina News、CDN、その他のサービスのメンテナンスを行い、クリックハウスに書き込みます。

  • ソゴウ、ソゴウチキアンシステム

Sogou Qiqian Systemは、リアルタイムデータウェアハウスシステムの確立を支援するETLツールとしてSeaTunnelを採用しています。

  • クトゥウティアオ、クトゥウティアオデータセンター

QutoutiaoデータセンターはSeaTunnelを使用して、オフラインETLタスクをハイブするMySQLをサポートし、クリックハウスバックフィルにリアルタイムハイブをサポートします テクニカルサポート、およびほとんどのオフラインおよびリアルタイムタスクのニーズを十分にカバーします。

  • Yixiaテクノロジー、Yizhiboデータプラットフォーム

  • 永慧スーパーストア創設者同盟-永慧雲荘テクノロジー、メンバーEコマースデータ分析プラットフォーム

SeaTunnelは、永慧生命のeコマースユーザー行動データのリアルタイムストリーミングとオフラインSQLコンピューティングを提供します。 永慧雲荘テクノロジーの新しい小売ブランド。

  • シュイディチョウ、データプラットフォーム

ShuidichouはSeaTunnelを採用して、Yarnでリアルタイムストリーミングと定期的なオフラインバッチ処理を行い、3~4Tデータを処理します 毎日の平均出来高、そして後でクリックハウスにデータを書き込みます。

  • テンセントクラウド

ビジネスサービスからApache Kafkaにさまざまなログを収集し、Apache Kafkaのデータの一部はSeatunnelを介して消費および抽出され、Clickhouseに保存されます。

その他の使用例については、以下を参照してください https://seatunnel.apache.org/blog

行動規範

このプロジェクトは、コントリビューター規約の行動規範に準拠しています。 参加することにより、このコードを支持することが期待されます。フォローしてください 報告する報告ガイドライン 容認できない行動。

ディベロッパー

すべての開発者に感謝します!

お 問い合わせ

風景



  

SeaTunnelは、CNCFクラウドネイティブランドスケープを充実させます。

私たちのユーザー

さまざまな企業や組織がSeaTunnelを研究、生産、商用製品に使用しています。 ユーザーページを見つけるには、当社のWebサイトにアクセスしてください。

ライセンス

Apache 2.0ライセンス。