結論
この記事が役立つ状況
データパイプラインの全体像——3つのフローを理解する
ETL vs ELT——営業データ基盤ではELTが正解な理由
ETL（Extract → Transform → Load）
ELT（Extract → Load → Transform）
フォワードパイプラインの設計——データソースからDWHへ
データソースの棚卸し
同期頻度の設計
ELTツールの選定と実装
変換パイプラインの設計——dbtによるレイヤード変換
dbtプロジェクトの構成
データ品質テストの組み込み
リバースETL——分析結果を現場に届ける
なぜリバースETLが必要なのか
リバースETLツールの選定
リバースETL設計の原則
パイプラインの監視とエラーハンドリング
モニタリングの3軸
エラー発生時のフロー
参考文献
データパイプラインとは何ですか？
ETLとELTの違いは何ですか？
比較表：ETL vs ELT — 営業データ基盤での比較

営業データパイプライン設計｜ETL/ELTからリバースETLまで

営業データパイプラインの設計手法をETL・ELT・リバースETLの3パターンで解説。CRMからDWH、DWHから現場ツールへの双方向データフローの設計原則と実装ステップをGTMエンジニア向けに体系化した。

渡邊悠介

2026年4月3日

結論

営業データパイプラインはフォワード・変換・リバースの3フローで構成され血管の役割を担う
クラウドDWH時代はELTが主流でdbtによるSQL管理とRaw層保持が設計の鍵となる
リバースETLが欠落すると分析結果が現場アクションに反映されずデータが死蔵される

この記事が役立つ状況

対象者: GTMエンジニア / 営業データ基盤を構築する営業企画・データエンジニア
直面している課題: CRM・MA・CSのデータをDWHに集約しても現場業務ツールに還流せず分析が形骸化している
前提条件: BigQueryやSnowflake等のクラウドDWHを利用可能で、dbtによるSQL変換管理を許容できる体制

このノウハウをAIで実行するプロンプト（クリックで開く）

以下をコピーしてLLMに貼り付け、[ ] 内を自社の情報に書き換えてください。

あなたはGTMエンジニアです。以下の条件で営業データパイプラインを設計してください。

【データソース】[CRM/MA/CS/外部データ等を列挙]
【DWH】[BigQuery/Snowflake等]
【現場ツール】[書き戻し先のCRM/Slack等]
【データ規模】[月間レコード数]
【現状の課題】[分析結果が現場で使われない等]

出力:
1. フォワードパイプライン（ETL/ELT選定理由含む）
2. 変換パイプライン（Raw/Staging/Mart層のスキーマ）
3. リバースパイプライン（書き戻すスコア・セグメント定義）
4. 実装ステップと優先順位

営業データパイプラインとは、CRM・MA・CSなどのデータソースからデータウェアハウス（DWH）へ、そしてDWHから現場の業務ツールへ、双方向にデータを流す仕組みのことだ。営業データ基盤がデータ活用の「骨格」であるならば、パイプラインは「血管」にあたる。どれほど優秀なDWHやBIツールを導入しても、パイプラインの設計が雑であればデータは腐り、分析基盤は形骸化する。本記事では、ETL・ELT・リバースETLの3つのパターンを軸に、GTMエンジニアが営業データパイプラインを設計・実装するための体系的なガイドを提供する。

データパイプラインの全体像——3つのフローを理解する

営業データパイプラインは、データの流れる方向によって3つのパターンに分類できる。

フォワードパイプライン（Source → DWH）: CRM、MA、CSツールなどのデータソースからDWHにデータを集約するフロー。ETLまたはELTで実装する。営業パイプライン分析、ファネル分析、KPIモニタリングの基盤となるデータフローだ。

変換パイプライン（DWH内部）: DWH上でRaw層→Staging層→Mart層とデータを変換・集約するフロー。dbtで管理するのがベストプラクティスである。クラウドDWH入門で解説したスキーマ設計が、このフローの設計図になる。

リバースパイプライン（DWH → 業務ツール）: DWHで算出したスコアやセグメント情報をCRM・MA・Slackなどの業務ツールに書き戻すフロー。リバースETLで実装する。このフローが存在しなければ、分析結果は「ダッシュボードで見るだけ」に終わり、営業の現場アクションに反映されない。

この3つのフローを設計・自動化することが、営業データパイプラインの全体像だ。多くの組織がフォワードパイプラインまでは構築するが、リバースパイプラインが欠落しているために「データは溜まるが使われない」状態に陥っている。

ETL vs ELT——営業データ基盤ではELTが正解な理由

データをソースからDWHに運ぶ方法として、ETLとELTの2つのアプローチがある。結論から言えば、現在の営業データ基盤ではELTが主流であり、ほとんどのケースでELTを選ぶべきだ。

ETL（Extract → Transform → Load）

ETLは伝統的なデータ連携パターンである。データソースから抽出したデータを中間サーバー上で変換し、変換後のデータをDWHに格納する。オンプレミスDWHが主流だった時代、DWHの処理能力とストレージが高価だったため、「DWHに入れる前にデータを軽くする」必要があった。

ETLの課題は3つある。

変換ロジックが中間サーバーに閉じ込められる: 変換ロジックがETLツール固有の形式で管理され、SQLのようにバージョン管理やテストが容易でない
生データが失われる: 変換後のデータのみがDWHに格納されるため、後から「別の切り口で分析したい」と思っても生データに遡れない
スケーラビリティの制約: 中間サーバーの処理能力がボトルネックになり、データ量の増加に対応しにくい

ELT（Extract → Load → Transform）

ELTはまず生データをそのままDWHにロードし、DWH上で変換を行う。BigQueryやSnowflakeなどのクラウドDWHが圧倒的な処理能力を低コストで提供するようになったことで、「DWH上で変換した方が効率的」という状況が生まれた。

ELTのメリットは明確だ。

生データが保持される: Raw層に生データが残るため、後から変換ロジックを変更しても再取得が不要
変換がSQLで完結する: dbtを使えば変換ロジックをSQLファイルとしてGit管理でき、テスト・ドキュメント生成も自動化できる
スケーラビリティ: DWHのコンピュートリソースを自在にスケールできるため、データ量の増加に対応しやすい

営業データの規模（月間数百万〜数千万行程度）であれば、ELTのコストは極めて低い。BigQueryの無料枠内で処理できるケースも多い。SQLで営業企画を変えるで紹介した分析クエリも、ELTで整備されたMart層に対して実行する想定だ。

フォワードパイプラインの設計——データソースからDWHへ

フォワードパイプラインの設計は「どのデータを・どの頻度で・どうやって運ぶか」の3つの問いに答えることだ。

データソースの棚卸し

最初にやるべきは、営業活動に関わるすべてのデータソースの棚卸しである。

CRM: HubSpot / Salesforce — 商談、コンタクト、会社、活動履歴
MAツール: HubSpot Marketing / Marketo — メール開封、フォーム送信、キャンペーン成果
CSツール: Gainsight / HubSpot Service — チケット、NPS、ヘルススコア
外部データ: データエンリッチメントツール（Clay、Clearbit等） — 企業属性、テクノグラフィクス
コミュニケーション: Slack、Zoom/tldv — 活動量、商談録画のメタデータ
Webアナリティクス: Google Analytics / Mixpanel — Web行動データ

CRMデータ設計でオブジェクト構造を整備済みであることが前提となる。CRMのデータ設計が崩壊した状態でパイプラインを組んでも、ゴミデータを高速で流すだけだ。

同期頻度の設計

すべてのデータをリアルタイムで同期する必要はない。データの種類ごとに適切な同期頻度を設計する。

リアルタイム（数秒〜数分）: リード作成、商談ステージ変更 — イベントドリブン設計でWebhookを活用
高頻度バッチ（15分〜1時間）: メール開封・クリック、Web行動データ — MAツールからの差分同期
日次バッチ: 商談金額・予測、活動量集計、企業属性データ — 大半の分析ユースケースはこの頻度で十分
週次バッチ: NPS、満足度調査、外部ベンチマークデータ — 低頻度で変化するデータ

営業データ基盤のパイプラインの80%は日次バッチで十分カバーできる。リアルタイム連携は費用も運用コストも高いため、本当に即時性が必要なユースケースに限定すべきだ。

ELTツールの選定と実装

フォワードパイプラインの実装には、専用のELTツールを使う。主要な選択肢は以下の3つだ。

Fivetran: マネージドELTのデファクトスタンダード。500以上のコネクタを持ち、HubSpotやSalesforceとの連携は特に安定している。MAR（Monthly Active Rows）課金で、データ量が増えるとコストが上がる点に注意。

Airbyte: オープンソースのELTプラットフォーム。セルフホストすればランニングコストを大幅に抑えられる。コネクタ数は350以上で、カスタムコネクタの作成も容易。50名以下の営業組織ならAirbyteが最もコスト効率が高い。

Stitch Data: Talend傘下のシンプルなELTサービス。小規模データの連携に適しており、設定の学習コストが低い。

自社でAPI連携のスクリプトを書く選択肢もあるが、スキーマ変更への追従、エラーリトライ、差分同期の実装を考えると、既存ツールを使う方が圧倒的に効率がよい。「自前実装は既存コネクタが存在しないデータソースだけ」が鉄則だ。

変換パイプラインの設計——dbtによるレイヤード変換

DWHにロードされた生データは、そのままでは分析に使えない。変換パイプラインでRaw→Staging→Martの3層に段階的に変換し、分析可能な状態に仕上げる。

dbtプロジェクトの構成

変換レイヤーの管理にはdbt（data build tool）を使う。dbtプロジェクトのディレクトリ構成は以下が推奨される。

models/
├── staging/
│   ├── hubspot/
│   │   ├── stg_hubspot__deals.sql
│   │   ├── stg_hubspot__contacts.sql
│   │   └── stg_hubspot__companies.sql
│   └── salesforce/
│       ├── stg_salesforce__opportunities.sql
│       └── stg_salesforce__accounts.sql
├── intermediate/
│   ├── int_deal_stage_history.sql
│   └── int_lead_funnel.sql
└── marts/
    ├── mart_pipeline_summary.sql
    ├── mart_rep_performance.sql
    └── mart_lead_conversion.sql

各レイヤーの責務は明確に分離する。

Staging層: ソースごとに1つのモデルを作り、カラム名の統一・型変換・NULL処理だけを行う。ビジネスロジックはここに入れない。

-- stg_hubspot__deals.sql
SELECT
  deal_id,
  deal_name,
  CAST(amount AS NUMERIC) AS amount,
  LOWER(TRIM(dealstage)) AS stage_name,
  DATE(createdate) AS created_date,
  DATE(closedate) AS close_date,
  hubspot_owner_id AS owner_id
FROM {{ source('hubspot', 'deals') }}
WHERE deal_id IS NOT NULL

Intermediate層: 複数のStagingモデルを結合し、ビジネスロジックを適用する。ファネルステージの定義、コホート分類、リードソースの統合ルールなどがここに入る。

Mart層: BIツールやSQLクエリから直接参照される最終テーブル。1つのMartモデルは「1つの分析テーマ」に対応させる。営業KPI設計で定義した指標体系を、Mart層のテーブル定義に直接マッピングするのが理想だ。

データ品質テストの組み込み

dbtのテスト機能を使い、変換パイプラインの出力品質を自動検証する。

# schema.yml
models:
  - name: mart_pipeline_summary
    columns:
      - name: deal_id
        tests:
          - unique
          - not_null
      - name: amount
        tests:
          - not_null
          - dbt_utils.accepted_range:
              min_value: 0

テストが失敗した場合のSlack通知を設定しておけば、データ品質の劣化を早期に検知できる。CRMのデータ品質を入口で担保し、変換パイプラインのテストで出口を担保する——この2段構えがデータ基盤の信頼性を決定する。

リバースETL——分析結果を現場に届ける

リバースETLは、営業データパイプラインの「最後の1マイル」だ。DWHで算出した分析結果やスコアを、営業担当者が日常的に使うCRM・MA・Slackに書き戻す仕組みである。

なぜリバースETLが必要なのか

多くの組織はフォワードパイプライン（Source → DWH）と変換パイプライン（DWH内部）までは構築する。しかし、分析結果がダッシュボード上に留まり、営業の現場アクションに反映されないケースが非常に多い。

たとえば以下のようなユースケースを考えてほしい。

DWHで算出したリードスコアをHubSpotのコンタクトプロパティに書き戻し、スコア順にフォロー優先度を自動設定する
「過去30日間で3回以上Webサイトを訪問したが商談化していないリード」をCRMのリストとして自動生成する
解約リスクスコアが閾値を超えた顧客をSlackチャンネルに自動通知する
DWHで統合したセグメント情報をMAツールに同期し、パーソナライズドメールの配信条件に使う

これらはすべて「DWHの分析結果を業務ツールに戻す」フローであり、リバースETLなしには実現できない。リバースETLは、データの民主化と営業アクションの直結を実現する最後のピースだ。

リバースETLツールの選定

リバースETLの主要ツールは以下の3つである。

Census: リバースETLのパイオニア。DWHからCRM・MA・広告プラットフォームへの同期に特化しており、HubSpot・Salesforceとの連携が安定している。SQLまたはdbtモデルを直接データソースとして指定でき、「DWHのMart層 → CRMプロパティ」のマッピングがGUIで完結する。

Hightouch: Censusと並ぶ主要プレイヤー。Audience機能でセグメントの定義と配信が一体化しており、マーケティングチームとの協業に強い。60以上のデスティネーション（書き込み先）に対応する。

Polytonus: 統合されたELT＋リバースETLプラットフォーム。フォワードとリバースを1つのツールで管理したい場合に候補になる。

50名以下の営業組織であれば、Censusの無料プラン（月間レコード数制限あり）から始めるのが合理的だ。リバースETLの効果を検証してからスケールアップすればよい。

リバースETL設計の原則

リバースETLを設計する際の原則は3つある。

Mart層だけを書き戻す: Raw層やStaging層のデータを直接業務ツールに同期してはならない。変換・品質検証済みのMart層のデータのみを同期対象にする。

べき等性を担保する: 同じデータを複数回書き戻しても結果が変わらない設計にする。「UPDATE」ベースの同期（既存レコードの特定フィールドを上書き）を基本とし、「INSERT」ベースの同期（新規レコード作成）は慎重に行う。

同期頻度を適切に設定する: リードスコアの更新は日次で十分なケースが多い。「リアルタイムに書き戻したい」衝動に駆られるが、CRM側のAPIレートリミットやデータ整合性を考慮し、適切な頻度を選ぶ。

パイプラインの監視とエラーハンドリング

パイプラインは「動いて当たり前」が期待される。障害が起きたときに素早く検知・復旧できる運用設計が不可欠だ。

モニタリングの3軸

鮮度（Freshness）: データが期待通りの時刻に更新されているか。DWHのテーブルの最終更新タイムスタンプを定期的にチェックし、閾値を超えたらアラートを発火する。

件数（Volume）: 同期されるレコード数が前日比で大きく変動していないか。急激な減少はパイプライン障害、急激な増加は重複データの流入を示唆する。

品質（Quality）: dbtテストの成功率、NULL率、一意性制約違反の件数。品質メトリクスをダッシュボード化し、週次でレビューする。

エラー発生時のフロー

パイプライン障害が発生した場合のエスカレーションフローを事前に定義しておく。

自動リトライ: 一時的なAPI障害やネットワークエラーは、ELTツールの自動リトライ機能で対応する。多くのツールは3回程度のリトライを標準で実装している
Slack通知: リトライでも復旧しない場合、Slackの専用チャンネルにアラートを送る。通知にはエラー内容・影響範囲・該当パイプラインへのリンクを含める
手動対応: GTMエンジニアがエラーの原因を調査し、修正・再実行する。原因と対応をログに記録し、同様のエラーの再発を防ぐ

「データが来ていない」ことに営業マネージャーが気づいてから対応するのでは遅い。モニタリングの自動化は、パイプライン構築と同等の優先度で取り組むべきだ。

営業データパイプラインは、フォワード（Source → DWH）・変換（DWH内部）・リバース（DWH → 業務ツール）の3層で構成される。ELTでデータを集め、dbtで変換し、リバースETLで現場に届ける——この一連のフローが回って初めて、営業データ基盤は「使われる基盤」になる。まずはCRMからDWHへのELTパイプラインを1本構築し、SQLで1つのクエリを書くところから始めてほしい。その小さなパイプラインが、データドリブンな営業組織への起点になる。パイプラインで集約した顧客データを統合的に管理・活用する基盤についてはカスタマーデータプラットフォーム（CDP）活用ガイドも合わせて参照してほしい。RevOpsのデータ品質管理についてはRevOpsデータ品質ガイドも合わせて参照することで、パイプライン全体の品質保証設計が深まる。

参考文献

dbt Labs「What is dbt?」https://docs.getdbt.com/docs/introduction
Airbyte「Open-Source ELT Platform」https://docs.airbyte.com/
Fivetran「ELT vs ETL: What’s the Difference?」https://www.fivetran.com/blog/elt-vs-etl
Census「What is Reverse ETL?」https://www.getcensus.com/blog/what-is-reverse-etl
Hightouch「Reverse ETL Guide」https://hightouch.com/blog/reverse-etl

データパイプラインとは何ですか？

データパイプラインとは、データソース（CRM・MAなど）からデータを抽出し、変換・統合した上でデータウェアハウスやBIツールに格納する一連の自動化されたデータフローです。営業領域では、商談データ・活動データ・リードデータなどを統合し、分析可能な状態にするための基盤技術です。

ETLとELTの違いは何ですか？

ETLはデータをDWHに格納する前に変換するパターンで、ELTは生データをDWHに格納してからDWH上で変換するパターンです。クラウドDWHの処理能力向上により、ELTの方が柔軟性とコスト面で有利な場面が増えており、営業データ基盤ではELTが主流になっています。

比較表：ETL vs ELT — 営業データ基盤での比較

営業データ基盤におけるETLとELTの設計思想・運用面の違いを記事本文の記述に沿って整理する。

比較軸	ETL	ELT
処理順序	Extract → Transform → Load（中間サーバーで変換後にDWHへ格納）	Extract → Load → Transform（生データをDWHにロード後に変換）
変換ロジックの管理	ETLツール固有の形式に閉じ込められ、バージョン管理やテストが容易でない	SQLで完結し、dbtでGit管理・テスト・ドキュメント生成を自動化できる
生データの扱い	変換後のデータのみがDWHに格納され、後から生データに遡れない	Raw層に生データが残り、変換ロジックを変更しても再取得が不要
スケーラビリティ	中間サーバーの処理能力がボトルネックになり、データ量増加に対応しにくい	DWHのコンピュートリソースを自在にスケールでき、データ量増加に対応しやすい
適合する時代背景	オンプレミスDWHが主流でDWHの処理能力とストレージが高価だった時代	BigQueryやSnowflake等のクラウドDWHが低コストで高い処理能力を提供する現在

よくある質問

Qデータパイプラインとは何ですか？

QETLとELTの違いは何ですか？

QリバースETLとは何ですか？

リバースETLとは、データウェアハウスで加工・統合したデータをCRM・MA・Slackなどの業務ツールに書き戻す仕組みです。たとえばDWHで算出したリードスコアをHubSpotのプロパティに自動反映する、といった用途に使います。Census、Hightouch、Polytorusが代表的なツールです。

Q営業データパイプラインの構築にどのくらいの期間がかかりますか？

最小構成（CRM→DWH→BIツールの片方向パイプライン）であれば1〜2週間で構築可能です。リバースETLやリアルタイム連携を含む双方向パイプラインは4〜6週間が目安です。Airbyte＋dbt＋Censusの組み合わせなら、既製コネクタで大半のデータソースをカバーできます。

GTMエンジニアデータパイプライン ETL リバースETL

Related Services

SFA/CRM設計・導入

データが活きるSFA/CRM構造を設計し、営業推進の基盤を作る。

↗

GTMエンジニアリング

営業推進の自動化・AI活用・ツール連携をまるごと設計・実装。

↗