結論
この記事が役立つ状況
なぜ営業組織にデータ基盤が必要なのか
営業データ基盤のアーキテクチャ全体像
データソースレイヤー（Source）
収集・統合レイヤー（Ingestion / ETL）
ストレージレイヤー（Storage / DWH）
活用レイヤー（Consumption）
ETL/ELTパイプラインの設計
Extract（抽出）
Load（格納）
Transform（変換）
データモデリング——営業ドメインの設計パターン
ファネル分析モデル
パイプライン履歴モデル
営業活動量モデル
BI・ダッシュボードとの接続設計
BIツールの選択
ダッシュボード設計の原則
データ品質とガバナンスの運用設計
データ品質チェックの自動化
アクセス制御とデータカタログ
営業データ基盤とは何ですか？
営業データ基盤の構築にはどのくらいの期間がかかりますか？
まとめ——データ基盤は営業組織のインフラである
参考文献

営業データ基盤構築｜GTMエンジニアが設計するデータアーキテクチャ

営業組織のデータ基盤をゼロから設計する方法を解説。データウェアハウス構築、ETLパイプライン、CRM連携、BIダッシュボードまで、GTMエンジニアが主導するデータアーキテクチャの全体像を体系的にまとめた。

渡邊悠介

2026年4月2日

結論

営業データ基盤はCRM・MA・CS・BIを統合し意思決定を可能にするアーキテクチャ
4レイヤー構成（Source/Ingestion/Storage/Consumption）でELTを採用するのが推奨
50名以下ならBigQuery無料枠やDuckDBで十分に始められる

この記事が役立つ状況

対象者: GTMエンジニア / 営業企画担当 / RevOpsリーダー
直面している課題: CRM・MA・CS・BIツールがサイロ化し、横断的な分析や再現可能な意思決定ができない
前提条件: 営業活動に関わる複数SaaS（CRM/MA/CS等）が既に稼働しており、DWH選定とETL/ELT設計を主導できる体制がある

このノウハウをAIで実行するプロンプト（クリックで開く）

以下をコピーしてLLMに貼り付け、[ ] 内を自社の情報に書き換えてください。

あなたはGTMエンジニアです。以下の条件で営業データ基盤のアーキテクチャを設計してください。

【現状】
- 営業組織規模: [人数]
- 利用中のCRM: [HubSpot/Salesforce等]
- 利用中のMAツール: [ツール名]
- 利用中のCSツール: [ツール名]
- その他データソース: [プロダクトログ/外部エンリッチメント等]

【課題】
- 解決したい分析テーマ: [例:MQL→SQL転換率をリードソース別×業界別で分析]
- 既存の障害: [データのサイロ化/手作業突合等]

【制約】
- 予算規模: [月額]
- データエンジニアリング体制: [人数/スキル]

4レイヤー（Source/Ingestion/Storage/Consumption）ごとに採用すべきツールと、ELTパイプラインの設計方針を提案してください。

営業データ基盤とは、CRM・MA・CS・BIなど営業活動に関わるすべてのデータを統合し、意思決定に使える状態に整えるデータアーキテクチャのことだ。多くの営業組織は「CRMを導入すればデータ活用できる」と考えるが、現実はそう単純ではない。CRMはあくまで業務データの記録システムであり、マーケティングデータ、カスタマーサクセスデータ、プロダクト利用データと統合して初めて、営業の意思決定を支える基盤になる。本記事では、GTMエンジニアがゼロからデータ基盤を設計・構築する方法を、アーキテクチャの全体像からETLパイプライン、運用設計まで体系的に解説する。

なぜ営業組織にデータ基盤が必要なのか

結論から言えば、営業データ基盤がなければ「正確な現状把握」と「再現可能な意思決定」のどちらも実現できない。

多くの営業組織が抱える問題はツールのサイロ化だ。CRMにはパイプラインデータ、MAツールにはリードの行動データ、CSツールにはチャーンデータ、BIツールには売上データ——それぞれが独立して存在し、横断的な分析ができない。「MQLからSQLへの転換率を、リードソース別×業界別でクロス分析したい」と思っても、データが異なるツールに散在していればExcelで手作業で突き合わせるしかない。

この問題を解決するのがデータ基盤であり、その設計を主導するのがGTMエンジニアの中核的な仕事だ。営業データ分析の基本で述べた分析手法を実行に移すには、まずデータが統合された基盤が必要になる。

データ基盤がもたらす具体的な価値は3つある。

Single Source of Truth（唯一の真実）: すべてのデータが一箇所に集約され、「数字が合わない」問題が消える
分析の即時性: 新しい問いが生まれたとき、SQLを書くだけで答えが出る状態になる
自動化の土台: リードスコアリングや営業プロセスの自動化は、統合されたデータ基盤の上で初めて機能する

営業データ基盤のアーキテクチャ全体像

営業データ基盤のアーキテクチャは、4つのレイヤーで構成される。各レイヤーの役割を明確に分離することが、保守性と拡張性を両立させるための設計原則だ。

データソースレイヤー（Source）

営業活動に関わるすべてのシステムがデータソースになる。典型的な構成は以下の通りである。

CRM: HubSpot、Salesforce — 商談・コンタクト・会社データ
MAツール: HubSpot Marketing、Marketo、Pardot — リードの行動データ、キャンペーン成果
CSツール: Gainsight、HubSpot Service — チケット、NPS、チャーンデータ
コミュニケーション: Slack、メール、Zoom/tldv — 商談録画、活動量データ
プロダクト: 自社プロダクトの利用ログ — PQL（Product Qualified Lead）の判定に使用
外部データ: データエンリッチメントツール（Clearbit、Clay等）— 企業属性・テクノグラフィックス

CRMデータ設計が各ツール内部のデータ構造を最適化するのに対し、データ基盤はツール間のデータフローを設計する。両者は補完関係にある。

収集・統合レイヤー（Ingestion / ETL）

データソースからデータを抽出し、変換して格納する。このレイヤーの設計がデータ基盤の生命線だ。詳細は次のセクションで解説する。

ストレージレイヤー（Storage / DWH）

変換されたデータを格納するデータウェアハウス（DWH）。営業データ基盤で採用されるDWHの主な選択肢は以下の通り。

BigQuery: Google Cloud。従量課金で小規模から始めやすい。SQLベースで学習コストが低い
Snowflake: マルチクラウド対応。コンピュートとストレージの分離でコスト最適化が容易
Amazon Redshift: AWS環境に統合。大規模データに強いが初期設定はやや複雑
DuckDB / MotherDuck: 軽量DWH。10〜50名の営業組織なら十分な処理能力を持ち、コストが極めて低い

50名以下の営業組織であれば、BigQueryの無料枠またはDuckDBで十分に始められる。「大規模なDWHを最初から構築しなければ」という思い込みは不要だ。

活用レイヤー（Consumption）

格納されたデータを分析・可視化・自動化に活用するレイヤー。BIツール（Looker、Tableau、Metabase）でのダッシュボード構築、SQLによる営業企画分析、機械学習モデルへのデータ供給がここに含まれる。

ETL/ELTパイプラインの設計

データ基盤の中核はETL（Extract → Transform → Load）またはELT（Extract → Load → Transform）パイプラインだ。営業データ基盤では、ELTアプローチを推奨する。理由は、まず生データをDWHにロードし、DWH上で変換を行う方が柔軟性が高く、変換ロジックの修正・追加が容易だからだ。

Extract（抽出）

各データソースからのデータ抽出には、専用のデータ連携ツールを使うのが効率的である。

Fivetran: 300以上のコネクタ。HubSpot・Salesforceとの接続が特に安定している
Airbyte: オープンソース。セルフホストでコストを抑えられる。コネクタのカスタマイズが可能
Stitch: Talend傘下。シンプルな構成で小規模に適する

自前でAPIを叩いてデータを取得するスクリプトを書くこともできるが、スキーマ変更への追従、エラーハンドリング、差分同期の実装コストを考えると、既存ツールを使う方が圧倒的に効率が良い。API連携を自前で実装するのは、既存コネクタが存在しないデータソースに限定すべきだ。

Load（格納）

ELTでは、抽出したデータをそのままDWHにロードする。このとき重要なのは以下の設計方針だ。

Raw層（生データ）をそのまま保持する: ソースシステムのデータ構造をそのまま格納する。変換前のデータを残すことで、変換ロジックの修正時にソースからの再取得が不要になる
追記型（Append）とスナップショットの使い分け: イベントデータ（活動ログ等）は追記型、マスターデータ（コンタクト情報等）はスナップショットまたはSCD Type 2で履歴管理する
命名規則: raw_hubspot_deals、raw_salesforce_opportunities のようにソースシステム名を含める

Transform（変換）

DWH上でのデータ変換は、dbt（data build tool）を使って管理するのがベストプラクティスだ。dbtを使うことで、SQL文による変換ロジックのバージョン管理、テスト、ドキュメント生成が一元化できる。

変換のレイヤリングは3段階で設計する。

Staging層: Raw層のデータを軽く整形する。カラム名の統一、型変換、NULL処理
Intermediate層: ビジネスロジックの適用。リードソースの分類統合、ステージ遷移の計算、コホート定義
Mart層: 分析・BI向けの最終テーブル。mart_pipeline_summary、mart_lead_conversion、mart_rep_performance など、分析テーマごとにテーブルを作成する

この3層構造により、変換ロジックの変更がMart層に閉じ、Raw層やStaging層に影響しない。新しい分析要件が出たとき、Mart層にテーブルを追加するだけで対応できる。

データモデリング——営業ドメインの設計パターン

データ基盤における「データモデリング」とは、DWH上のテーブル設計のことだ。CRMのデータ設計がソースシステム上の設計であるのに対し、ここでの設計は分析に最適化された構造を作る行為である。

営業データ基盤で頻出するデータモデルのパターンを紹介する。

ファネル分析モデル

マーケティングから営業への引き渡し、そしてクロージングまでのファネルを一気通貫で追跡するモデルだ。

リード → MQL → SQL → 商談化 → 受注 の各ステージ遷移日時を1レコードに集約する
ステージ間の滞留日数、転換率をMart層で計算する
リードスコアリングの精度検証にも使える

パイプライン履歴モデル

パイプラインの「ある時点での状態」を再現するためのモデルだ。商談のステージ・金額・受注予定日は日々変動するが、CRMは最新状態しか持たないことが多い。スナップショットを日次で取得し、「先月末時点のパイプライン総額」や「今月に入って金額が減少した商談」を正確に分析できるようにする。

営業活動量モデル

営業担当者の活動（メール送信数、コール数、商談数、提案数）を日次で集計し、成果指標との相関分析を可能にするモデル。営業KPIの設計と密接に関連し、マネジメントの意思決定に直結するデータを提供する。

BI・ダッシュボードとの接続設計

データ基盤は「作って満足」では意味がない。営業マネージャーや経営層が日常的に参照するダッシュボードに接続して初めて価値を発揮する。

BIツールの選択

営業データ基盤と組み合わせるBIツールの選択肢は以下の通り。

Looker / Looker Studio: BigQueryとの親和性が高い。LookMLでデータモデルを定義でき、セルフサービスBIが可能
Tableau: ビジュアルの表現力が圧倒的。大規模組織のエンタープライズ利用に強い
Metabase: オープンソース。セルフホストで無料運用可能。SQLが書ければ小〜中規模に最適
Preset: Apache Supersetのマネージドサービス。コストパフォーマンスが高い

50名以下の営業組織ならMetabase、Google Workspace環境が中心ならLooker Studio、本格的なBI環境を構築するならLookerかTableauという選び方になる。

ダッシュボード設計の原則

ダッシュボードは「見る人」と「判断」から逆算して設計する。

経営層向け: ARR推移、受注率トレンド、パイプラインカバレッジ比率。月次・四半期の粒度
営業マネージャー向け: チーム別パイプライン、営業担当者別の活動量と成果、ステージ別滞留分析。週次の粒度
営業担当者向け: 自分の商談リスト、次のアクション、目標進捗。日次の粒度

ダッシュボードの数は最小限に留める。「全部盛り」のダッシュボードは誰にも見られない。1つのダッシュボードは「1つの問い」に答える設計にすべきだ。

データ品質とガバナンスの運用設計

データ基盤は構築して終わりではなく、運用フェーズのガバナンスが品質を決定する。CRMのデータ品質と同様に、データ基盤にも品質を維持する仕組みが必要だ。

データ品質チェックの自動化

dbtのテスト機能を活用して、以下の品質チェックを毎日自動実行する。

一意性テスト: 主キーに重複がないか
NULL制約テスト: 必須カラムにNULLが含まれていないか
参照整合性テスト: 外部キーが参照先のテーブルに存在するか
鮮度テスト: 最新データの取得日時が期待どおりか（パイプライン障害の早期検知）
異常値テスト: 商談金額がマイナス、受注日が未来日など明らかなデータ異常がないか

品質チェックに失敗した場合はSlackに自動通知し、GTMエンジニアが即座に対応する運用フローを構築する。

アクセス制御とデータカタログ

データ基盤の利用者が増えるにつれて、「誰がどのデータにアクセスできるか」の管理が重要になる。

ロールベースのアクセス制御: 経営層はMart層のみ、GTMエンジニアは全層にアクセス可能、営業マネージャーはBIダッシュボード経由のみ
データカタログ: 各テーブル・カラムの定義、更新頻度、データソースを一覧化する。dbtのドキュメント機能で自動生成できる

「このカラムは何を意味するのか」がわからないデータは使われない。カタログの整備は地味だが、データ基盤の利用率を決定する要因だ。

営業データ基盤とは何ですか？

CRM、MA、CS、BIなど営業活動に関わる複数のツールからデータを収集・統合・変換し、一元的に分析可能な状態にするためのデータアーキテクチャです。データウェアハウスやETLパイプラインを中心に構築し、営業の意思決定をデータで支える基盤となります。

営業データ基盤の構築にはどのくらいの期間がかかりますか？

営業組織の規模とツール数によりますが、10〜50名規模の組織であれば最小構成で2〜4週間、本格的なデータウェアハウスを含む構成で2〜3ヶ月が目安です。まずCRMとBIの接続から始め、段階的に拡張する方法を推奨します。

まとめ——データ基盤は営業組織のインフラである

営業データ基盤は、個別のツール最適化ではなく、組織全体のデータフローを設計するインフラ構築だ。本記事で解説した設計の全体像を整理する。

アーキテクチャ設計: Source → Ingestion → Storage → Consumptionの4レイヤーで構成する
ELTパイプライン: Fivetran/Airbyteでデータを抽出し、DWHに格納し、dbtで変換する
データモデリング: ファネル分析、パイプライン履歴、活動量の3つのパターンを基盤として設計する
BI接続: ダッシュボードは「見る人×判断」から逆算し、最小限の数で最大の効果を出す
品質・ガバナンス: 自動テスト、アクセス制御、データカタログで運用フェーズの品質を維持する

この設計を主導するのがGTMエンジニアだ。HubSpotとSalesforceの選定はデータソースレイヤーの一部に過ぎず、真に営業を変えるのはデータ基盤全体のアーキテクチャ設計である。CRM単体の改善に留まらず、組織全体のデータインフラを構想できるかどうかが、GTMエンジニアとしての価値を分ける。RevOpsのデータ基盤設計も合わせて参照すると、収益プロセス全体を支えるデータアーキテクチャの全体像が理解できる。