営業データ基盤構築|GTMエンジニアが設計するデータアーキテクチャ
営業組織のデータ基盤をゼロから設計する方法を解説。データウェアハウス構築、ETLパイプライン、CRM連携、BIダッシュボードまで、GTMエンジニアが主導するデータアーキテクチャの全体像を体系的にまとめた。
渡邊悠介
営業データ基盤とは、CRM・MA・CS・BIなど営業活動に関わるすべてのデータを統合し、意思決定に使える状態に整えるデータアーキテクチャのことだ。多くの営業組織は「CRMを導入すればデータ活用できる」と考えるが、現実はそう単純ではない。CRMはあくまで業務データの記録システムであり、マーケティングデータ、カスタマーサクセスデータ、プロダクト利用データと統合して初めて、営業の意思決定を支える基盤になる。本記事では、GTMエンジニアがゼロからデータ基盤を設計・構築する方法を、アーキテクチャの全体像からETLパイプライン、運用設計まで体系的に解説する。
なぜ営業組織にデータ基盤が必要なのか
結論から言えば、営業データ基盤がなければ「正確な現状把握」と「再現可能な意思決定」のどちらも実現できない。
多くの営業組織が抱える問題はツールのサイロ化だ。CRMにはパイプラインデータ、MAツールにはリードの行動データ、CSツールにはチャーンデータ、BIツールには売上データ——それぞれが独立して存在し、横断的な分析ができない。「MQLからSQLへの転換率を、リードソース別×業界別でクロス分析したい」と思っても、データが異なるツールに散在していればExcelで手作業で突き合わせるしかない。
この問題を解決するのがデータ基盤であり、その設計を主導するのがGTMエンジニアの中核的な仕事だ。営業データ分析の基本で述べた分析手法を実行に移すには、まずデータが統合された基盤が必要になる。
データ基盤がもたらす具体的な価値は3つある。
- Single Source of Truth(唯一の真実): すべてのデータが一箇所に集約され、「数字が合わない」問題が消える
- 分析の即時性: 新しい問いが生まれたとき、SQLを書くだけで答えが出る状態になる
- 自動化の土台: リードスコアリングや営業プロセスの自動化は、統合されたデータ基盤の上で初めて機能する
営業データ基盤のアーキテクチャ全体像
営業データ基盤のアーキテクチャは、4つのレイヤーで構成される。各レイヤーの役割を明確に分離することが、保守性と拡張性を両立させるための設計原則だ。
データソースレイヤー(Source)
営業活動に関わるすべてのシステムがデータソースになる。典型的な構成は以下の通りである。
- CRM: HubSpot、Salesforce — 商談・コンタクト・会社データ
- MAツール: HubSpot Marketing、Marketo、Pardot — リードの行動データ、キャンペーン成果
- CSツール: Gainsight、HubSpot Service — チケット、NPS、チャーンデータ
- コミュニケーション: Slack、メール、Zoom/tldv — 商談録画、活動量データ
- プロダクト: 自社プロダクトの利用ログ — PQL(Product Qualified Lead)の判定に使用
- 外部データ: データエンリッチメントツール(Clearbit、Clay等)— 企業属性・テクノグラフィックス
CRMデータ設計が各ツール内部のデータ構造を最適化するのに対し、データ基盤はツール間のデータフローを設計する。両者は補完関係にある。
収集・統合レイヤー(Ingestion / ETL)
データソースからデータを抽出し、変換して格納する。このレイヤーの設計がデータ基盤の生命線だ。詳細は次のセクションで解説する。
ストレージレイヤー(Storage / DWH)
変換されたデータを格納するデータウェアハウス(DWH)。営業データ基盤で採用されるDWHの主な選択肢は以下の通り。
- BigQuery: Google Cloud。従量課金で小規模から始めやすい。SQLベースで学習コストが低い
- Snowflake: マルチクラウド対応。コンピュートとストレージの分離でコスト最適化が容易
- Amazon Redshift: AWS環境に統合。大規模データに強いが初期設定はやや複雑
- DuckDB / MotherDuck: 軽量DWH。10〜50名の営業組織なら十分な処理能力を持ち、コストが極めて低い
50名以下の営業組織であれば、BigQueryの無料枠またはDuckDBで十分に始められる。「大規模なDWHを最初から構築しなければ」という思い込みは不要だ。
活用レイヤー(Consumption)
格納されたデータを分析・可視化・自動化に活用するレイヤー。BIツール(Looker、Tableau、Metabase)でのダッシュボード構築、SQLによる営業企画分析、機械学習モデルへのデータ供給がここに含まれる。
ETL/ELTパイプラインの設計
データ基盤の中核はETL(Extract → Transform → Load)またはELT(Extract → Load → Transform)パイプラインだ。営業データ基盤では、ELTアプローチを推奨する。理由は、まず生データをDWHにロードし、DWH上で変換を行う方が柔軟性が高く、変換ロジックの修正・追加が容易だからだ。
Extract(抽出)
各データソースからのデータ抽出には、専用のデータ連携ツールを使うのが効率的である。
- Fivetran: 300以上のコネクタ。HubSpot・Salesforceとの接続が特に安定している
- Airbyte: オープンソース。セルフホストでコストを抑えられる。コネクタのカスタマイズが可能
- Stitch: Talend傘下。シンプルな構成で小規模に適する
自前でAPIを叩いてデータを取得するスクリプトを書くこともできるが、スキーマ変更への追従、エラーハンドリング、差分同期の実装コストを考えると、既存ツールを使う方が圧倒的に効率が良い。API連携を自前で実装するのは、既存コネクタが存在しないデータソースに限定すべきだ。
Load(格納)
ELTでは、抽出したデータをそのままDWHにロードする。このとき重要なのは以下の設計方針だ。
- Raw層(生データ)をそのまま保持する: ソースシステムのデータ構造をそのまま格納する。変換前のデータを残すことで、変換ロジックの修正時にソースからの再取得が不要になる
- 追記型(Append)とスナップショットの使い分け: イベントデータ(活動ログ等)は追記型、マスターデータ(コンタクト情報等)はスナップショットまたはSCD Type 2で履歴管理する
- 命名規則:
raw_hubspot_deals、raw_salesforce_opportunitiesのようにソースシステム名を含める
Transform(変換)
DWH上でのデータ変換は、dbt(data build tool) を使って管理するのがベストプラクティスだ。dbtを使うことで、SQL文による変換ロジックのバージョン管理、テスト、ドキュメント生成が一元化できる。
変換のレイヤリングは3段階で設計する。
- Staging層: Raw層のデータを軽く整形する。カラム名の統一、型変換、NULL処理
- Intermediate層: ビジネスロジックの適用。リードソースの分類統合、ステージ遷移の計算、コホート定義
- Mart層: 分析・BI向けの最終テーブル。
mart_pipeline_summary、mart_lead_conversion、mart_rep_performanceなど、分析テーマごとにテーブルを作成する
この3層構造により、変換ロジックの変更がMart層に閉じ、Raw層やStaging層に影響しない。新しい分析要件が出たとき、Mart層にテーブルを追加するだけで対応できる。
データモデリング——営業ドメインの設計パターン
データ基盤における「データモデリング」とは、DWH上のテーブル設計のことだ。CRMのデータ設計がソースシステム上の設計であるのに対し、ここでの設計は分析に最適化された構造を作る行為である。
営業データ基盤で頻出するデータモデルのパターンを紹介する。
ファネル分析モデル
マーケティングから営業への引き渡し、そしてクロージングまでのファネルを一気通貫で追跡するモデルだ。
- リード → MQL → SQL → 商談化 → 受注 の各ステージ遷移日時を1レコードに集約する
- ステージ間の滞留日数、転換率をMart層で計算する
- リードスコアリングの精度検証にも使える
パイプライン履歴モデル
パイプラインの「ある時点での状態」を再現するためのモデルだ。商談のステージ・金額・受注予定日は日々変動するが、CRMは最新状態しか持たないことが多い。スナップショットを日次で取得し、「先月末時点のパイプライン総額」や「今月に入って金額が減少した商談」を正確に分析できるようにする。
営業活動量モデル
営業担当者の活動(メール送信数、コール数、商談数、提案数)を日次で集計し、成果指標との相関分析を可能にするモデル。営業KPIの設計と密接に関連し、マネジメントの意思決定に直結するデータを提供する。
BI・ダッシュボードとの接続設計
データ基盤は「作って満足」では意味がない。営業マネージャーや経営層が日常的に参照するダッシュボードに接続して初めて価値を発揮する。
BIツールの選択
営業データ基盤と組み合わせるBIツールの選択肢は以下の通り。
- Looker / Looker Studio: BigQueryとの親和性が高い。LookMLでデータモデルを定義でき、セルフサービスBIが可能
- Tableau: ビジュアルの表現力が圧倒的。大規模組織のエンタープライズ利用に強い
- Metabase: オープンソース。セルフホストで無料運用可能。SQLが書ければ小〜中規模に最適
- Preset: Apache Supersetのマネージドサービス。コストパフォーマンスが高い
50名以下の営業組織ならMetabase、Google Workspace環境が中心ならLooker Studio、本格的なBI環境を構築するならLookerかTableauという選び方になる。
ダッシュボード設計の原則
ダッシュボードは「見る人」と「判断」から逆算して設計する。
- 経営層向け: ARR推移、受注率トレンド、パイプラインカバレッジ比率。月次・四半期の粒度
- 営業マネージャー向け: チーム別パイプライン、営業担当者別の活動量と成果、ステージ別滞留分析。週次の粒度
- 営業担当者向け: 自分の商談リスト、次のアクション、目標進捗。日次の粒度
ダッシュボードの数は最小限に留める。「全部盛り」のダッシュボードは誰にも見られない。1つのダッシュボードは「1つの問い」に答える設計にすべきだ。
データ品質とガバナンスの運用設計
データ基盤は構築して終わりではなく、運用フェーズのガバナンスが品質を決定する。CRMのデータ品質と同様に、データ基盤にも品質を維持する仕組みが必要だ。
データ品質チェックの自動化
dbtのテスト機能を活用して、以下の品質チェックを毎日自動実行する。
- 一意性テスト: 主キーに重複がないか
- NULL制約テスト: 必須カラムにNULLが含まれていないか
- 参照整合性テスト: 外部キーが参照先のテーブルに存在するか
- 鮮度テスト: 最新データの取得日時が期待どおりか(パイプライン障害の早期検知)
- 異常値テスト: 商談金額がマイナス、受注日が未来日など明らかなデータ異常がないか
品質チェックに失敗した場合はSlackに自動通知し、GTMエンジニアが即座に対応する運用フローを構築する。
アクセス制御とデータカタログ
データ基盤の利用者が増えるにつれて、「誰がどのデータにアクセスできるか」の管理が重要になる。
- ロールベースのアクセス制御: 経営層はMart層のみ、GTMエンジニアは全層にアクセス可能、営業マネージャーはBIダッシュボード経由のみ
- データカタログ: 各テーブル・カラムの定義、更新頻度、データソースを一覧化する。dbtのドキュメント機能で自動生成できる
「このカラムは何を意味するのか」がわからないデータは使われない。カタログの整備は地味だが、データ基盤の利用率を決定する要因だ。
まとめ——データ基盤は営業組織のインフラである
営業データ基盤は、個別のツール最適化ではなく、組織全体のデータフローを設計するインフラ構築だ。本記事で解説した設計の全体像を整理する。
- アーキテクチャ設計: Source → Ingestion → Storage → Consumptionの4レイヤーで構成する
- ELTパイプライン: Fivetran/Airbyteでデータを抽出し、DWHに格納し、dbtで変換する
- データモデリング: ファネル分析、パイプライン履歴、活動量の3つのパターンを基盤として設計する
- BI接続: ダッシュボードは「見る人×判断」から逆算し、最小限の数で最大の効果を出す
- 品質・ガバナンス: 自動テスト、アクセス制御、データカタログで運用フェーズの品質を維持する
この設計を主導するのがGTMエンジニアだ。HubSpotとSalesforceの選定はデータソースレイヤーの一部に過ぎず、真に営業を変えるのはデータ基盤全体のアーキテクチャ設計である。CRM単体の改善に留まらず、組織全体のデータインフラを構想できるかどうかが、GTMエンジニアとしての価値を分ける。
参考文献
- dbt Labs「What is dbt?」 https://docs.getdbt.com/docs/introduction
- Google Cloud「BigQuery ドキュメント」 https://cloud.google.com/bigquery/docs
- Fivetran「ELT vs ETL」 https://www.fivetran.com/blog/elt-vs-etl
- Airbyte「Open-Source Data Integration」 https://docs.airbyte.com/
- Snowflake「Data Warehousing Best Practices」 https://docs.snowflake.com/en/user-guide/warehouses-overview
よくある質問
- Q営業データ基盤とは何ですか?
- CRM、MA、CS、BIなど営業活動に関わる複数のツールからデータを収集・統合・変換し、一元的に分析可能な状態にするためのデータアーキテクチャです。データウェアハウスやETLパイプラインを中心に構築し、営業の意思決定をデータで支える基盤となります。
- Q営業データ基盤の構築にはどのくらいの期間がかかりますか?
- 営業組織の規模とツール数によりますが、10〜50名規模の組織であれば最小構成で2〜4週間、本格的なデータウェアハウスを含む構成で2〜3ヶ月が目安です。まずCRMとBIの接続から始め、段階的に拡張する方法を推奨します。
- QデータウェアハウスとCRMの違いは何ですか?
- CRMは営業活動の記録・管理を目的とした業務システムであり、データウェアハウスは複数システムのデータを統合し分析に最適化した保管庫です。CRMのデータだけでは営業の全体像は見えず、マーケティング・CS・プロダクトのデータと統合して初めて意思決定に使えるデータ基盤になります。
- Q小規模な営業チームでもデータ基盤は必要ですか?
- 必要です。むしろ小規模なうちに設計しておく方がコストが低い。10名以下でもCRMとスプレッドシートのデータが分断していれば、パイプラインの正確な把握はできません。最小構成(CRM+BI接続)から始めれば、数日で基盤の第一歩を構築できます。
渡邊悠介
代表取締役 / 株式会社Hibito
株式会社Hibito代表取締役。営業企画×AIで営業組織の変革を推進。組織コーチング・個人コーチングを通じて、全ての人が自分自身の未来を自分の手で描ける社会の実現を目指す。