データ収集方法：一次、二次、および2026ツール

投稿日時 May 14, 2026 執筆者 Mathis Curcio

データ収集方法は現在、奇妙な状況にある。教科書的な側面――一次資料と二次資料、定量的アプローチと定性的アプローチ――は、20年前とほぼ同じように見える。しかし、実装面は過去5年間で3回も再構築されている。Appleのインテリジェントトラッキング防止機能は、ウェブ分析の重要な部分を破壊した。Googleのプライバシーサンドボックスは、Topics APIがChromeのページ読み込みのわずか13%にしか達せず、サードパーティCookieがデフォルトで有効になったため、2025年4月にひっそりと廃止された。AIスクレイパーは、パブリッシャーが抑制できる速度よりも速く、パブリックウェブを食い尽くした。2026年にこのテーマについて執筆する人は、既存のツールキットを教えるか、2019年に機能したツールキットを教えるかのどちらかを選択することになる。この記事では前者を選択する。

データ収集方法とは実際にはどのようなものか

データ収集方法とは、特定の研究課題を目的とした情報を収集する手順のことです。この分野は2つの軸で分類されます。1つ目は一次データと二次データです。一次データは、自分の研究課題のために直接収集されるデータです。二次データは、既に存在するデータを再利用するものです。2つ目は定量的データと定性的データです。定量的データは、数値、カウント、評価、タイムスタンプなど、数えられる統計的なデータです。定性的データは、言葉、テーマ、観察、トランスクリプトなど、解釈的なデータです。実際の研究デザインでは、通常、意図的にこの2つを組み合わせます。1～5段階評価と自由記述式の「理由」を含むアンケートは、最も一般的な混合手法のツールです。

2026年に使用された主なデータ収集方法

7つの主要なデータ収集方法は、一次データ収集のほぼすべてを網羅しています。それぞれの方法には、強み、コストプロファイル、そして2026年版の標準ツールがあります。サンプリング方法（ランダムサンプリング、層化サンプリング、便宜サンプリング、クラスターサンプリング）は、収集されたデータが一般化できるかどうかを決定する設計上の選択肢として、これらの方法の下に位置づけられます。

方法	最適	典型的なツール	2026年アンカー
アンケート／質問票	スケール、評価、セグメンテーション	クアルトリクス、サーベイモンキー、タイプフォーム	オンラインが主流。モバイルファースト
インタビュー	深み、動機、例外的なケース	Zoom、Microsoft Teams + Otter.ai	非同期ツールの台頭
フォーカスグループ	グループダイナミクス、コンセプトテスト	思い出す、Discuss.io	1セッションあたり約5,000ドル～9,000ドル（Twilioの場合）
観察	実際の状況における行動	フィールドノート、ビデオ、画面録画	民族誌は生きているが、あまり人気がない
実験	因果推論	A/Bテストプラットフォーム（Optimizely、GrowthBook）	ホールドアウトの規律がより重要
文書／記録	既存の組織テキスト	SharePoint、サポートトランスクリプト	LLM支援分析は一般的
モバイルデータ収集	現地調査、接続性の低い作業	SurveyCTO、KoboToolbox	オフライン優先は依然として不可欠である

アンケート調査は依然として最も効果的な手段です。規模を拡大でき、セグメント分けも可能です。1万人に同じ質問をする唯一の現実的な方法と言えるでしょう。重要なのはプラットフォームではなく、質問の設計です。不適切な質問は、回答者がどうすることもできないノイズを生み出します。

インタビューは、深さの軸上に位置づけられます。構造化インタビューは、固定されたスクリプトを使用します。半構造化インタビューは、スクリプトを使用しますが、フォローアップも可能です。非構造化インタビューは、ガイド付きの会話のようなものです。20時間にわたる質の高いインタビューは、1,000人を対象としたアンケート調査と同様に、製品戦略を形成する上で役立ちます。証拠は全く異なりますが、意思決定は同じです。

フォーカスグループは、パッケージデザイン、ブランドへの反応、タブー視されがちな話題など、グループ主導型のテーマには依然として有効です。リモートワークの普及により1対1のインタビューが安価になったことで、フォーカスグループの利用は減少しました。フォーカスグループを進行する熟練したモデレーターは、1対1のインタビューでは見落とされる矛盾点を明らかにすることができます。Twilioによると、1セッションあたりの費用は5,000ドルから9,000ドルと見積もられており、そのため市場調査予算では、重要な意思決定のためにフォーカスグループが確保されています。

観察とは、自己申告による行動が嘘である場合に行う方法です。そして、ほとんどの場合、自己申告による行動は嘘です。民族誌学の伝統である参加観察は、費用がかかり時間もかかりますが、人々が実際にどのような行動をとっているかを文脈の中で捉える唯一の方法です。非参加観察は費用は安く済みますが、限界があります。

因果関係を主張する上で、実験は依然として最良の方法である。ウェブ製品のA/Bテスト、臨床現場における対照試験、ランダム割り当てが不可能な準実験などが挙げられる。しかし、ビジネスにおける実験の多くを失敗に導く要因は、サンプルサイズが小さいことと、テスト終了前に指標を覗き見してしまうことである。

文書や記録には、社内ログ、カスタマーサービスの記録、サポートチケット、販売メモなどが含まれます。最新のLLMワークフローにより、こうした生テキストの分析は5年前と比べてはるかに低コストで行えるようになりました。カスタマーエクスペリエンスチームは、長年見過ごしてきたチケットアーカイブを、再び主要な情報源として活用するようになっています。

モバイルデータ収集は、接続状況が不安定な現地調査、NGO活動、新興市場調査において重要です。SurveyCTOとKoboToolboxは、実績のあるプラットフォームです。オフラインファースト設計は、譲れない必須機能です。

二次データ収集方法および情報源

二次データは、この分野のもう一方の半分を占める。つまり、新規収集ではなく再利用である。二次データのソースは、オープンな政府データセット、統計機関、KantarやNielsenのシンジケートパネル、社内データレイク、POSアーカイブ、国勢調査データ、オープンウェブなど多岐にわたる。急成長分野はウェブスクレイピングだ。Bright DataやApifyは、価格情報、ブランドモニタリング、学術研究といった正当な用途で数十億ドル規模のビジネスを展開している。そして、AIトレーニングコーパスもますます増えている。

法的な基準もここで大きく変化した。2024年2月、FTCは、セキュリティツールを通じて閲覧データを収集し、Jumpshotという子会社を通じて再販したとして、アンチウイルスベンダーのAvastに1650万ドルの罰金を科した。同じ規制当局は、2024年1月にX-ModeとOutlogicに対し、機密性の高い位置情報データの販売を停止するよう命じた。これは前例のない措置だった。2023年には、Authors GuildとNew York Timesが、トレーニングデータの使用をめぐってOpenAIを提訴した。両訴訟は2026年現在も係争中である。二次的なデータ収集はかつては自由だったが、もはや自由ではない。

定量的データ収集と定性的データ収集

古典的な手法。定量的手法は、統計を実行できる数値を生成します。大規模な調査、A/B テスト、テレメトリイベント、トランザクションログなどです。統計的手法は、データを傾向、相関、信頼区間に分析します。定性的調査手法は、解釈する必要のあるテキストと意味を生成します。インタビュー、自由記述式の調査回答、民族誌的フィールドノートなどです。それぞれの側から収集されたデータは互いに補完し合います。最も有用な調査は、この 2 つを組み合わせたものです。ネットプロモータースコアは、追跡しやすい数値を提供します。それに付随する自由記述式の「なぜそのスコアを付けたのですか」は、数値が変動した理由を示します。どちらか一方だけを実行すると、ストーリーの半分を見逃すことになります。

実用的なルールが2つあります。回答のカテゴリーを事前に作成でき、尺度だけが必要な場合は、定量的アプローチが優先されます。しかし、何を探しているのかまだ明確に説明できない場合（これは多くの人が認めているよりもよくあることです）、まずは定性的アプローチから始めます。そして、定性的アプローチで明らかになったことを定量的アプローチで測定します。

2026年における企業のデータ収集方法

ビジネススタックにおけるデータ収集は、教科書的なイメージとは全く異なる。現代の企業が運用する業務のほとんどは、5つのレイヤーで構成されている。

層	関数	典型的なベンダー	2025-2026年アンカー
CRM	顧客記録（ファーストパーティデータ）	Salesforce、HubSpot、MS Dynamics 365	Salesforceは世界のCRM市場の約21%を占める。
ウェブ／アプリ分析	行動テレメトリー	GA4、Plausible、Adobe Analytics	GA4はUAのサポート終了後（2023年7月）にユニバーサル対応
サーバーサイドトラッキング	ITP後のファーストパーティ識別子	サーバーサイドGTM、RudderStack、Segment	Apple ITP後のデフォルトインフラストラクチャ
CDP	統合顧客プロファイル	Twilio Segment、Tealium、mParticle	市場規模 ~20億ドル (2024年) → 2028年までに~70億ドル
IoT / テレメトリ	デバイスイベント	AWS IoT、Azure IoT Hub	接続デバイス数：約188億台（2024年末時点）

CRMは、顧客ファーストパーティデータが格納される場所です。Salesforceは世界のCRM市場の約5分の1を占めています。HubSpotは中小企業セグメントをリードしています。Microsoft Dynamics 365は、既にMicrosoft 365を導入している企業内で強い存在感を示しています。また、CRMは規制対象データが最初に格納される場所でもあるため、GDPRの施行がCRMで頻繁に行われる理由でもあります。

2023年7月にUniversal Analyticsがサービス終了した後、 Webおよびアプリ分析はGoogle Analytics 4へと大きく移行した。プライバシー重視のチームはPlausibleまたはFathomを使用している。データ量が少ないほど、レポート機能も低下する。Adobe Analyticsは依然としてエンタープライズ市場を独占している。

サーバーサイドトラッキングは、過去3年間で最も議論されていない変化の一つです。AppleのITPとブラウザレベルのフィンガープリント保護によって、クライアントサイドのCookieは事実上機能しなくなりました。そのため、ベンダーはトラッキングレイヤーを自社ドメインの背後に移しました。SafariやFirefoxも、そこではIDを削除できません。サーバーサイドのGoogleタグマネージャーとRudderStackが、標準的な基盤となっています。

顧客データプラットフォーム（CDP）は、CRM、Web、アプリ、メールなどの記録を統合し、顧客ごとに1つのプロファイルを作成します。Statistaによると、CDP市場は2024年には約20億ドル規模で、2028年には70億ドルに達すると予測されています。Twilio Segment、Tealium、mParticleなどがこの分野を牽引しています。

IoTとテレメトリは、多くの記事が見落としがちな層ですが、決して見過ごしてはいけません。IoT Analyticsによると、2024年末時点で世界中で約188億台のIoTデバイスが接続されており、2030年までに400億台に達すると予測されています。これらのデバイスはすべて、エネルギー使用量、位置情報、温度、動き、占有状況など、何らかのデータを収集しています。2025年9月12日に施行されたEUデータ保護法は、これらのデバイスが生成するデータに対するユーザーのデータポータビリティ権を保障しています。

スタックの横には、2つの新しいカテゴリがあります。プライバシーサンドボックスが失敗した後、ゼロパーティデータが急増しました。これは、ユーザーがプリファレンスセンター、クイズ、プロファイルフィールドを通じて直接好みを自発的に提供するものです。ブランドは、クッキー後の未来が実際には到来しておらず、推測するよりも人々に尋ねる方が簡単かもしれないと気づきました。AIトレーニングコーパスは、現在、大規模収集の中で最も議論の的となっている形式です。2025年11月4日、英国高等裁判所は、Getty Images対Stability AIの訴訟で、AIモデルの重みは著作権、意匠、特許法の下で「コピー」ではないとの判決を下しました。Gettyは、裁判の途中で主要な侵害の主張をすでに取り下げていました。AIトレーニング収集はこのラウンドで僅差で勝利しました。

プライバシー、倫理、そして収集における法的最低基準

2026 年までに、債権回収業務を行うほとんどの企業にとって、3 つの法的レベルが重要になります。EU の GDPR、カリフォルニア州の CCPA および CPRA、そして連邦レベルでは、連邦プライバシー法がまだ制定されていないため消費者保護の役割を強く主張する FTC です。CMS Law の執行トラッカーによると、GDPR の累積罰金は 2024 年末までに 58 億 8000 万ユーロを超えました。Meta Ireland が 2023 年 5 月に違法な EU から米国へのデータ転送で受けた 12 億ユーロの罰金がその最上位にあります。そのすぐ下には、2022 年に子供のデータで受けた Instagram の 4 億 500 万ユーロの罰金があります。

カリフォルニア州の法執行は、金額面では少なくても、スピード感に優れている。同州の規制当局は、比較的小規模な事案を優先的に取り上げ、迅速に解決している。セフォラは2022年8月、個人情報のオプトアウトなしに販売したとして120万ドルを支払った。ドアダッシュも2024年2月、同様の違反で37万5000ドルの和解金を支払った。これらの事例は、「個人情報を販売しないでください」という意思表示が実際に効力を持つことを示しており、当局は世間の注目を集めるような大規模な情報漏洩よりも、日常的な情報漏洩を重視する傾向がある。

連邦レベルでは、FTC（連邦取引委員会）は2024年も精力的に活動した。Avastは2月に、自社のウイルス対策製品を通じて閲覧データを収集し、子会社を通じて再販したとして1650万ドルの罰金を支払った。1月には、X-ModeとOutlogicの両社が、機密性の高い位置情報データの販売を禁止する、前例のない命令を受けた。2022年10月のDrizlyに対する命令はさらに踏み込み、最高経営責任者個人を名指しすることで、情報漏洩への対応責任は企業だけでなく、トップの個人にも及ぶことを示した。

AIトレーニングデータの収集は、この問題のまだ発展途上の部分である。ニューヨーク・タイムズは2023年12月27日にOpenAIを提訴した。作家組合は3か月前の2023年9月に提訴しており、両訴訟は2026年時点でも係争中であった。その後、2025年11月4日、ゲッティ対スタビリティAI訴訟において、英国高等裁判所は権利保有者に対して不利な判決を下した。裁判所は、AIモデルの重みは著作権・意匠・特許法の下で「コピー」には当たらないと判断した。ゲッティは既に裁判の途中で主な侵害主張を取り下げていた。2025年1月21日に提起されたLinkedInに対する集団訴訟は、9日後に自主的に取り下げられた。訴訟内容は、プライベートなInMailメッセージに対するAIトレーニングであった。証拠として、LinkedInは当該データがモデルのトレーニングには使用されていないことを示した。これまでのところ、AIトレーニングデータの収集は、たとえ状況がどれほど悪く見えても、訴訟を起こすのが難しいというパターンが見られる。

業界資料によく登場するある数字について、ここで訂正しておきたい。読者がそれを引用する際に、この間違いは重要になる。TikTokがMusical.ly社に対して2019年に和解したCOPPA（児童オンラインプライバシー保護法）違反の賠償金は570万ドルだった。一部の資料に未だに記載されている59億ドルではない。2024年8月2日に提出された司法省と連邦取引委員会による新たな訴状では、違反1件につき1日最大51,744ドルの賠償金が別途求められており、2026年現在も係争中である。

今後1年間で状況が少しでも改善するとは到底思えません。2026年の実務的な要点は、新たなデータ収集パイプラインは、データが取り込まれる前にプライバシーレビューを受ける必要があるということです。EUデジタルサービス法に基づき、ダークパターンの取り締まりが強化されています。同意バナーは、EDPBのガイドラインに照らして監査されるようになりました。また、英国情報コミッショナーオフィス（ICO）が2025年3月に発表した「悪意のある侵入者」テストは、「匿名化」とラベル付けされたものすべてに適用されます。

適切なデータ収集方法の選択

データ収集方法の選択は、研究プロセス全体の中で最も重要なステップです。意思決定ツリーは簡潔です。まずは研究課題から始めましょう。ツールから始めるのではありません。

質問が「いくつあるのか」であれば、定量的手法（アンケート、テレメトリー、トランザクションログなど）を用いましょう。質問が「なぜなのか」であれば、定性的手法（インタビューや自由回答など）を用いましょう。質問が「私がまだ理解していない、ここで何が起こっているのか」であれば、観察を用いましょう。深さと規模の両方が必要な場合は、事前に混合手法を用いた調査ツールを設計しましょう。必要な分析時間の2倍の時間を予算に計上してください。

選択肢には3つの制約があります。倫理と法的側面：対象となる人々はどの法域に居住しており、どのような同意およびデータ保持規則が適用されるのか？予算：1セッションあたり5,000ドルから9,000ドルかかるフォーカスグループは、2日間のインタビューで解決できるような探索的な質問には適していません。時間軸：大規模な調査は、正確な結果を得るまでに2週間から4週間かかり、民族誌調査は数ヶ月を要し、テレメトリーはリアルタイムですが、計測機器が既に存在することを前提としています。

つまり、方法論の学術的な分類は20年間変わっていません。それらの方法論を実行するビジネススタックは、5年間で3回も書き換えられました。法的な基準は過去18か月で2回変更されました。質問に対して適切な方法を選択してください。そして、データ収集計画は、最初の記録が取得される前ではなく、取得される前にプライバシーレビューを受ける必要があると仮定してください。

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.