数据收集方法：一手资料、二手资料和2026工具

发表于 May 14, 2026 作者 Mathis Curcio

数据收集方法目前处境尴尬。从理论层面来看——例如一手资料与二手资料、定量与定性——与二十年前相比几乎没有变化。而实际应用层面在过去五年中却经历了三次重构。苹果的智能追踪预防功能（Intelligent Tracking Prevention）严重破坏了网络分析的现状。谷歌的隐私沙盒（Privacy Sandbox）在2025年4月悄然关闭，当时其主题API（Topics API）的Chrome页面加载率仅为13%，且第三方Cookie默认启用。人工智能爬虫对公共网络的掠夺速度远超出版商的管控能力。对于任何在2026年撰写相关内容的人来说，他们面临的选择要么是教授现有的工具包，要么是教授2019年行之有效的方法。本文选择了前者。

实际的数据收集方法有哪些？

数据收集方法是指为解答特定研究问题而收集信息的过程。整个领域主要由两个维度构成。第一个维度是原始数据与二手数据。原始数据是指为解答研究问题而直接收集的数据。二手数据是指已存在且可重复利用的数据。第二个维度是定量数据与定性数据。定量数据是可计数和统计的：例如数字、计数、评分、时间戳等。定性数据是解释性的：例如文字、主题、观察结果、访谈记录等。实际的研究设计通常会有意地将两者结合起来。包含1-5分评分和自由文本“为什么”的问卷调查是目前最常见的混合方法工具。

2026 年使用的主要数据收集方法

七种核心数据收集类型几乎涵盖了所有一手资料。每种方法都有其优势、成本特点以及2026年的默认工具。抽样方法（随机抽样、分层抽样、便利抽样、整群抽样）作为设计选择，决定了所收集数据是否具有普遍适用性。

方法	最适合	典型工具	2026年锚点
调查问卷	规模、评分、细分	Qualtrics、SurveyMonkey、Typeform	网络主导；移动优先
访谈	深度、动机、极端案例	Zoom、Microsoft Teams + Otter.ai	异步工具的兴起
焦点小组	群体动力学，概念测试	Recollective，Discuss.io	每次会话费用约为 5,000 至 9,000 美元（Twilio）
观察	情境中的真实行为	现场笔记、视频、屏幕录制	民族志的生活方式，不太受欢迎
实验	因果推断	A/B 测试平台（Optimizely、GrowthBook）	坚持到底的纪律更为重要
文件/记录	现有组织文本	SharePoint，支持记录	LLM辅助分析常见
移动数据采集	实地研究，低连接性工作	SurveyCTO，KoboToolbox	线下优先仍然至关重要

调查问卷仍然是最有效的工具。它们可以大规模应用，可以进行细分，也是唯一能够向一万人提出相同问题的有效方法。关键在于问题设计，而不是平台。措辞不当的问卷会产生无意义的噪音，任何受访者都无法纠正。

访谈是深度维度上的一个关键因素。结构化访谈使用固定的脚本。半结构化访谈也使用脚本，但允许后续提问。非结构化访谈则类似于引导式对话。20 小时的高质量访谈与 1000 人的调查一样，都能影响产品策略的制定。截然不同的证据，却能得出相同的决策。

焦点小组对于包装、品牌反应和禁忌话题等群体驱动型议题仍然十分有用。随着远程办公的普及，一对一访谈的成本大幅降低，焦点小组的使用率也随之下降。经验丰富的主持人能够通过焦点小组访谈发现一对一访谈可能忽略的矛盾之处。Twilio 估计每次焦点小组访谈的费用通常在 5,000 美元到 9,000 美元之间，因此市场调研预算通常只将其用于高风险决策。

当人们的自我报告行为不实时，观察就显得尤为重要。这种情况屡见不鲜。参与式观察，即民族志传统，虽然成本高昂且耗时，却是捕捉人们在特定情境下真实行为的唯一途径。非参与式观察则成本更低，但局限性更大。

实验仍然是验证因果关系的黄金标准。例如，针对网络产品的A/B测试、临床环境下的对照试验，以及无法进行随机分组的准实验。然而，商业实验中最常见的失败因素是：样本量过小以及在测试结束前偷看指标。

文档和记录包括内部日志、客户服务记录、支持工单和销售笔记。现代生命周期管理 (LLM) 工作流程使得分析这类原始文本的成本远低于五年前。客户体验团队在多年忽视工单存档之后，如今又将其视为主要信息收集来源。

在网络连接不稳定的实地调研、非政府组织工作和新兴市场调查中，移动数据采集至关重要。SurveyCTO 和 KoboToolbox 是成熟的平台。离线优先的设计是其不可或缺的特性。

二手数据收集方法和来源

二手数据是该领域另一半的内容。它是数据的再利用，而非首次收集。二手数据的来源广泛，包括开放的政府数据集、统计机构、Kantar 和 Nielsen 等公司的联合调查小组、内部数据湖、销售点存档、人口普查数据以及开放网络。网络爬虫是该领域的蓬勃发展点。Bright Data 和 Apify 等公司凭借合法用途（例如价格情报、品牌监测、学术研究以及日益增长的人工智能训练语料库）运营着数十亿美元的业务。

法律层面的进展也主要集中在这里。2024年2月，美国联邦贸易委员会(FTC)对杀毒软件厂商Avast处以1650万美元的罚款，原因是其通过安全工具收集用户浏览数据，并通过子公司Jumpshot转售这些数据。同年1月，FTC还责令X-Mode和Outlogic停止出售敏感位置数据，这在同类案件中尚属首例。2023年，美国作家协会(Authors Guild)和《纽约时报》分别就OpenAI使用训练数据一事提起诉讼。这两起案件在2026年仍在审理中。过去，二次数据收集似乎可以随意进行，但现在情况已大不相同。

定量数据收集与定性数据收集

经典方法。定量方法产生可供统计分析的数字：例如大规模调查、A/B 测试、遥测事件和交易日志。统计方法随后将数据分析为趋势、相关性和置信区间。定性研究方法产生需要解读的文本和意义：例如访谈、开放式调查问卷回答和民族志田野笔记。两种方法收集的数据相辅相成。最有效的研究是将两者结合起来。净推荐值 (NPS) 提供一个易于追踪的数字。而附加在其后的自由文本“您为什么给出这个分数”则解释了该数字变化的原因。单独使用其中任何一种方法都会错过一半的信息。

两条实用原则。如果你能预先设定答案类别，只需要确定衡量标准，那么定量分析优先。如果你还无法描述自己想要寻找什么——这种情况比人们承认的要常见得多——那么定性分析应该先行。然后，定量分析再衡量定性分析得出的结果。

2026年企业如何收集数据

业务堆栈中的数据收集方式与教科书上的描述截然不同。现代公司的大部分运营都由五个层面构成。

层	功能	典型供应商	2025-2026 锚点
客户关系管理	第一方客户记录	Salesforce、HubSpot、MS Dynamics 365	Salesforce 约占全球 CRM 市场的 21%
网站/应用分析	行为遥测	GA4、Plausible、Adobe Analytics	GA4 通用航空在 UA 停运后（2023 年 7 月）
服务器端跟踪	ITP 之后的第一方标识符	服务器端 GTM、RudderStack、Segment	苹果 ITP 之后的默认基础架构
细胞药物	统一客户资料	Twilio Segment、Tealium、mParticle	市场 ~$2B (2024) → ~$7B 到 2028
物联网/遥测	设备事件	AWS IoT、Azure IoT 中心	到2024年底，联网设备数量将达到约188亿台。

CRM是存储第一方客户数据的地方。Salesforce占据了全球CRM市场约五分之一的份额。HubSpot在中小企业市场领先。Microsoft Dynamics 365在已购买Microsoft 365的企业中拥有强大的市场地位。CRM也是受监管数据往往首先存储的地方，这也是GDPR法规不断在CRM中得到执行的原因。

在 Universal Analytics 于 2023 年 7 月关闭后，网站和应用分析迅速转向了 Google Analytics 4。注重隐私的团队则使用 Plausible 或 Fathom。数据量较少，报告功能也相应减弱。Adobe Analytics 仍然在企业级市场占据主导地位。

服务器端追踪是过去三年中最被低估的变革。苹果的 ITP 和浏览器级指纹保护彻底破坏了客户端 cookie。因此，供应商们将追踪层转移到了他们自己的域名之后。Safari 和 Firefox 也无法在那里移除 ID。服务器端的 Google Tag Manager 和 RudderStack 是默认的解决方案。

客户数据平台将来自客户关系管理系统 (CRM)、网站、应用程序和电子邮件的记录整合到一个客户档案中。Statista 预测，2024 年 CDP 市场规模约为 20 亿美元，到 2028 年将达到 70 亿美元。Twilio Segment、Tealium 和 mParticle 是该领域的领军企业。

物联网和遥测技术是大多数文章都会忽略但却不应该涉及的层面。物联网分析公司统计，截至2024年底，全球已连接约188亿台物联网设备。预计到2030年，这一数字将达到400亿。每台设备都会收集一些数据：能源消耗、位置、温度、运动、占用情况等等。欧盟《数据法案》（将于2025年9月12日生效）赋予用户对其设备生成的数据拥有可移植权的权利。

与现有数据堆栈并存的还有两个较新的类别。零方数据（用户通过偏好中心、问卷调查和个人资料字段直接自愿提供偏好）在隐私沙盒失败后迅速发展。品牌意识到后cookie时代尚未真正到来，询问用户可能比猜测更简单。人工智能训练语料库是目前最具争议的大规模数据收集形式。2025年11月4日，英国高等法院在Getty Images诉Stability AI一案中裁定，人工智能模型权重不属于《版权、设计和专利法》规定的“复制品”。Getty在审判过程中已放弃了其主要的侵权指控。人工智能训练语料库以微弱优势赢得了这一回合。

隐私、伦理和数据收集的法律底线

到2026年，对于大多数开展数据收集业务的公司而言，有三项法律底线至关重要：欧盟的GDPR；加利福尼亚州的CCPA和CPRA；以及美国联邦层面的联邦贸易委员会（FTC）。由于目前尚无联邦隐私法，FTC正大力履行其消费者保护职责。CMS Law的执法追踪数据显示，截至2024年底，GDPR累计罚款已超过58.8亿欧元。其中，Meta Ireland因非法向美国传输数据而被罚款12亿欧元（2023年5月生效），金额最高。紧随其后的是Instagram因儿童数据泄露而被罚款4.05亿欧元（2022年生效）。

加州的执法力度虽然在金额上不如其他地区，但速度更快。该州的监管机构倾向于处理较小的案件，并迅速解决。2022年8月，丝芙兰因在未提供用户选择退出机制的情况下出售个人信息而被罚款120万美元。2024年2月，DoorDash也因类似的违规行为支付了37.5万美元的和解金。这两个案例都表明，“禁止出售我的个人信息”的原则在实践中确实有效，监管机构更关注日常数据泄露事件，而不是那些引人注目的重大案件。

在联邦层面，联邦贸易委员会（FTC）在2024年依然忙碌。2月份，Avast因通过其杀毒产品收集浏览数据并通过子公司转售而被罚款1650万美元。1月份，X-Mode和Outlogic两家公司均获得了史无前例的禁令，禁止出售敏感位置数据。2022年10月，针对Drizly的禁令更进一步：它点名批评了首席执行官，这表明如今数据泄露事件的应对责任不仅落在公司，也落在了高层管理人员身上。

人工智能训练数据收集是所有这些争议中仍未平息的部分。《纽约时报》于2023年12月27日起诉OpenAI。美国作家协会（Authors Guild）则在三个月前的2023年9月提起诉讼，两起案件在2026年仍在审理中。随后，Getty诉Stability AI一案于2025年11月4日获得英国高等法院判决，判决对版权所有者不利。法院认定，根据《版权、设计和专利法》，人工智能模型权重不属于“复制品”。Getty在审判过程中已撤回了其主要的侵权指控。LinkedIn于2025年1月21日提起的集体诉讼在九天后被撤回。该诉讼指控LinkedIn利用私人InMail消息进行人工智能训练。证据：LinkedIn证明这些数据并未用于训练任何模型。迄今为止的模式表明，无论表面看起来多么糟糕，人工智能训练数据收集都很难提起诉讼。

业内资料中反复出现的一个数字需要在此更正。当读者引用该数字时，这个错误会造成严重后果。TikTok 2019 年针对 Musical.ly 实体达成的 COPPA 和解协议金额为 570 万美元，而非某些资料中仍然出现的 59 亿美元。美国司法部和联邦贸易委员会于 2024 年 8 月 2 日分别提起的新诉讼，要求对每项违规行为处以每日最高 51,744 美元的罚款，该诉讼目前仍在审理中（截至 2026 年）。

我不认为这些情况会在未来一年内变得更简单。2026 年的务实简述是：任何新的数据收集流程都需要在数据导入之前进行隐私审查，而不是之后。欧盟《数字服务法案》正在加强对“暗黑模式”的监管。同意横幅现在会根据欧洲数据保护委员会 (EDPB) 的指导进行审核。英国信息专员办公室 (ICO) 在 2025 年 3 月的更新中提出的“动机入侵者”测试适用于任何被标记为“匿名化”的数据。

选择合适的数据收集方法

数据收集方法的选择是整个研究过程中最关键的一步。决策过程很简单，应该从研究问题入手，而不是从工具入手。

如果问题是“有多少”，那就采用定量方法：问卷调查、遥测数据、交易日志。如果问题是“为什么”，那就采用定性方法：访谈或开放式问答。如果问题是“这里发生了什么我还不理解”，那就采用观察法。如果需要兼顾深度和规模，那就预先设计一个混合方法研究工具。预留两倍于预期分析时间的预算。

三个限制因素会影响最终选择。首先是伦理和法律底线：目标受众位于哪些司法管辖区？适用哪些知情同意和数据保留规则？其次是预算：每次焦点小组访谈费用高达 5,000 至 9,000 美元，对于一个只需两天访谈就能解答的探索性问题而言，显然并非最佳选择。最后是时间限制：大规模调查需要两到四周才能顺利完成，民族志研究需要数月时间，遥测虽然可以实时进行，但前提是相关设备已经存在。

因此：学术界对方法的分类体系二十年来未曾改变。而运行这些方法的业务架构在五年内重写了三次。法律法规在过去十八个月内也变动了两次。请根据问题选择相应的方法。然后假设数据收集计划需要在第一条记录提交之前（而非之后）进行隐私审查。

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.