Phương pháp thu thập dữ liệu: Sơ cấp, Thứ cấp và 2026 Công cụ
Các phương pháp thu thập dữ liệu hiện đang ở một vị trí khá kỳ lạ. Về mặt lý thuyết – dữ liệu sơ cấp so với thứ cấp, định lượng so với định tính – thì về cơ bản vẫn giống như hai mươi năm trước. Còn về mặt thực tiễn, nó đã được xây dựng lại ba lần trong năm năm qua. Công nghệ Intelligent Tracking Prevention của Apple đã phá vỡ một phần đáng kể của phân tích web. Privacy Sandbox của Google đã lặng lẽ bị loại bỏ vào tháng 4 năm 2025 khi API Chủ đề chỉ đạt được 13% số lần tải trang trên Chrome, trong khi cookie của bên thứ ba vẫn được bật theo mặc định. Các công cụ thu thập dữ liệu bằng AI đã ngốn hết dữ liệu trên web công cộng nhanh hơn cả tốc độ kiểm soát của các nhà xuất bản. Lựa chọn cho bất kỳ ai viết về vấn đề này vào năm 2026 là hoặc dạy về bộ công cụ hiện có hoặc dạy về bộ công cụ đã hoạt động hiệu quả vào năm 2019. Bài viết này chọn phương án đầu tiên.
Các phương pháp thu thập dữ liệu thực chất là gì?
Phương pháp thu thập dữ liệu là một quy trình thu thập thông tin nhằm giải đáp một câu hỏi nghiên cứu cụ thể. Có hai trục chính chi phối toàn bộ lĩnh vực này. Trục thứ nhất là dữ liệu sơ cấp so với dữ liệu thứ cấp. Dữ liệu sơ cấp được thu thập trực tiếp cho chính câu hỏi nghiên cứu của bạn. Dữ liệu thứ cấp là dữ liệu đã tồn tại và bạn tái sử dụng. Trục thứ hai là định lượng so với định tính. Dữ liệu định lượng là dữ liệu có thể đếm được và mang tính thống kê: số liệu, số đếm, xếp hạng, dấu thời gian. Dữ liệu định tính mang tính diễn giải: từ ngữ, chủ đề, quan sát, bản ghi chép. Các thiết kế nghiên cứu thực tế thường kết hợp cả hai loại dữ liệu này một cách có chủ đích. Một cuộc khảo sát với thang điểm từ 1 đến 5 cộng với câu hỏi "tại sao" dạng văn bản tự do là công cụ kết hợp nhiều phương pháp phổ biến nhất hiện nay.
Các phương pháp thu thập dữ liệu sơ cấp được sử dụng vào năm 2026
Bảy loại thu thập dữ liệu cốt lõi bao quát hầu hết mọi khía cạnh của nghiên cứu sơ cấp. Mỗi phương pháp đều có điểm mạnh, chi phí riêng và công cụ mặc định cho năm 2026. Các phương pháp lấy mẫu (ngẫu nhiên, phân tầng, thuận tiện, cụm) nằm bên dưới chúng như là lựa chọn thiết kế quyết định xem dữ liệu thu thập được có thể khái quát hóa hay không.
| Phương pháp | Tốt nhất cho | Công cụ điển hình | Người dẫn chương trình năm 2026 |
|---|---|---|---|
| Khảo sát / bảng câu hỏi | Thang đo, xếp hạng, phân khúc | Qualtrics, SurveyMonkey, Typeform | Trực tuyến chiếm ưu thế; ưu tiên thiết bị di động |
| Phỏng vấn | Chiều sâu, động lực, các trường hợp ngoại lệ | Zoom, Microsoft Teams + Otter.ai | Các công cụ bất đồng bộ đang nổi lên |
| Nhóm tập trung | Động lực nhóm, kiểm nghiệm khái niệm | Hồi tưởng, Thảo luận.io | Khoảng 5.000-9.000 đô la Mỹ mỗi phiên (Twilio) |
| Quan sát | Hành vi thực tế trong bối cảnh | Ghi chép thực địa, video, ghi màn hình | Dân tộc học vẫn tồn tại, dù ít được ưa chuộng hơn. |
| Thí nghiệm | Suy luận nhân quả | Các nền tảng thử nghiệm A/B (Optimizely, GrowthBook) | Kỷ luật trong việc kiên trì giữ vững lập trường quan trọng hơn. |
| Tài liệu/hồ sơ | Văn bản tổ chức hiện có | Sharepoint, hỗ trợ bản ghi | Phân tích hỗ trợ bởi LLM phổ biến |
| Thu thập dữ liệu di động | Nghiên cứu thực địa, công việc trong điều kiện kết nối mạng yếu. | SurveyCTO, KoboToolbox | Chế độ ưu tiên ngoại tuyến vẫn là yếu tố thiết yếu. |
Khảo sát và bảng câu hỏi vẫn là phương pháp hiệu quả nhất. Chúng có khả năng mở rộng quy mô. Chúng phân khúc thị trường. Chúng là cách duy nhất thực tế để hỏi cùng một câu hỏi với 10.000 người. Mấu chốt nằm ở thiết kế câu hỏi, chứ không phải ở nền tảng. Một bảng câu hỏi được soạn thảo kém sẽ tạo ra nhiễu mà người trả lời không thể khắc phục được.
Các cuộc phỏng vấn nằm trên trục độ sâu. Phỏng vấn có cấu trúc sử dụng kịch bản cố định. Phỏng vấn bán cấu trúc sử dụng kịch bản nhưng cho phép đặt câu hỏi tiếp theo. Phỏng vấn không cấu trúc giống như một cuộc trò chuyện có hướng dẫn. Hai mươi giờ phỏng vấn chất lượng cao có thể định hình chiến lược sản phẩm cũng hiệu quả như một cuộc khảo sát 1.000 người. Bằng chứng rất khác nhau, nhưng quyết định thì giống nhau.
Các nhóm thảo luận vẫn hữu ích cho các chủ đề do nhóm quyết định như bao bì, phản ứng của khách hàng với thương hiệu và các vấn đề nhạy cảm. Việc sử dụng chúng giảm dần khi phỏng vấn trực tiếp từ xa trở nên rẻ hơn nhiều. Một người điều hành nhóm thảo luận giỏi có thể phát hiện ra những mâu thuẫn mà phỏng vấn trực tiếp bỏ sót. Twilio ước tính chi phí điển hình là từ 5.000 đến 9.000 đô la mỗi phiên, đó là lý do tại sao ngân sách nghiên cứu thị trường chỉ dành chúng cho những quyết định quan trọng.
Quan sát là phương pháp bạn sử dụng khi hành vi tự thuật không chính xác. Mà điều này xảy ra hầu hết thời gian. Quan sát tham gia, theo truyền thống dân tộc học, tốn kém và chậm nhưng là cách duy nhất để nắm bắt những gì mọi người thực sự làm trong bối cảnh cụ thể. Quan sát không tham gia thì rẻ hơn nhưng hạn chế hơn.
Thí nghiệm vẫn là tiêu chuẩn vàng để khẳng định mối quan hệ nhân quả. Thử nghiệm A/B trên sản phẩm web. Thử nghiệm có kiểm soát trong môi trường lâm sàng. Thí nghiệm bán thực nghiệm, nơi việc phân bổ ngẫu nhiên là không thể. Nguyên tắc làm hỏng hầu hết các thí nghiệm trong kinh doanh: cỡ mẫu nhỏ và xem trước kết quả trước khi thử nghiệm kết thúc.
Tài liệu và hồ sơ bao gồm nhật ký nội bộ, bản ghi cuộc gọi dịch vụ khách hàng, phiếu hỗ trợ, ghi chú bán hàng. Quy trình làm việc LLM hiện đại giúp phân tích loại văn bản thô này tiết kiệm chi phí hơn nhiều so với năm năm trước. Các nhóm trải nghiệm khách hàng hiện đang xem kho lưu trữ phiếu hỗ trợ là nguồn dữ liệu chính, sau nhiều năm bị bỏ qua.
Việc thu thập dữ liệu di động rất quan trọng trong nghiên cứu thực địa, công tác của các tổ chức phi chính phủ và khảo sát thị trường mới nổi nơi kết nối mạng không ổn định. SurveyCTO và KoboToolbox là những nền tảng đã được khẳng định. Thiết kế ưu tiên ngoại tuyến là tính năng không thể thiếu.
Các phương pháp và nguồn thu thập dữ liệu thứ cấp
Dữ liệu thứ cấp là nửa còn lại của lĩnh vực này. Đó là việc tái sử dụng, chứ không phải thu thập dữ liệu lần đầu. Các nguồn dữ liệu thứ cấp rất đa dạng, bao gồm các bộ dữ liệu mở của chính phủ, các cơ quan thống kê, các bảng khảo sát tổng hợp từ Kantar và Nielsen, các kho dữ liệu nội bộ, kho lưu trữ điểm bán hàng, dữ liệu điều tra dân số và cả trên web mở. Lĩnh vực đang bùng nổ là thu thập dữ liệu từ web (web scraping). Bright Data và Apify đang vận hành các doanh nghiệp trị giá hàng tỷ đô la dựa trên các ứng dụng hợp pháp: thu thập thông tin giá cả, giám sát thương hiệu, nghiên cứu học thuật. Và ngày càng nhiều, cả các kho dữ liệu huấn luyện AI.
Về mặt pháp lý, đây cũng là điểm đáng chú ý nhất. Vào tháng 2 năm 2024, FTC đã phạt nhà cung cấp phần mềm chống virus Avast 16,5 triệu đô la vì thu thập dữ liệu duyệt web thông qua các công cụ bảo mật của mình và bán lại thông qua một công ty con có tên Jumpshot. Cơ quan quản lý tương tự đã ra lệnh cho X-Mode và Outlogic vào tháng 1 năm 2024 ngừng bán dữ liệu vị trí nhạy cảm, một hành động chưa từng có tiền lệ. Hiệp hội Tác giả và tờ New York Times đều đã đệ đơn kiện OpenAI vào năm 2023 về việc sử dụng dữ liệu đào tạo. Cả hai vụ kiện vẫn đang được xử lý vào năm 2026. Việc thu thập dữ liệu thứ cấp trước đây có vẻ tự do. Nhưng giờ thì không còn như vậy nữa.
Thu thập dữ liệu định lượng so với thu thập dữ liệu định tính
Sự kết hợp kinh điển. Phương pháp định lượng tạo ra các con số mà bạn có thể sử dụng để thống kê: khảo sát quy mô lớn, thử nghiệm A/B, sự kiện đo từ xa, nhật ký giao dịch. Sau đó, phương pháp thống kê phân tích dữ liệu thành xu hướng, mối tương quan và khoảng tin cậy. Phương pháp nghiên cứu định tính tạo ra văn bản và ý nghĩa mà bạn phải tự diễn giải: phỏng vấn, câu trả lời khảo sát mở, ghi chép thực địa dân tộc học. Dữ liệu thu thập từ mỗi phía bổ sung cho nhau. Hầu hết các nghiên cứu hữu ích đều kết hợp cả hai. Điểm Net Promoter Score (NPS) cung cấp một con số dễ theo dõi. Câu hỏi dạng văn bản tự do "Tại sao bạn lại cho điểm đó?" kèm theo sẽ cho bạn biết lý do tại sao con số đó thay đổi. Chỉ sử dụng một trong hai phương pháp sẽ bỏ lỡ một nửa câu chuyện.
Hai quy tắc thực tế. Nếu bạn có thể viết sẵn các hạng mục câu trả lời và chỉ cần thang đo, phương pháp định lượng sẽ thắng. Nếu bạn chưa thể mô tả được điều mình đang tìm kiếm — và điều này phổ biến hơn mọi người thừa nhận — thì phương pháp định tính sẽ được ưu tiên. Sau đó, phương pháp định lượng sẽ đo lường những gì mà phương pháp định tính đã chỉ ra.
Các doanh nghiệp thu thập dữ liệu như thế nào vào năm 2026
Kiến trúc hệ thống nghiệp vụ là nơi việc thu thập dữ liệu hoàn toàn khác so với sách giáo khoa. Năm lớp kiến trúc bao phủ hầu hết các hoạt động của một công ty hiện đại.
| Lớp | Chức năng | Nhà cung cấp điển hình | Người dẫn chương trình năm 2025-2026 |
|---|---|---|---|
| CRM | Hồ sơ khách hàng bên thứ nhất | Salesforce, HubSpot, MS Dynamics 365 | Salesforce chiếm khoảng 21% thị trường CRM toàn cầu. |
| Phân tích web/ứng dụng | Đo lường hành vi | GA4, Có vẻ hợp lý, Adobe Analytics | GA4 universal sau khi UA hết hạn (tháng 7 năm 2023) |
| Theo dõi phía máy chủ | Mã định danh bên thứ nhất sau ITP | GTM phía máy chủ, RudderStack, Segment | Cơ sở hạ tầng mặc định sau Apple ITP |
| CDP | Hồ sơ khách hàng thống nhất | Twilio Segment, Tealium, mParticle | Thị trường ~$2B (2024) → ~$7B vào năm 2028 |
| IoT / đo từ xa | Sự kiện thiết bị | AWS IoT, Azure IoT Hub | Khoảng 18,8 tỷ thiết bị được kết nối (cuối năm 2024) |
CRM là nơi lưu trữ dữ liệu khách hàng trực tiếp. Salesforce nắm giữ khoảng một phần năm thị trường CRM toàn cầu. HubSpot dẫn đầu phân khúc doanh nghiệp vừa và nhỏ (SMB). Microsoft Dynamics 365 mạnh mẽ trong các doanh nghiệp lớn đã mua Microsoft 365. CRM cũng là nơi dữ liệu được quản lý thường được tập trung đầu tiên, đó là lý do tại sao việc thực thi GDPR liên tục xuất hiện ở đó.
Phân tích web và ứng dụng đã chuyển hẳn sang Google Analytics 4 sau khi Universal Analytics bị ngừng hoạt động vào tháng 7 năm 2023. Các nhóm ưu tiên quyền riêng tư sử dụng Plausible hoặc Fathom. Ít dữ liệu hơn đồng nghĩa với khả năng báo cáo kém hơn. Adobe Analytics vẫn thống trị thị trường doanh nghiệp.
Việc theo dõi phía máy chủ là sự thay đổi ít được thảo luận nhất trong ba năm qua. Công nghệ ITP của Apple và khả năng bảo vệ dấu vân tay ở cấp độ trình duyệt đã làm suy yếu nghiêm trọng các cookie phía máy khách. Vì vậy, các nhà cung cấp đã chuyển lớp theo dõi sang phía sau tên miền của riêng họ. Safari và Firefox cũng không thể loại bỏ ID ở đó. Google Tag Manager và RudderStack phía máy chủ là giải pháp mặc định.
Các nền tảng dữ liệu khách hàng (CDP) hợp nhất các bản ghi từ CRM, web, ứng dụng và email thành một hồ sơ duy nhất cho mỗi khách hàng. Statista dự báo thị trường CDP sẽ đạt khoảng 2 tỷ đô la vào năm 2024 và hướng tới 7 tỷ đô la vào năm 2028. Twilio Segment, Tealium và mParticle là những công ty dẫn đầu trong lĩnh vực này.
IoT và đo từ xa là lớp công nghệ mà hầu hết các bài viết thường bỏ qua và không nên bỏ qua. Theo thống kê của IoT Analytics, cuối năm 2024, toàn cầu có khoảng 18,8 tỷ thiết bị IoT được kết nối. Con số này dự kiến sẽ đạt 40 tỷ vào năm 2030. Mỗi thiết bị đều thu thập dữ liệu về một khía cạnh nào đó: mức tiêu thụ năng lượng, vị trí, nhiệt độ, chuyển động, sự hiện diện. Đạo luật Dữ liệu của EU, có hiệu lực từ ngày 12 tháng 9 năm 2025, trao cho người dùng quyền chuyển đổi dữ liệu mà các thiết bị này tạo ra.
Hai loại dữ liệu mới hơn nằm cạnh nhau. Dữ liệu không bên thứ ba , nơi người dùng tự nguyện cung cấp sở thích trực tiếp thông qua trung tâm tùy chọn, bài kiểm tra và trường thông tin hồ sơ, đã tăng mạnh sau khi Privacy Sandbox thất bại. Các thương hiệu nhận ra rằng tương lai hậu cookie thực sự chưa đến và việc hỏi trực tiếp người dùng có thể đơn giản hơn là đoán mò. Kho dữ liệu huấn luyện AI hiện là hình thức thu thập dữ liệu quy mô lớn gây tranh cãi nhất. Tòa án Tối cao Anh đã phán quyết vào ngày 4 tháng 11 năm 2025 trong vụ Getty Images kiện Stability AI rằng trọng số mô hình AI không phải là "bản sao" theo Đạo luật Bản quyền, Thiết kế và Bằng sáng chế. Getty đã rút lại các khiếu nại vi phạm bản quyền chính của mình giữa chừng phiên tòa. Việc thu thập dữ liệu huấn luyện AI đã thắng vòng đó, dù chỉ sít sao.
Quyền riêng tư, đạo đức và cơ sở pháp lý cho việc thu thập dữ liệu
Đến năm 2026, ba nền tảng pháp lý quan trọng đối với hầu hết các công ty thu thập dữ liệu. Đó là GDPR của EU, CCPA và CPRA của California, và FTC ở cấp liên bang Hoa Kỳ, với vai trò bảo vệ người tiêu dùng mạnh mẽ vì hiện vẫn chưa có luật bảo vệ quyền riêng tư liên bang nào được ban hành. Theo dõi việc thực thi pháp luật của CMS Law, tổng số tiền phạt theo GDPR đã vượt quá 5,88 tỷ euro vào cuối năm 2024. Khoản phạt 1,2 tỷ euro của Meta Ireland từ tháng 5 năm 2023, do chuyển dữ liệu bất hợp pháp từ EU sang Mỹ, đứng đầu danh sách này. Ngay dưới đó là khoản phạt 405 triệu euro của Instagram liên quan đến dữ liệu trẻ em từ năm 2022.
Việc thực thi pháp luật ở California tốn ít tiền hơn nhưng lại hiệu quả hơn về mặt tốc độ. Cơ quan quản lý ở đó chọn những vụ việc nhỏ hơn và giải quyết chúng nhanh hơn. Sephora đã phải trả 1,2 triệu đô la vào tháng 8 năm 2022 vì bán thông tin cá nhân mà không có tùy chọn từ chối. DoorDash tiếp theo đó vào tháng 2 năm 2024 với khoản tiền dàn xếp 375.000 đô la vì cùng một lỗi vi phạm. Cả hai trường hợp đều cho thấy rằng "đừng bán thông tin cá nhân của tôi" có trọng lượng trong thực tế, và cơ quan này dựa vào các vụ vi phạm thường ngày hơn là những vụ việc gây chú ý trên báo chí.
Về phía liên bang, FTC (Ủy ban Thương mại Liên bang) đã hoạt động tích cực trong suốt năm 2024. Tháng 2 vừa qua, Avast đã phải trả 16,5 triệu đô la vì thu thập dữ liệu duyệt web thông qua sản phẩm chống virus của mình và bán lại thông qua một công ty con. Tháng 1, cả X-Mode và Outlogic đều nhận được lệnh đầu tiên thuộc loại này, cấm bán dữ liệu vị trí nhạy cảm. Lệnh đối với Drizly từ tháng 10 năm 2022 còn đi xa hơn: nó nêu đích danh giám đốc điều hành, báo hiệu rằng trách nhiệm khắc phục vi phạm giờ đây thuộc về những người đứng đầu, chứ không chỉ riêng công ty.
Vụ kiện liên quan đến việc thu thập dữ liệu huấn luyện AI là một khía cạnh vẫn đang được viết tiếp. Tờ New York Times đã kiện OpenAI vào ngày 27 tháng 12 năm 2023. Hiệp hội Tác giả (Authors Guild) đã đệ đơn kiện ba tháng trước đó, vào tháng 9 năm 2023, và cả hai vụ kiện vẫn đang được tiến hành vào năm 2026. Sau đó, vụ kiện Getty kiện Stability AI đã dẫn đến phán quyết của Tòa án Tối cao Anh vào ngày 4 tháng 11 năm 2025, bất lợi cho chủ sở hữu bản quyền. Tòa án phán quyết rằng trọng số của mô hình AI không phải là "bản sao" theo Đạo luật Bản quyền, Thiết kế và Bằng sáng chế. Getty đã rút lại các cáo buộc vi phạm chính của mình giữa chừng phiên tòa. Một vụ kiện tập thể chống lại LinkedIn được đệ trình vào ngày 21 tháng 1 năm 2025 đã được tự nguyện bác bỏ chín ngày sau đó. Cáo buộc: Huấn luyện AI trên các tin nhắn InMail riêng tư. Bằng chứng: LinkedIn cho thấy dữ liệu chưa được sử dụng để huấn luyện bất kỳ mô hình nào. Mô hình cho đến nay là việc thu thập dữ liệu huấn luyện AI rất khó kiện tụng, bất kể hình ảnh có tệ đến mức nào.
Một con số thường xuyên xuất hiện trong các tài liệu ngành cần được đính chính ở đây. Sai sót này rất quan trọng khi người đọc trích dẫn lại. Thỏa thuận dàn xếp COPPA năm 2019 của TikTok với thực thể Musical.ly là 5,7 triệu đô la. Chứ không phải 5,9 tỷ đô la như một số tài liệu vẫn in. Đơn kiện mới hơn của Bộ Tư pháp và FTC được đệ trình riêng vào ngày 2 tháng 8 năm 2024 yêu cầu mức phạt lên đến 51.744 đô la mỗi ngày cho mỗi vi phạm, và vụ kiện này vẫn đang chờ xử lý vào năm 2026.
Tôi không tin rằng mọi thứ sẽ trở nên đơn giản hơn trong năm tới. Tóm lại, điều cần lưu ý cho năm 2026 là: bất kỳ quy trình thu thập dữ liệu mới nào cũng cần được xem xét về quyền riêng tư trước khi dữ liệu được đưa vào sử dụng, chứ không phải sau đó. Việc thực thi chống lại các hành vi xâm nhập trái phép đang được tăng cường theo Đạo luật Dịch vụ Kỹ thuật số của EU. Các biểu ngữ yêu cầu sự đồng ý giờ đây được kiểm tra dựa trên hướng dẫn của EDPB. Và bài kiểm tra kẻ xâm nhập có chủ đích từ bản cập nhật tháng 3 năm 2025 của ICO Anh áp dụng cho bất kỳ thứ gì được dán nhãn "đã được ẩn danh".
Lựa chọn phương pháp thu thập dữ liệu phù hợp
Việc lựa chọn phương pháp thu thập dữ liệu là bước quan trọng nhất trong toàn bộ quá trình nghiên cứu. Cây quyết định rất ngắn gọn. Hãy bắt đầu với câu hỏi nghiên cứu, chứ không phải công cụ.
Nếu câu hỏi là "có bao nhiêu", hãy sử dụng phương pháp định lượng: khảo sát, đo từ xa, nhật ký giao dịch. Nếu câu hỏi là "tại sao", hãy sử dụng phương pháp định tính: phỏng vấn hoặc câu trả lời mở. Nếu câu hỏi là "điều gì đang xảy ra ở đây mà tôi chưa hiểu?", hãy sử dụng phương pháp quan sát. Nếu bạn cần cả chiều sâu và quy mô, hãy thiết kế một công cụ kết hợp nhiều phương pháp ngay từ đầu. Dự trù thời gian phân tích gấp đôi so với dự kiến.
Ba ràng buộc cần xem xét khi lựa chọn. Thứ nhất là vấn đề đạo đức và pháp lý: đối tượng mục tiêu của bạn thuộc khu vực pháp lý nào, và những quy định về sự đồng ý và lưu giữ dữ liệu nào được áp dụng? Thứ hai là ngân sách: các nhóm thảo luận có chi phí từ 5.000 đến 9.000 đô la mỗi phiên không phải là lựa chọn phù hợp cho một câu hỏi mang tính thăm dò mà hai ngày phỏng vấn có thể trả lời được. Thứ ba là thời gian thực hiện: các cuộc khảo sát quy mô lớn cần từ hai đến bốn tuần để hoàn thành, nghiên cứu dân tộc học cần nhiều tháng, còn đo từ xa là thời gian thực nhưng giả định rằng thiết bị đo đã có sẵn.
Vì vậy: hệ thống phân loại phương pháp học thuật không thay đổi trong hai mươi năm. Hệ thống nghiệp vụ vận hành các phương pháp đó đã được viết lại ba lần trong năm năm. Văn bản pháp lý đã thay đổi hai lần trong mười tám tháng qua. Hãy chọn phương pháp phù hợp với câu hỏi. Sau đó, giả định rằng kế hoạch thu thập dữ liệu cần được xem xét về quyền riêng tư trước khi, chứ không phải sau khi, bản ghi đầu tiên được ghi nhận.

