Методы сбора данных: первичные, вторичные и 2026 Инструменты

Опубликовано на May 14, 2026 Написано Mathis Curcio

Методы сбора данных сейчас находятся в странном положении. Учебная сторона вопроса — первичные и вторичные данные, количественные и качественные данные — выглядит примерно так же, как и двадцать лет назад. Реализация же данных перестраивалась трижды за последние пять лет. Интеллектуальная система предотвращения отслеживания Apple подорвала значительную часть веб-аналитики. «Песочница конфиденциальности» Google была тихо закрыта в апреле 2025 года, когда API тем (Topics API) стал использоваться только для 13% загрузок страниц Chrome, при этом сторонние файлы cookie остались включенными по умолчанию. Искусственный интеллект, использующий парсинг данных, прочесывал общедоступный интернет быстрее, чем издатели успевали его ограничивать. Перед теми, кто будет писать об этом в 2026 году, встанет выбор: либо обучать использованию существующего инструментария, либо тому, который работал в 2019 году. В этой статье мы выбираем первый вариант.

Что представляют собой методы сбора данных на самом деле?

Метод сбора данных — это процедура сбора информации, направленная на решение конкретного исследовательского вопроса. Вся область исследований организована по двум осям. Первая — первичные и вторичные данные. Первичные данные собираются непосредственно для решения вашего собственного вопроса. Вторичные данные — это уже существующие данные, которые вы используете повторно. Вторая ось — количественные и качественные данные. Количественные данные — это данные, поддающиеся подсчету и статистические: числа, подсчеты, оценки, временные метки. Качественные данные — это данные, поддающиеся интерпретации: слова, темы, наблюдения, стенограммы. В реальных исследовательских проектах обычно намеренно сочетаются оба типа данных. Наиболее распространенным инструментом смешанного метода является опрос с оценкой от 1 до 5 плюс свободный текстовый вопрос «почему».

Первичные методы сбора данных, использованные в 2026 году.

Семь основных типов сбора данных охватывают практически все аспекты первичной выборки. Каждый метод имеет свои преимущества, структуру затрат и стандартный инструмент. Методы выборки (случайная, стратифицированная, удобная, кластерная) лежат в их основе как выбор дизайна, определяющий, насколько собранные данные пригодны для обобщения.

Метод	Лучше всего подходит для	Типичный инструмент	2026 якорь
Опросы / анкеты	Шкала, рейтинги, сегментация	Qualtrics, SurveyMonkey, Typeform	Онлайн-торговля доминирует; приоритет отдается мобильным устройствам.
Интервью	Глубина, мотивация, нестандартные ситуации	Zoom, Microsoft Teams + Otter.ai	Асинхронные инструменты набирают популярность.
Фокус-группы	Групповая динамика, тестирование концепций	Recollective, Discuss.io	Примерно 5000–9000 долларов за сессию (Twilio)
Наблюдение	Реальное поведение в контексте	Полевые заметки, видеозапись, запись экрана	Этнография жива, но менее популярна.
Эксперименты	Причинно-следственная связь	Платформы для A/B-тестирования (Optimizely, GrowthBook)	Дисциплинарная ответственность имеет большее значение.
Документы / записи	Существующий организационный текст	SharePoint, поддержка, стенограммы	Анализ с использованием LLM является распространенным
Сбор мобильных данных	Полевые исследования, работа в условиях ограниченного доступа к интернету.	SurveyCTO, KoboToolbox	Ориентация на офлайн-режим по-прежнему имеет первостепенное значение.

Опросы и анкеты по-прежнему выполняют самую сложную работу. Они масштабируемы. Они позволяют сегментировать аудиторию. Это единственный практический способ задать один и тот же вопрос 10 000 человек. Секрет в формулировке вопросов, а не в платформе. Плохо сформулированная анкета создает информационный шум, который респондент не сможет устранить.

Интервью располагаются на оси глубины. Структурированные интервью используют фиксированный сценарий. Полуструктурированные интервью также используют сценарий, но допускают последующие вопросы. Неструктурированные интервью выглядят как управляемая беседа. Двадцать часов высококачественных интервью могут повлиять на продуктовую стратегию так же эффективно, как и опрос 1000 человек. Совершенно разные результаты, но решение одно и то же.

Фокус-группы остаются полезными для обсуждения групповых тем, таких как упаковка, реакция на бренд и табуированные темы. Их использование сократилось, когда дистанционные интервью стали намного дешевле. Опытный модератор, проводящий фокус-группу, может выявить противоречия, которые упускаются при индивидуальном интервью. По оценкам Twilio, типичная стоимость одной сессии составляет от 5000 до 9000 долларов, поэтому бюджеты на маркетинговые исследования резервируются для принятия важных решений.

Наблюдение — это то, что вы делаете, когда самоотчеты о поведении содержат ложь. А это происходит в большинстве случаев. Наблюдение с участием, этнографическая традиция, дорогостоящее и медленное, но это единственный способ зафиксировать то, что люди действительно делают в контексте. Наблюдение без участия дешевле и имеет меньшие ограничения.

Эксперименты по-прежнему остаются золотым стандартом для установления причинно-следственных связей. A/B-тестирование веб-продуктов. Контролируемые клинические испытания. Квазиэксперименты, где случайное распределение невозможно. Принцип, который разрушает большинство экспериментов в бизнесе: малый размер выборки и подглядывание в показатели до окончания теста.

Документы и записи включают внутренние журналы, стенограммы обслуживания клиентов, заявки в службу поддержки, заметки о продажах. Современные рабочие процессы LLM делают анализ такого рода необработанного текста гораздо дешевле, чем пять лет назад. Команды по работе с клиентами снова рассматривают архивы заявок как основной источник информации, после многих лет игнорирования этой темы.

Сбор мобильных данных имеет важное значение в полевых исследованиях, работе НПО и опросах на развивающихся рынках, где связь нестабильна. SurveyCTO и KoboToolbox — это устоявшиеся платформы. Ориентация на офлайн-режим — это обязательное условие.

Методы и источники сбора вторичных данных

Вторичные данные — это вторая половина этой области. Речь идёт о повторном использовании, а не о первом сборе. Источники вторичных данных варьируются от открытых государственных наборов данных и статистических агентств до синдицированных панелей от Kantar и Nielsen, внутренних хранилищ данных, архивов точек продаж, данных переписи населения и открытого интернета. Бурный рост наблюдается в сфере веб-скрейпинга. Bright Data и Apify ведут многомиллиардный бизнес, основанный на законных методах использования данных: анализ цен, мониторинг брендов, академические исследования. И, всё чаще, на корпусах данных для обучения ИИ.

Здесь тоже произошли значительные изменения в законодательстве. В феврале 2024 года Федеральная торговая комиссия (FTC) оштрафовала поставщика антивирусного программного обеспечения Avast на 16,5 миллионов долларов за сбор данных о просмотре веб-страниц с помощью своих инструментов безопасности и их перепродажу через дочернюю компанию Jumpshot. В январе 2024 года тот же регулятор обязал X-Mode и Outlogic прекратить продажу конфиденциальных данных о местоположении — это был первый подобный случай. В 2023 году Authors Guild и New York Times подали иски против OpenAI за использование обучающих данных. Оба дела остаются активными в 2026 году. Раньше вторичный сбор данных казался бесплатным. Теперь это уже не так.

Количественный и качественный сбор данных

Классический подход. Количественные методы позволяют получить данные, на основе которых можно проводить статистический анализ: масштабные опросы, A/B-тесты, телеметрические данные, журналы транзакций. Затем статистические методы анализируют данные, выявляя тенденции, корреляции и доверительные интервалы. Качественные методы исследования предоставляют текст и смысл, которые необходимо интерпретировать: интервью, ответы на открытые вопросы в анкетах, этнографические полевые заметки. Собранные данные дополняют друг друга. Наиболее полезные исследования сочетают оба подхода. Показатель Net Promoter Score (NPS) дает легко отслеживаемое число. Прикрепленный к нему текст в свободной форме «почему вы поставили именно такую оценку» объясняет причину изменения показателя. Если использовать любой из этих методов по отдельности, вы упустите половину картины.

Два практических правила. Если вы можете заранее сформулировать категории ответов и вам нужна только шкала, то побеждает количественный подход. Если же вы пока не можете описать, что именно ищете — а это случается чаще, чем принято считать, — то на первом месте стоит качественный подход. Затем количественный метод измеряет то, что выявил качественный метод.

Как компании будут собирать данные в 2026 году

На уровне бизнес-логики сбор данных сильно отличается от того, что описано в учебниках. Пять уровней охватывают большую часть того, чем управляет современная компания.

Слой	Функция	Типичный поставщик	опорный период 2025-2026 гг.
CRM	Данные о клиентах из первых рук	Salesforce, HubSpot, MS Dynamics 365	Salesforce занимает примерно 21% мирового рынка CRM.
Веб-аналитика / аналитика приложений	Поведенческая телеметрия	GA4, Plausible, Adobe Analytics	GA4 Universal после прекращения поддержки UA (июль 2023 г.)
Отслеживание на стороне сервера	Идентификаторы первой стороны после ITP	Серверная стратегия GTM, RudderStack, Segment	Инфраструктура по умолчанию после Apple ITP
CDP	Единый профиль клиента	Twilio Segment, Tealium, mParticle	Рынок ~ 2 млрд долларов (2024 г.) → ~ 7 млрд долларов к 2028 г.
Интернет вещей / телеметрия	События устройства	AWS IoT, Azure IoT Hub	~18,8 млрд подключенных устройств (к концу 2024 г.)

CRM — это система, в которой хранятся собственные данные о клиентах. Salesforce занимает примерно пятую часть мирового рынка CRM. HubSpot лидирует в сегменте малого и среднего бизнеса. Microsoft Dynamics 365 сильна в крупных компаниях, уже приобретающих Microsoft 365. Кроме того, именно в CRM чаще всего в первую очередь попадают данные, подлежащие регулированию, поэтому требования GDPR постоянно возникают именно там.

После отключения Universal Analytics в июле 2023 года веб- и мобильная аналитика решительно перешла на Google Analytics 4. Команды, заботящиеся о конфиденциальности, используют Plausible или Fathom. Меньше данных, меньше возможностей для составления отчетов. Adobe Analytics по-прежнему доминирует в корпоративном сегменте.

Отслеживание на стороне сервера — это наименее обсуждаемое изменение за последние три года. Система ITP от Apple и защита от подделки на уровне браузера серьезно нарушили работу клиентских куки. Поэтому поставщики перенесли уровень отслеживания за свои собственные домены. Safari и Firefox также не могут удалять идентификаторы там. В качестве стандартной инфраструктуры используются Google Tag Manager и RudderStack на стороне сервера.

Платформы для работы с данными о клиентах объединяют записи из CRM, веб-сайтов, приложений и электронной почты в один профиль для каждого клиента. По оценкам Statista, объем рынка CDP в 2024 году составит примерно 2 миллиарда долларов, а к 2028 году достигнет 7 миллиардов долларов. Лидерами в этой категории являются Twilio Segment, Tealium и mParticle.

Интернет вещей и телеметрия — это та область, которую большинство статей обходят стороной, и этого делать не следует. По данным IoT Analytics, к концу 2024 года в мире насчитывалось около 18,8 миллиардов подключенных устройств IoT. Прогнозируется, что к 2030 году их число достигнет 40 миллиардов. Каждое из них собирает данные о чем-либо: потреблении энергии, местоположении, температуре, движении, присутствии людей. Закон ЕС о данных, вступивший в силу 12 сентября 2025 года, предоставляет пользователям право на переносимость данных, генерируемых этими устройствами.

Наряду с существующими категориями появились две новые. После провала Privacy Sandbox резко возрос интерес к данным, полученным без участия пользователя (так называемые «данные нулевой стороны») , когда пользователи добровольно делятся своими предпочтениями через центры настроек, викторины и поля профиля. Бренды поняли, что будущее без файлов cookie еще не наступило и что спрашивать людей может быть проще, чем гадать. Корпусы данных для обучения ИИ являются наиболее спорной формой крупномасштабного сбора информации на данный момент. 4 ноября 2025 года Высокий суд Великобритании в деле Getty Images против Stability AI постановил, что веса моделей ИИ не являются «копиями» в соответствии с Законом об авторском праве, дизайне и патентах. Getty уже отозвала свои основные иски о нарушении авторских прав в середине судебного разбирательства. Сбор данных для обучения ИИ одержал победу в этом раунде с небольшим отрывом.

Конфиденциальность, этика и правовые нормы для сбора информации.

К 2026 году для большинства компаний, занимающихся сбором данных, важны три правовых аспекта. GDPR в ЕС, CCPA и CPRA в Калифорнии, а также Федеральная торговая комиссия США (FTC), которая активно использует свою роль в защите прав потребителей, поскольку федерального закона о конфиденциальности до сих пор нет. По данным аналитического центра CMS Law, совокупные штрафы по GDPR к концу 2024 года превысили 5,88 миллиарда евро. Штраф Meta Ireland в размере 1,2 миллиарда евро, наложенный в мае 2023 года за незаконную передачу данных между ЕС и США, находится на вершине этого списка. Сразу под ним: штраф Instagram в размере 405 миллионов евро за детские данные, наложенный в 2022 году.

В Калифорнии контроль обходится дешевле, но быстрее. Регулятор выбирает более мелкие дела и решает их быстрее. В августе 2022 года Sephora выплатила 1,2 миллиона долларов за продажу личной информации без возможности отказа. В феврале 2024 года DoorDash заключила мировое соглашение на 375 000 долларов за аналогичное нарушение. Оба случая показывают, что принцип «не продавайте мою личную информацию» имеет вес на практике, и ведомство больше внимания уделяет повседневным утечкам данных, чем громким скандалам.

На федеральном уровне Федеральная торговая комиссия (FTC) активно работала в течение всего 2024 года. В феврале компания Avast выплатила 16,5 миллионов долларов за сбор данных о действиях пользователей в интернете с помощью своего антивирусного продукта и их перепродажу через дочернюю компанию. В январе компании X-Mode и Outlogic получили первые в своем роде постановления, запрещающие продажу конфиденциальных данных о местоположении. Постановление в отношении Drizly от октября 2022 года пошло еще дальше: в нем лично был указан генеральный директор, что свидетельствует о том, что ответственность за реагирование на утечки данных теперь лежит на руководителях высшего звена, а не только на самой компании.

Сбор данных для обучения ИИ — это та область, где все еще идет работа. 27 декабря 2023 года газета New York Times подала иск против OpenAI. Гильдия авторов подала иск тремя месяцами ранее, в сентябре 2023 года, и оба дела оставались активными в 2026 году. Затем, 4 ноября 2025 года, Высокий суд Великобритании вынес решение по делу Getty против Stability AI, которое было отклонено в пользу правообладателя. Суд постановил, что веса моделей ИИ не являются «копиями» в соответствии с Законом об авторском праве, дизайне и патентах. Getty уже отозвала свои основные иски о нарушении авторских прав в середине судебного разбирательства. Коллективный иск против LinkedIn, поданный 21 января 2025 года, был добровольно отклонен девять дней спустя. Суть иска: обучение ИИ на основе личных сообщений InMail. Доказательство: LinkedIn показала, что данные не использовались для обучения какой-либо модели. Пока что ситуация с тем, что сбор данных для обучения ИИ трудно оспорить в суде, независимо от того, насколько плохо это выглядит с точки зрения общественного мнения.

Одна цифра, которая постоянно появляется в отраслевых презентациях, заслуживает здесь исправления. Ошибка имеет значение, когда читатели будут ссылаться на нее. Соглашение TikTok с Musical.ly по закону COPPA 2019 года составило 5,7 миллиона долларов. А не 5,9 миллиарда долларов, как это до сих пор указывают в некоторых презентациях. В новой жалобе Министерства юстиции и Федеральной торговой комиссии, поданной 2 августа 2024 года отдельно, запрашивается до 51 744 долларов в день за каждое нарушение, и она все еще находится на рассмотрении в 2026 году.

Я не уверен, что за следующий год что-то из этого станет проще. Прагматичный подход к 2026 году: любой новый канал сбора данных должен пройти проверку на конфиденциальность до того, как данные поступят на сервер, а не после. Ужесточаются меры по борьбе с несанкционированным доступом в соответствии с Законом ЕС о цифровых услугах. Теперь баннеры с согласием проверяются на соответствие рекомендациям EDPB. А тест на наличие мотивированного злоумышленника из обновления ICO Великобритании от марта 2025 года применяется ко всему, что помечено как «анонимизированное».

Выбор правильного метода сбора данных

Выбор метода сбора данных — наиболее важный шаг во всем исследовательском процессе. Дерево решений короткое. Начните с исследовательского вопроса, а не с инструмента.

Если вопрос «сколько», используйте количественный подход: опрос, телеметрию, журнал транзакций. Если вопрос «почему», используйте качественный подход: интервью или открытые вопросы. Если вопрос «что здесь происходит, чего я пока не понимаю», используйте наблюдение. Если вам нужны и глубина, и масштаб, разработайте инструмент смешанного метода заранее. Заложите в бюджет вдвое больше времени на анализ, чем вы считаете необходимым.

Выбор зависит от трех факторов. Этические и правовые аспекты: в каких юрисдикциях находится ваша аудитория, и какие правила получения согласия и хранения данных применяются? Бюджет: фокус-группы стоимостью 5000-9000 долларов за сессию — не лучший вариант для исследовательского вопроса, на который можно ответить за два дня интервью. Временной горизонт: крупномасштабные опросы требуют от двух до четырех недель для корректного проведения, этнографические исследования занимают месяцы, телеметрия — это измерение в реальном времени, но предполагает, что необходимое оборудование уже существует.

Итак: академическая таксономия методов не менялась двадцать лет. Бизнес-инфраструктура, на которой работают эти методы, переписывалась трижды за пять лет. Юридические нормы изменились дважды за последние восемнадцать месяцев. Выберите метод, соответствующий вопросу. Затем предположите, что план сбора данных требует проверки на предмет конфиденциальности до, а не после получения первой записи.

Mathis Curcio

Mathis Curcio is a senior content strategist and NFT specialist at Plisio. With over 5 years of experience in the Web3 space, Mathis focuses on the evolution of NFT ecosystems, digital collectibles, and decentralized ownership models. He creates accessible, insight-driven content that bridges the gap between blockchain innovation and mainstream adoption. His expertise spans NFT market trends, use cases across art and gaming, and the infrastructure powering next-generation tokenized assets.