Методи збору даних: первинні, вторинні та 2026 інструменти
Методи збору даних зараз перебувають у дивному становищі. Підручникова сторона цієї галузі — первинна проти вторинної, кількісна проти якісної — виглядає приблизно так само, як і двадцять років тому. Сторона впровадження перебудовувалась тричі за останні п’ять. Інтелектуальне запобігання відстеженню від Apple зламало значну частину веб-аналітики. Пісочниця конфіденційності Google була непомітно закрита у квітні 2025 року, коли API Topics досяг лише 13% завантажень сторінок Chrome, при цьому сторонні файли cookie залишалися ввімкненими за замовчуванням. Штучний інтелект-скрепери пережовували публічну мережу швидше, ніж видавці могли їх контролювати. Вибір для будь-кого, хто пише про це у 2026 році, полягає в тому, щоб або навчати існуючому інструментарію, або навчати тому, який працював у 2019 році. У цій статті вибрано перше.
Які насправді є методи збору даних
Метод збору даних – це процедура збору інформації, спрямованої на конкретне дослідницьке питання. Дві осі впорядковують усе поле. Перша – первинні та вторинні. Первинні дані збираються з перших рук для вашого власного питання. Вторинні дані – це дані, які вже існують, і ви використовуєте їх повторно. Друга вісь – кількісні та якісні. Кількісні дані є рахунковими та статистичними: числа, підрахунки, оцінки, часові позначки. Якісні дані є інтерпретаційними: слова, теми, спостереження, транскрипти. Реальні дослідницькі дизайни зазвичай навмисно поєднують ці два методи. Опитування з оцінкою від 1 до 5 плюс вільне запитання «чому» є найпоширенішим інструментом змішаних методів.
Основні методи збору даних, що використовувалися у 2026 році
Сім основних типів збору даних охоплюють майже все на первинній стороні. Кожен метод має свою перевагу, профіль витрат та інструмент за замовчуванням на 2026 рік. Методи вибірки (випадкова, стратифікована, зручність, кластерна) розташовані нижче як вибір дизайну, який вирішує, чи узагальнюються зібрані дані.
| Метод | Найкраще для | Типовий інструмент | Якір 2026 року |
|---|---|---|---|
| Опитування / анкети | Шкала, рейтинги, сегментація | Qualtrics, SurveyMonkey, Typeform | Онлайн домінує; мобільні пристрої на першому місці |
| Інтерв'ю | Глибина, мотивація, крайні випадки | Zoom, Microsoft Teams + Otter.ai | Асинхронні інструменти зростають |
| Фокус-групи | Групова динаміка, тестування концепцій | Згадки, Discuss.io | ~$5,000-$9,000 за сеанс (Twilio) |
| Спостереження | Реальна поведінка в контексті | Польові нотатки, відео, запис екрану | Етнографія живе, менш популярна |
| Експерименти | Причинний висновок | Платформи для A/B-тестування (Optimizely, GrowthBook) | Дисципліна утримання важливіша |
| Документи / записи | Існуючий організаційний текст | SharePoint, допоміжні стенограми | Загальний аналіз за допомогою LLM |
| Збір мобільних даних | Польові дослідження, робота з низьким рівнем зв'язку | Технічний директор Survey, KoboToolbox | Офлайн-першорядний підхід залишається важливим |
Опитування та анкети все ще виконують найважчу роботу. Вони масштабуються. Вони сегментують. Вони є єдиним практичним способом поставити 10 000 людей одне й те саме запитання. Хитрість полягає в розробці запитань, а не в платформі. Погано сформульована анкета створює шум, який жоден респондент не може врятувати.
Інтерв'ю розташовуються на осі глибини. Структуровані використовують фіксований сценарій. Напівструктуровані використовують сценарій, але дозволяють подальші дії. Неструктуровані виглядають як керована розмова. Двадцять годин високоякісних інтерв'ю можуть формувати стратегію продукту так само, як і опитування 1000 осіб. Зовсім різні докази, те саме рішення.
Фокус-групи залишаються корисними для обговорення тем, що регулюються групою, таких як упаковка, реакція на бренди та табуйовані теми. Їх використання зменшилося, коли дистанційні інтерв'ю зробили індивідуальні інтерв'ю такими дешевими. Досвідчений модератор, який проводить фокус-групу, може виявити суперечності, які пропускає індивідуальне інтерв'ю. Twilio оцінює типову вартість у 5000-9000 доларів за сеанс, тому бюджети на маркетингові дослідження резервують їх для рішень з високими ставками.
Спостереження – це те, що ви робите, коли самозвіт про поведінку є брехливим. Що трапляється здебільшого. Спостереження за участю учасників, етнографічна традиція, є дорогим і повільним, але єдиним способом зафіксувати те, що люди насправді роблять у контексті. Спостереження без участі учасників є дешевшим і більш обмеженим.
Експерименти досі залишаються золотим стандартом для тверджень про причинно-наслідкові зв'язки. A/B-тестування веб-продукту. Контрольовані випробування в клінічних умовах. Квазіексперименти, де випадковий розподіл неможливий. Дисципліна, яка порушує більшість експериментів у бізнесі: малий розмір вибірки та попередній перегляд метрики до закінчення тесту.
Документи та записи включають внутрішні журнали, стенограми обслуговування клієнтів, заявки на підтримку, нотатки про продажі. Сучасні робочі процеси LLM роблять аналіз такого роду необробленого тексту набагато дешевшим, ніж п'ять років тому. Команди з обслуговування клієнтів тепер знову розглядають архіви заявок як основне джерело колекції після років їх списання.
Мобільний збір даних важливий у польових дослідженнях, роботі неурядових організацій та опитуваннях на ринках, що розвиваються, де зв'язок нерівномірний. SurveyCTO та KoboToolbox – це усталені платформи. Дизайн, орієнтований на офлайн-технології, є невід'ємною рисою.
Методи та джерела збору вторинних даних
Вторинні дані – це інша половина поля. Повторне використання, а не первинний збір. Джерела вторинних даних охоплюють відкриті урядові набори даних, статистичні агентства, синдиковані панелі Kantar та Nielsen, внутрішні озера даних, архіви точок продажу, дані перепису населення та відкритий інтернет. Зоною буму є веб-скрапінг. Bright Data та Apify керують багатомільярдним бізнесом на законних основах: цінова аналітика, моніторинг брендів, академічні дослідження. І, все частіше, корпуси навчання ШІ.
Найбільше тут також зрушила з місця юридична сфера. У лютому 2024 року Федеральна торгова комісія (FTC) оштрафувала постачальника антивірусних програм Avast на 16,5 мільйонів доларів за збір даних переглядів за допомогою його інструментів безпеки та перепродаж через дочірню компанію під назвою Jumpshot. Той самий регулятор у січні 2024 року наказав X-Mode та Outlogic припинити продаж конфіденційних даних про місцезнаходження, що стало першим у своєму роді випадком. Гільдія авторів та New York Times подали позов проти OpenAI у 2023 році через використання навчальних даних. Обидві справи залишаються активними у 2026 році. Вторинний збір раніше здавався безкоштовним. Тепер він не є безкоштовним.
Кількісний та якісний збір даних
Класичний варіант. Кількісні методи дають числа, на яких можна проводити статистику: масштабні опитування, A/B-тести, телеметричні події, журнали транзакцій. Потім статистичні методи аналізують дані на тенденції, кореляції та довірчі інтервали. Якісні методи дослідження створюють текст і значення, які потрібно інтерпретувати: інтерв'ю, відповіді на відкриті опитування, етнографічні польові нотатки. Дані, зібрані з кожного боку, доповнюють іншу. Більшість корисних досліджень поєднують ці два показники. Індекс Net Promoter Score дає число, яке легко відстежувати. Вільний текст «чому ви дали саме такий бал», що додається до нього, вказує на причину зміни числа. Якщо ви використаєте лише один з них, ви пропустите половину історії.
Два практичних правила. Якщо ви можете заздалегідь прописати категорії відповідей і вам потрібен лише масштаб, кількісні показники перемагають. Якщо ви ще не можете описати те, що шукаєте — а це трапляється частіше, ніж люди визнають — на першому місці стоїть якісний показник. Потім кількісна робота вимірює те, що виявилося якісним показником.
Як компанії збирають дані у 2026 році
Бізнес-стек — це місце, де збір даних зовсім не схожий на підручник. П'ять рівнів охоплюють більшу частину того, чим керує сучасна компанія.
| Шар | Функція | Типовий постачальник | Якір 2025-2026 років |
|---|---|---|---|
| CRM | Записи клієнтів першої сторони | Salesforce, HubSpot, MS Dynamics 365 | Salesforce ~21% світового ринку CRM |
| Веб-/додаткова аналітика | Поведінкова телеметрія | GA4, Правдоподібний, Adobe Analytics | GA4 універсальний після припинення підтримки UA (липень 2023 р.) |
| Відстеження на стороні сервера | Ідентифікатори першої сторони після ITP | GTM на стороні сервера, RudderStack, Segment | Інфраструктура за замовчуванням після Apple ITP |
| CDP | Єдиний профіль клієнта | Сегмент Twilio, Tealium, mParticle | Ринок ~$2 млрд (2024) → ~$7 млрд до 2028 |
| Інтернет речей / телеметрія | Події пристрою | Інтернет речей AWS, Центр Інтернету речей Azure | ~18,8 млрд підключених пристроїв (кінець 2024 р.) |
CRM – це місце, де зберігаються дані про клієнтів першої сторони. Salesforce займає приблизно п’яту частину світового ринку CRM. HubSpot лідирує в сегменті малого та середнього бізнесу. Microsoft Dynamics 365 сильно використовується в підприємствах, які вже купують Microsoft 365. CRM також є місцем, де регульовані дані, як правило, потрапляють першими, тому саме там постійно з’являються заходи щодо забезпечення дотримання GDPR.
Веб-аналітика та аналітика додатків рішуче перейшли до Google Analytics 4 після того, як Universal Analytics було закрито в липні 2023 року. Команди, що дотримуються принципів конфіденційності, використовують Plausible або Fathom. Менше даних, менше можливостей звітності. Adobe Analytics все ще займає чільне місце в корпоративному сегменті.
Відстеження на стороні сервера – це найбільш малообговорювана зміна за останні три роки. ITP Apple та захист відбитків пальців на рівні браузера серйозно порушували файли cookie клієнта. Тож постачальники перемістили рівень відстеження за власний домен. Safari та Firefox також не можуть видаляти ідентифікатори там. Серверний Google Tag Manager та RudderStack є стандартними інструментами.
Платформи даних клієнтів об'єднують записи з CRM, веб-сайту, додатків та електронної пошти в один профіль для кожного клієнта. Statista прогнозує, що ринок CDP у 2024 році складе приблизно 2 мільярди доларів, а до 2028 року — 7 мільярдів доларів. Twilio Segment, Tealium та mParticle є основними гравцями цієї категорії.
Інтернет речей та телеметрія – це той рівень, який більшість статей пропускають і не повинні пропускати. Аналітика Інтернету речей нарахувала близько 18,8 мільярда підключених пристроїв Інтернету речей у світі на кінець 2024 року. Прогнозується, що до 2030 року це число зросте до 40 мільярдів. Кожен з них збирає дані про щось: споживання енергії, місцезнаходження, температуру, рух, зайнятість. Закон ЄС про дані, який набрав чинності 12 вересня 2025 року, надає користувачам права на перенесення даних, що генеруються цими пристроями.
Дві новіші категорії розташовані поряд із цим списком. Дані нульової сторони , де користувачі добровільно вказують свої налаштування безпосередньо через центри налаштувань, вікторини та поля профілю, різко зросли після провалу Privacy Sandbox. Бренди зрозуміли, що майбутнє після файлів cookie насправді ще не настало, і що запитувати людей може бути простіше, ніж здогадуватися. Корпуси даних для навчання ШІ наразі є найбільш оскаржуваною формою масштабного збору даних. Високий суд Великої Британії 4 листопада 2025 року у справі Getty Images проти Stability AI постановив, що ваги моделей ШІ не є «копіями» згідно із Законом про авторське право, промислові зразки та патенти. Getty вже відхилила свої основні позови про порушення в середині судового розгляду. Колекція даних для навчання ШІ виграла цей раунд з невеликою перевагою.
Конфіденційність, етика та правова основа для збору даних
До 2026 року для більшості компаній, що займаються стягненням платежів, матимуть значення три юридичні рівні. GDPR в ЄС. CCPA та CPRA в Каліфорнії. А також FTC на федеральному рівні США, яка рішуче покладається на свою роль у захисті прав споживачів, оскільки досі немає федерального закону про конфіденційність. Відстеження правозастосування CMS Law показує, що сукупні штрафи за GDPR до кінця 2024 року перевищили 5,88 мільярда євро. Штраф Meta Ireland у розмірі 1,2 мільярда євро від травня 2023 року за незаконну передачу даних з ЄС до США знаходиться на вершині цієї купи. Прямо під ним: штраф Instagram у розмірі 405 мільйонів євро за дані дітей від 2022 року.
Каліфорнійські правоохоронні заходи дають менше збитків у грошовому еквіваленті, але більше в темпах. Регулятор там обирає менші справи та вирішує їх швидше. Sephora виплатила 1,2 мільйона доларів у серпні 2022 року за продаж персональної інформації без відмови. DoorDash наслідувала цей приклад у лютому 2024 року, виплативши компенсацію у розмірі 375 000 доларів за аналогічний тип порушення. Обидві справи показують, що принцип «не продавайте мою персональну інформацію» має вагу на практиці, і агентство спирається на повсякденні порушення, а не на ті, що привертають увагу газет.
На федеральному рівні Федеральна торгова комісія (FTC) працювала протягом усього 2024 року. У лютому Avast заплатила 16,5 мільйонів доларів за збір даних переглядів за допомогою свого антивірусного продукту та їх перепродаж через дочірню компанію. У січні X-Mode та Outlogic отримали перші у своєму роді накази, що забороняють продаж конфіденційних даних про місцезнаходження. Наказ Drizly від жовтня 2022 року пішов ще далі: у ньому особисто було призначено головного виконавчого директора, що сигналізує про те, що реагування на порушення тепер стосується людей на вищому рівні, а не лише компанії.
Колекція даних для навчання ШІ – це куточок усього, що досі пишеться. The New York Times подала позов проти OpenAI 27 грудня 2023 року. Гільдія авторів подала позов трьома місяцями раніше, у вересні 2023 року, і обидві справи все ще тривали у 2026 році. Справа Getty проти Stability AI потім 4 листопада 2025 року призвела до рішення Високого суду Великої Британії, яке засудило правовласника. Суд визнав, що ваги моделей ШІ не є «копіями» згідно із Законом про авторське право, промислові зразки та патенти. Getty вже відмовилася від своїх основних позовів про порушення в середині судового розгляду. Колективний позов проти LinkedIn, поданий 21 січня 2025 року, був добровільно відхилений через дев'ять днів. Позов: навчання ШІ на приватних повідомленнях InMail. Доказ: LinkedIn показав, що дані не використовувалися для навчання жодної моделі. Поки що ситуація така, що колекцію даних для навчання ШІ важко оскаржити в суді, незалежно від того, наскільки погано виглядає зовнішній вигляд.
Одна цифра, яка постійно з'являється в галузевих колодах, заслуговує на виправлення. Помилка має значення, коли читачі цитують її. Угода TikTok щодо Закону про захист дітей в Інтернеті (COPPA) за 2019 рік проти організації Musical.ly становила 5,7 мільйона доларів. Не 5,9 мільярда доларів, які досі друкують деякі колоди. Новіші скарги до Міністерства юстиції та Федеральної торгової комісії, подані 2 серпня 2024 року, окремо вимагають до 51 744 доларів на день за кожне порушення, і вони все ще розглядаються у 2026 році.
Я не переконаний, що щось із цього стане простіше протягом наступного року. Прагматичне скорочення на 2026 рік: будь-який новий конвеєр збору даних потребує перевірки конфіденційності до того, як дані потраплять, а не після. Застосування темних шаблонів посилюється відповідно до Закону ЄС про цифрові послуги. Банери згоди тепер перевіряються на відповідність рекомендаціям EDPB. А тест на мотивованого порушника з оновлення британського ICO від березня 2025 року застосовується до всього, що позначено як «анонімізоване».
Вибір правильного методу збору даних
Вибір методу збору даних є найважливішим кроком у всьому дослідницькому процесі. Дерево рішень коротке. Почніть з дослідницького питання. Не з інструменту.
Якщо питання «скільки», оберіть кількісний метод: опитування, телеметрія, журнал транзакцій. Якщо питання «чому», оберіть якісний: інтерв'ю або відповіді з відкритим кінцем. Якщо ж питання «що тут відбувається, чого я ще не розумію», оберіть метод спостереження. Якщо вам потрібна і глибина, і масштаб, заздалегідь розробіть інструмент зі змішаними методами. Заплануйте вдвічі більший час для аналізу, ніж ви вважаєте за потрібне.
Три обмеження впливають на вибір. Етичний та юридичний аспект: у яких юрисдикціях знаходиться ваша аудиторія, і які правила згоди та утримання застосовуються? Бюджет: фокус-групи по 5000-9000 доларів за сеанс – це не найкращий варіант для дослідницького питання, на яке можна відповісти за два дні інтерв'ю. Часовий горизонт: опитування з великим N займають від двох до чотирьох тижнів для чистого циклу, етнографія – місяці, телеметрія – це реальний час, але припускається, що інструментарій вже існує.
Отже: академічна таксономія методів не змінювалася протягом двадцяти років. Бізнес-стек, який використовує ці методи, переписувався тричі за п'ять років. Юридичний рівень змінювався двічі за останні вісімнадцять місяців. Виберіть метод для питання. Потім припустімо, що план збору даних потребує перевірки конфіденційності до, а не після того, як перший запис з'явиться.

