02.05.2024
Очистка и подготовка веб-данных для модели. Кейс по ETL
Полная версия блокнота с кодом в репозитории GitHub для уточнения технических деталей:
Смотреть на GitHub
Контекст
У клиента — крупного автомобильного портала — стояла задача: разобраться в поведении пользователей на сайте и понять, какие модели авто их интересуют. Имеющиеся данные о сессиях и событиях были “сырыми” и требовали глубокой предобработки.
Цель проекта
- Подготовка данных для построения воронки: визит → карточка авто → событие
- Извлечение модели авто из URL
- Очистка и типизация данных для дальнейшей загрузки в BI или ML-систему
Что было сделано
1. Очистка данных
- Удалены дубликаты строк
- Колонка
event_valueиdevice_modelудалены из-за 100% и 99% пропусков соответственно - Пропуски в
utm_campaign,device_os,event_labelи других колонках заполнены модой или медианой в зависимости от типа
2. Преобразование URL в признак модели
- Из поля
hit_page_pathизвлечена модель автомобиля - Все параметры после
?удалены - Нелогичные и неинформативные пути заменены на
'other page'
Решение задач анализа данных
Для решения аналитических задач произведена дополнительная подготовка данных:
- Объединены датасеты
df_sessionsиdf_hitsпо признакуsession_id, чтобы связать источники трафика с пользовательскими действиями. - Сгенерирован бинарный признак “conversion”:
1, если пользователь совершил целевое действие, и0— если нет. - Сформирован признак “канал” со значениями:
органический— если источник трафика соответствует SEO или прямым заходам,платный— если это реклама (например, utm_source содержитyandex,google,cpc).
- Добавлен признак “город присутствия”, где города сегментируются на:
город присутствия— если город входит в список целевых,другие— все остальные.
- Выделены социальные сети в отдельный признак “соцсети”:
соцсети— если источник содержитvk,facebook,instagram,ok,другие— все остальные источники.
📌 Эти признаки позволили провести более точный анализ каналов трафика, выявить сильные и слабые стороны рекламных кампаний и построить корректную воронку конверсии.
Проверка гипотезы 1: влияет ли тип трафика на конверсию
📌 Гипотеза:
Органический трафик не отличается от платного по коэффициенту конверсии (CR) в целевые события.
Для проверки этой гипотезы были использованы два статистических метода:
- Z-тест для пропорций — классический метод сравнения двух групп по доле успешных исходов;
- Тест хи-квадрат (χ²) — для оценки значимости различий между двумя категориальными признаками:
channelиconversion.
🔍 Результат: различие между Conversion Rate органического и платного трафика оказалось статистически значимым. Это говорит о том, что источники трафика действительно по-разному влияют на вероятность конверсии.
Визуализация
Ниже представлено сравнение средних CR для двух типов трафика:
📈 Вывод: органический и платный трафик следует анализировать и оптимизировать раздельно — с учетом их эффективности в достижении целевых действий.
Гипотеза 2: Влияние типа устройства на Conversion Rate
Формулировка гипотезы:
Трафик с мобильных устройств не отличается от трафика с десктопных устройств с точки зрения CR (Conversion Rate) в целевые события.
Проверка гипотезы с помощью Z-теста:
Результаты теста показывают, что различие между CR мобильных и десктопных устройств статистически значимо.
Проверка гипотезы методом Хи-квадрат:
Также подтверждает наличие статистически значимых различий между двумя типами трафика.
Визуализация
Гипотеза 3: Влияние географии на Conversion Rate
Формулировка гипотезы:
Трафик из городов присутствия (Москва и область, Санкт-Петербург) не отличается от трафика из иных регионов с точки зрения CR (Conversion Rate) в целевые события.
Проверка гипотезы с помощью Z-теста:
Результаты показывают, что различие между CR в городах присутствия и остальных регионах статистически значимо.
Проверка гипотезы методом Хи-квадрат:
Также подтверждает наличие статистически значимого различия между двумя географическими группами.
Визуализация
Выводы по проверке гипотез
Все три гипотезы были проверены двумя разными методами с уровнем значимости 0,05, и получены следующие результаты:
1. Гипотеза: Органический трафик vs Платный трафик
- Результат: Различие между CR органического и CR платного трафика статистически значимо.
- Вывод: Конверсия органического трафика выше, чем у платного. Это может говорить о более высоком качестве аудитории, привлеченной через органические каналы, или о большем доверии пользователей к не рекламированным ссылкам.
2. Гипотеза: Мобильный трафик vs Десктопный трафик
- Результат: Различие между CR мобильных и десктопных устройств статистически значимо.
- Вывод: Мобильные пользователи демонстрируют более высокий коэффициент конверсии по сравнению с пользователями десктопных устройств. Это может быть связано с увеличением использования мобильных устройств для онлайн-покупок и удобством мобильных интерфейсов.
3. Гипотеза: Трафик из городов присутствия vs Трафик из других городов
- Результат: Различие между CR в городах присутствия (Москва и Санкт-Петербург) и других городах статистически значимо.
- Вывод: Пользователи из крупных городов показывают более высокий коэффициент конверсии, чем пользователи из других регионов. Это может быть связано с локальными особенностями рынка, а также с более высокими затратами на маркетинг в крупных городах.
Заключение
Анализ показал, что:
- Органический трафик имеет более высокий коэффициент конверсии по сравнению с платным.
- Мобильный трафик демонстрирует лучшие результаты в сравнении с десктопным.
- Регионы с высокой концентрацией пользователей (города присутствия) показывают более высокие показатели по конверсии.
Эти результаты могут быть полезными для дальнейшей оптимизации маркетинговых стратегий и более точного планирования рекламных кампаний.