SlideShare uma empresa Scribd logo
1 de 21
Как мы построили дешевую
инфраструктуру для анализа
трафика
Sports.ru & Tribuna.com
О нас
Олег
Новиков
Илья
Салтанов
Руководитель
отдела аналитики,
Аспирант
кафедры
«Кибернетики»
ВШЭ
Директор по
развитию,
Ex-CTO
Wikimart.ru,
Sports.ru
Кто мы?
caйта
sports.ru
ua.tribuna.com
by.Tribuna.com
12 000 000 посетителей
400 000 000 хитов
мобильных
приложений
потоков
в соцсетях
• Много разных источников данных
• Нужен интенсивный экспорт статистики
• Нужны сырые данные
• Нужны единые отчеты, система координат
и интерфейс
• ПОТОМУ ЧТО МОЖЕМ!
Зачем?
Решение
Хранилище RedShift
Сырые данные
– Кликстрим
– Активность
– Подписки + установки
Агрегаты
– Сессии
– По дням/неделям/месяцам
– Профили пользователей
Как устроены сайты?
Весь контент нанизан на теги:
– Новости, тексты, посты в блогах, фотографии, видео на
«Спартак», «премьер-лига», «Станислав Черчесов»
Из тегов собираются:
– Подсайты sports.ru/spartak
– Мобильные приложения iPhone, Android «Спартак+»
– Потоки в соцсетях twitter.com/fcspartaknews
Все посетители – clientID, все пользователи – userID
1 – Adhoc-анализ
• SQL-интерфейс
• Любые аналитические запросы OnDemand
• Анализ сырых данных с точностью до
clientID
• Без семплирования!
2 – Бизнес-анализ
Панели для всех отделов:
– Трафик
– Пользовательская активность
– Популярное #прямосейчас
– Соцсети
– Мобильные приложения
– Инвентарь продаж
– Редакционный процесс
3 – Регулярный обзор
Недельный обзор деятельности всех отделов:
– Маркетинг
– Продажи
– Редакция
– Продукт
– Социальная редакция
– Разработка
– ИТ
– Финансы
– Кадры
4 – Почтовые
рассылки
Компейнинг подписчиков:
– По интересам (тегам)
– По активности
– По пользовательскому профилю
5 – Рекомендации
• Единицы контента в конце текстов
• Подписки на блоги
• Часто используемые теги
• Общие друзья
• Общие интересы
6 – Поиск ботов
Проблема:
• Рейтинг контента (плюсы/минусы)
• Карма пользователей
• Ботнеты в экосистеме
Решение:
• Простые эвристики над данными
• Быстрый поиск коллизий
Расходы
3 человеко-месяца разработки:
– Фронтенд счетчика piwik
– Парсер кликстрима из логов nginx
– Агрегирующие функции в Redshift
– Экспорт/импорт данных
– Визуализация Chart.io
Расходы
Ежемесячно #прямосейчас:
$500 Chart.io 10 пользователей
$180x4 ноды Amazon Redshift
$300x2 фронтенд-сервера для логов
----------------------
$1,820
Контакты
«Как мы используем инфраструктуру
обработки данных?», «Как устроена
инфраструктура анализа данных?»
http://habrahabr.ru/company/sports_ru/
Илья Салтанов
https://facebook.com/isaltanov
Олег Новиков
https://facebook.com/oleg.novikov.5074

Mais conteúdo relacionado

Semelhante a Илья Салтанов, Олег Новиков (Sports.ru)

Информационное облако
Информационное облакоИнформационное облако
Информационное облакоstartuptour
 
Портальное решение
Портальное решениеПортальное решение
Портальное решениеdevclub
 
РИФ 2016, Перезапуск ИТ-архитектуры ИМ Экспедиции
РИФ 2016, Перезапуск ИТ-архитектуры ИМ ЭкспедицииРИФ 2016, Перезапуск ИТ-архитектуры ИМ Экспедиции
РИФ 2016, Перезапуск ИТ-архитектуры ИМ ЭкспедицииТарасов Константин
 
Презентация
ПрезентацияПрезентация
Презентацияsergess
 
InfoStream Презентация сервиса
InfoStream Презентация сервисаInfoStream Презентация сервиса
InfoStream Презентация сервисаinfostream
 
Веб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsВеб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsAndrew Fadeev
 
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемыCIT TROYA
 
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровЗащищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровAndrew Fadeev
 
Artix в основе развития
Artix в основе развития Artix в основе развития
Artix в основе развития PartnerSB
 
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...Anastasia Khuraskina
 
Услуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorУслуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorSvyatoslav Tkachev
 
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
 
Практические подходы к формированию и защите ИТ-бюджета
Практические подходы к формированию и защите ИТ-бюджетаПрактические подходы к формированию и защите ИТ-бюджета
Практические подходы к формированию и защите ИТ-бюджетаАлександр Костырко
 

Semelhante a Илья Салтанов, Олег Новиков (Sports.ru) (20)

Информационное облако
Информационное облакоИнформационное облако
Информационное облако
 
Портальное решение
Портальное решениеПортальное решение
Портальное решение
 
РИФ 2016, Перезапуск ИТ-архитектуры ИМ Экспедиции
РИФ 2016, Перезапуск ИТ-архитектуры ИМ ЭкспедицииРИФ 2016, Перезапуск ИТ-архитектуры ИМ Экспедиции
РИФ 2016, Перезапуск ИТ-архитектуры ИМ Экспедиции
 
MegaTable
MegaTableMegaTable
MegaTable
 
Презентация
ПрезентацияПрезентация
Презентация
 
Presentation2005
Presentation2005Presentation2005
Presentation2005
 
InfoStream Презентация сервиса
InfoStream Презентация сервисаInfoStream Презентация сервиса
InfoStream Презентация сервиса
 
Веб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsВеб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrends
 
SportFint
SportFintSportFint
SportFint
 
SportFint
SportFintSportFint
SportFint
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
 
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
 
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровЗащищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центров
 
Artix в основе развития
Artix в основе развития Artix в основе развития
Artix в основе развития
 
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
 
Услуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integratorУслуги разработки программного обеспечения под заказ. Step integrator
Услуги разработки программного обеспечения под заказ. Step integrator
 
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
 
Практические подходы к формированию и защите ИТ-бюджета
Практические подходы к формированию и защите ИТ-бюджетаПрактические подходы к формированию и защите ИТ-бюджета
Практические подходы к формированию и защите ИТ-бюджета
 
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архивSCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
 
Интернет вещей: идеи для стартапов
Интернет вещей: идеи для стартаповИнтернет вещей: идеи для стартапов
Интернет вещей: идеи для стартапов
 

Mais de Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

Mais de Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Илья Салтанов, Олег Новиков (Sports.ru)

  • 1. Как мы построили дешевую инфраструктуру для анализа трафика Sports.ru & Tribuna.com
  • 3. Кто мы? caйта sports.ru ua.tribuna.com by.Tribuna.com 12 000 000 посетителей 400 000 000 хитов мобильных приложений потоков в соцсетях
  • 4. • Много разных источников данных • Нужен интенсивный экспорт статистики • Нужны сырые данные • Нужны единые отчеты, система координат и интерфейс • ПОТОМУ ЧТО МОЖЕМ! Зачем?
  • 6. Хранилище RedShift Сырые данные – Кликстрим – Активность – Подписки + установки Агрегаты – Сессии – По дням/неделям/месяцам – Профили пользователей
  • 7. Как устроены сайты? Весь контент нанизан на теги: – Новости, тексты, посты в блогах, фотографии, видео на «Спартак», «премьер-лига», «Станислав Черчесов» Из тегов собираются: – Подсайты sports.ru/spartak – Мобильные приложения iPhone, Android «Спартак+» – Потоки в соцсетях twitter.com/fcspartaknews Все посетители – clientID, все пользователи – userID
  • 8. 1 – Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы OnDemand • Анализ сырых данных с точностью до clientID • Без семплирования!
  • 9. 2 – Бизнес-анализ Панели для всех отделов: – Трафик – Пользовательская активность – Популярное #прямосейчас – Соцсети – Мобильные приложения – Инвентарь продаж – Редакционный процесс
  • 10.
  • 11.
  • 12.
  • 13. 3 – Регулярный обзор Недельный обзор деятельности всех отделов: – Маркетинг – Продажи – Редакция – Продукт – Социальная редакция – Разработка – ИТ – Финансы – Кадры
  • 14.
  • 15. 4 – Почтовые рассылки Компейнинг подписчиков: – По интересам (тегам) – По активности – По пользовательскому профилю
  • 16. 5 – Рекомендации • Единицы контента в конце текстов • Подписки на блоги • Часто используемые теги • Общие друзья • Общие интересы
  • 17.
  • 18. 6 – Поиск ботов Проблема: • Рейтинг контента (плюсы/минусы) • Карма пользователей • Ботнеты в экосистеме Решение: • Простые эвристики над данными • Быстрый поиск коллизий
  • 19. Расходы 3 человеко-месяца разработки: – Фронтенд счетчика piwik – Парсер кликстрима из логов nginx – Агрегирующие функции в Redshift – Экспорт/импорт данных – Визуализация Chart.io
  • 20. Расходы Ежемесячно #прямосейчас: $500 Chart.io 10 пользователей $180x4 ноды Amazon Redshift $300x2 фронтенд-сервера для логов ---------------------- $1,820
  • 21. Контакты «Как мы используем инфраструктуру обработки данных?», «Как устроена инфраструктура анализа данных?» http://habrahabr.ru/company/sports_ru/ Илья Салтанов https://facebook.com/isaltanov Олег Новиков https://facebook.com/oleg.novikov.5074