SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
Большие данные и
высокопроизводительные
вычисления
Федулова И.А., к.ф.-м.н.
IBM
Agenda
• Сравнениe HPC и Big Data
– Задачи
– Инфраструктура
– Алгоритмы и программы
• Современные тренды в Big Data
– Apache Spark
2
HPC: Задачи
Научное
исследование
Физический
эксперимент
Теория
Компьютерное
моделирование
3
HPC: Задачи
Науки о материалах
и нанотехнологии
Геномика Системная
биология
Гидродинамика
Финансы
и оценка рисков
Обработка
геофизических
данныхМоделирование климата
и землетрясений
Исследование
пандемий
4
HPC: Алгоритмы и программы
• Многие задачи сводятся к дифференциальным и
интегральным уравнениям
• Алгоритмы требуют большого количества обменов между
узлами
– MPI = Message Passing Interface
– PGAS = Partitioned Global Address Space
• Узлы многоядерные
– OpenMP, CUDA
– Гибридное программирование
• Математические библиотеки
– ESSL, ScaLAPACK, FFTW, …
• Прикладные программы
– Химия, биология, физика
– Визуализация
http://www.fz-juelich.de/ias/jsc/EN/Expertise/Support/Software/_node.html
5
HPC: Hardware = «суперкомпьютеры»
• Суперкомпьютер
– (почти) однородные узлы
– очень быстрая сеть
• Архитектура – тор или дерево
– Параллельная файловая система
• Lustre, IBM GPFS
– Бенчмарк
• Linpack http://www.netlib.org/linpack/
• Graph500 http://www.graph500.org/
– Основное внимание – утилизация cpu, memory, network
bandwidth
6
HPC: Примеры систем
• Top500
– http://top500.org/lists/2014/11/
7
HPC: Как выглядит суперкомпьютер
8
9
Big Data: The Four V’s
• Volume = Объем
• Variety = Разнообразие
• Velocity = Скорость
• Veracity = (Не)Достоверность
10
11
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
12
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
13
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
14
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Big Data: Задачи
• Задачи, параллельные по данным
– Применение одного преобразования ко всем элементам
• Машинное обучение
• Примеры
– Анализ логов
• Поведение пользователей в интернете
– Рекомендательные системы
» Магазины
» Банки
» Сотовые операторы
» …
• Internet Of Things: сенсоры
– Anomaly detection
– Анализ графов
• Социальные сети
15
Big Data: Алгоритмы и программы
16
• Data Mining and Machine Learning
– Снижение размерности (“dimensionality reduction”)
• Principal Component Analysis, locally linear embedding, …
– Регрессия
– Классификация
– Кластеризация
– Anomaly detection
– Supervised learning
• Нейросети, логистическая регрессия, support vector machines, k-NN
• Численные методы линейной алгебры
• External memory and cache obliviousness
– Algorithms and data structures minimizing I/Os for data not fitting
on memory but fitting on disk. B-trees, buffer trees, multiway
mergesort, …
Big Data: Алгоритмы и программы (2)
17
High
dim.
data
Locality  
sensitive  
hashing
Clustering
Dimension
ality  
reduction
Graph
data
PageRank,  
SimRank
Community  
Detection
Spam  
Detection
Infinite
data
Filtering  
data  
streams
Web  
advertising
Queries  on  
streams
Machine
learning
SVM
Decision  
Trees
Perceptron,  
kNN
Apps
Recommen
der  
systems
Association  
Rules
Duplicate  
document  
detection
J. Leskovec,A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
Аналогия: HPC vs Big Data
• Параллельное перемножение больших матриц
• Поэлементное перемножение матриц
x =
C(m,n)Row A(m,k) Col B(k,n)
C(m,n)
x =
B(m,n)A(m,n)
18
Big Data: Hardware = «датацентры»
• Commodity Cluster
– Традиционный – on premise
– Cloud
• Сеть может быть не очень быстрая и/или очень
неоднородная
– Архитектура интерконнекта – обычно «черный ящик» (особенно
на cloud)
• Большой объем HDD
– Параллельная файловая система
• Так как датацентры строят из обычных компонентов, то велик
failure rate
– Необходима избыточность и fault tolerant software
• Бенчмарк
– 1PB Parallel sort
• Основной фокус – нагрузка на HDD, network bandwidth
19
Big Data: примеры датацентров
• Google
– ~1 миллион серверов
– Проиндексировано 60*10^12 веб страниц
– Суммарное энергопотребление - 260MW
– 3*10^6 поисков в минуту
– http://www.google.com/about/datacenters
• Microsoft
– ~1 миллион серверов
– Bing, One Drive, Azure cloud, …
• Facebook
– ~200 000 серверов
– Обеспечивает трафик для 1.35 миллиарда пользователей
– …которые закачивают 750Тб контента в сутки
– Собственная инфраструктура сети – data center fabric
• Yandex
– Около 10 датацентров
– http://habrahabr.ru/company/yandex/blog/258823/
20
21
Map Reduce
• Программная модель для обработки распределенных
данных
– Идея пришла из функциональных языков
• Map() = применение некоторой элементарной операции
ко всем элементам списка
• Reduce() = «свёртка» – преобразование списка к одному
значению при помощи заданной функции
• Google MapReduce (2004)
– http://research.google.com/archive/mapreduce.html
• Apache Hadoop – opensource реализация
– Всю работу по распределению работы фреймворк берет на
себя
22
Map Reduce: Пример
• Word Count
23
Image source: http://blog.trifork.com/2009/08/04/introduction-to-hadoop/
Hadoop Distributed File System
• Основные идеи
– Hardware failure tolerance
– Batch processing oriented
• High throughput instead of low latency
– Large datasets
• 10000+ nodes, ~450PB
– Simple Coherency Model
• Write once, read many - no appending writes
– “Moving Computation is Cheaper than Moving Data”
– Portability
• HDFS живет поверх файловой системы ОС
24
Hadoop Distributed File System (2)
https://www.cac.cornell.edu/vw/MapReduce/dfs.aspx
Block size = 64MB
Replication factor = 3
25
Big Data: Экосистема
Image: www.facebook.com/hadoopers 26
Map Reduce и дисковые операции
27
Итеративные алгоритмы работают очень медленно
Spark
• Развитие идей Hadoop Map Reduce
• Хранение промежуточных результатов в оперативной
памяти
– До 100 раз быстрее, чем Hadoop
• Итеративные алгоритмы машинного обучения
• Интерактивное изучение данных
• Real-time stream processing
• Написан на Scala
– + поддерживает Python, Java
28
Основная идея Spark
• Алгоритм формулируется в терминах преобразований
датасетов
• Resilient Distributed Dataset (RDD)
– Коллекция объектов, которые могут храниться в памяти или на
диске
– Построена при помощи параллельных преобразований
– Последовательность преобразований (lineage) записывается
– В случае сбоев объекты автоматически вычисляются заново
• Всю работу по распределению работы фреймворк берет
на себя
29
Возможные операции над RDD
map
filter
groupBy
union
join
leftOuterJoin
rightOuterJoibn
reduce
count
fold
reduceByKey
groupByKey
cogroup
flatMap
take
first
partitionBy
pipe
distinct
save
...
30
Word Count: From Map Reduce to Spark
Map Reduce Spark
31
http://www.slideshare.net/databricks/bdtc2
Hadoop vs Spark
32
http://www.slideshare.net/databricks/bdtc2
Spark Components
• Spark streaming
• MLLib
• SparkSQL
• GraphX
• SparkR
• …
33
Berkeley Data Analytics Stack
https://amplab.cs.berkeley.edu/software
34
IBM and Spark
• http://www.ibm.com/analytics/us/en/technology/spark/
• IBM SystemML – технология машинного обучения будет
встроена в Spark
• IBM Analytics продукты будут поддерживать Spark
на IBM BlueMix
• Будет открыт Spark Technology Center в Сан-Франциско
• MOOC Обучение для data scientists
35
Big Data Online Education
• edX
– Introduction to Big Data with Apache Spark
• https://courses.edx.org/courses/BerkeleyX/CS100.1x/1T2015/info
– Scalable Machine Learning with Apache Spark
• https://courses.edx.org/courses/BerkeleyX/CS190.1x/1T2015/info
• Udacity
– Intro To Hadoop and Map Reduce
• https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617
• Coursera
– Mining Massive Datasets
• https://www.coursera.org/course/mmds
– Machine Learning
• https://www.coursera.org/learn/machine-learning/home/info
• IBM Big Data University
– http://bigdatauniversity.com/
• Kaggle competitions
– https://www.kaggle.com/
36
Заключение
• HPC vs Big Data
– Нужно определиться с терминологией
– «Разные» задачи?
– «Разная» инфраструктура?
• Beouwlf cluster == HPC of 1994 == “Big Data” cluster of today
• Infiniband + Hadoop = HPC?
37
HPC
Big
Data
Big
Compute
Спасибо!
irina@ru.ibm.com
38

Mais conteúdo relacionado

Mais procurados

Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
Uniting Data JavaOne2013
Uniting Data JavaOne2013Uniting Data JavaOne2013
Uniting Data JavaOne2013Dmitri Shiryaev
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...Dmitri Chubarov
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?aragozin
 
Блеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейБлеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейaragozin
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Задача распределения ресурсов ЦОД и алгоритмы ее решения
Задача распределения ресурсов ЦОД и алгоритмы ее решенияЗадача распределения ресурсов ЦОД и алгоритмы ее решения
Задача распределения ресурсов ЦОД и алгоритмы ее решенияARCCN
 

Mais procurados (12)

Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Uniting Data JavaOne2013
Uniting Data JavaOne2013Uniting Data JavaOne2013
Uniting Data JavaOne2013
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?Распределённый кэш или хранилище данных. Что выбрать?
Распределённый кэш или хранилище данных. Что выбрать?
 
Apache Hive
Apache HiveApache Hive
Apache Hive
 
Блеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейБлеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшей
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
A.g.demenev(perm su) 2014
A.g.demenev(perm su) 2014A.g.demenev(perm su) 2014
A.g.demenev(perm su) 2014
 
Задача распределения ресурсов ЦОД и алгоритмы ее решения
Задача распределения ресурсов ЦОД и алгоритмы ее решенияЗадача распределения ресурсов ЦОД и алгоритмы ее решения
Задача распределения ресурсов ЦОД и алгоритмы ее решения
 
Big Data и ArcGIS
Big Data и ArcGISBig Data и ArcGIS
Big Data и ArcGIS
 

Destaque

Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...CleverDATA
 
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015rusbase
 
Николай Птицын — Synesis — ICBDA 2015
Николай Птицын — Synesis — ICBDA 2015Николай Птицын — Synesis — ICBDA 2015
Николай Птицын — Synesis — ICBDA 2015rusbase
 
Роман Постников — «Мегафон» — ICBDA 2015
Роман Постников — «Мегафон» — ICBDA 2015Роман Постников — «Мегафон» — ICBDA 2015
Роман Постников — «Мегафон» — ICBDA 2015rusbase
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russiarusbase.vc
 
Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015rusbase
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...bigdatabm
 
Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Ivan Selikhovkin
 
Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"EPAM Systems
 
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Yandex
 
Coursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуCoursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуAndrey Zhelankin
 
внедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMвнедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMZaur Abutalimov
 
Четвертая волна менеджмента
Четвертая волна менеджмента Четвертая волна менеджмента
Четвертая волна менеджмента Alexander Abolmasov
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхLiloSEA
 
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...bigdatabm
 

Destaque (20)

Maslik 06.12.11
Maslik 06.12.11Maslik 06.12.11
Maslik 06.12.11
 
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
 
CNews Big Data
CNews Big DataCNews Big Data
CNews Big Data
 
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015
 
Николай Птицын — Synesis — ICBDA 2015
Николай Птицын — Synesis — ICBDA 2015Николай Птицын — Synesis — ICBDA 2015
Николай Птицын — Synesis — ICBDA 2015
 
Роман Постников — «Мегафон» — ICBDA 2015
Роман Постников — «Мегафон» — ICBDA 2015Роман Постников — «Мегафон» — ICBDA 2015
Роман Постников — «Мегафон» — ICBDA 2015
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russia
 
Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015Сергей Чернов — Yandex Data Factory — ICBDA 2015
Сергей Чернов — Yandex Data Factory — ICBDA 2015
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
 
Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)
 
Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"
 
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
 
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
 
Coursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуCoursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатику
 
внедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMвнедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAM
 
Fish.pptx
Fish.pptxFish.pptx
Fish.pptx
 
Четвертая волна менеджмента
Четвертая волна менеджмента Четвертая волна менеджмента
Четвертая волна менеджмента
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетях
 
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
 
Codename one epam
Codename one epamCodename one epam
Codename one epam
 

Semelhante a HPC vs Big Data (Russian version)

12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...HappyDev-lite
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...HappyDev
 
Лекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelЛекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelTechnopark
 
Пути увеличения эффективности реализации алгоритмов машинного обучения
Пути увеличения эффективности реализации алгоритмов машинного обученияПути увеличения эффективности реализации алгоритмов машинного обучения
Пути увеличения эффективности реализации алгоритмов машинного обученияAndrew Babiy
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data MATLAB
 
Разработка веб-сервисов осень 2013 лекция 11
Разработка веб-сервисов осень 2013 лекция 11Разработка веб-сервисов осень 2013 лекция 11
Разработка веб-сервисов осень 2013 лекция 11Technopark
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...Mikhail Kurnosov
 
Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"RKVector
 
Talksum dec2013 rus_generic
Talksum dec2013 rus_genericTalksum dec2013 rus_generic
Talksum dec2013 rus_genericdartemiev
 
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...Mikhail Kurnosov
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop Vladimir Klimontovich
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисленияMATLAB
 
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Ontico
 
Машины баз данных на Web-scale IT — 2017 (РИТ++)
Машины баз данных на Web-scale IT — 2017 (РИТ++)Машины баз данных на Web-scale IT — 2017 (РИТ++)
Машины баз данных на Web-scale IT — 2017 (РИТ++)Andrei Nikolaenko
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Fwdays
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 

Semelhante a HPC vs Big Data (Russian version) (20)

12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
 
Лекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель PregelЛекция 11. Вычислительная модель Pregel
Лекция 11. Вычислительная модель Pregel
 
апрель
апрельапрель
апрель
 
Пути увеличения эффективности реализации алгоритмов машинного обучения
Пути увеличения эффективности реализации алгоритмов машинного обученияПути увеличения эффективности реализации алгоритмов машинного обучения
Пути увеличения эффективности реализации алгоритмов машинного обучения
 
Работа с Big Data
Работа с Big Data Работа с Big Data
Работа с Big Data
 
Разработка веб-сервисов осень 2013 лекция 11
Разработка веб-сервисов осень 2013 лекция 11Разработка веб-сервисов осень 2013 лекция 11
Разработка веб-сервисов осень 2013 лекция 11
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, paral...
 
Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"Технико-коммерческое предложение "База знаний"
Технико-коммерческое предложение "База знаний"
 
Talksum dec2013 rus_generic
Talksum dec2013 rus_genericTalksum dec2013 rus_generic
Talksum dec2013 rus_generic
 
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
Лекция 5. Основы параллельного программирования (Speedup, Amdahl's law, Paral...
 
ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop ADD2010: Обработка большого объема данных на платформеApache Hadoop
ADD2010: Обработка большого объема данных на платформеApache Hadoop
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисления
 
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
 
Машины баз данных на Web-scale IT — 2017 (РИТ++)
Машины баз данных на Web-scale IT — 2017 (РИТ++)Машины баз данных на Web-scale IT — 2017 (РИТ++)
Машины баз данных на Web-scale IT — 2017 (РИТ++)
 
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 

HPC vs Big Data (Russian version)

  • 2. Agenda • Сравнениe HPC и Big Data – Задачи – Инфраструктура – Алгоритмы и программы • Современные тренды в Big Data – Apache Spark 2
  • 4. HPC: Задачи Науки о материалах и нанотехнологии Геномика Системная биология Гидродинамика Финансы и оценка рисков Обработка геофизических данныхМоделирование климата и землетрясений Исследование пандемий 4
  • 5. HPC: Алгоритмы и программы • Многие задачи сводятся к дифференциальным и интегральным уравнениям • Алгоритмы требуют большого количества обменов между узлами – MPI = Message Passing Interface – PGAS = Partitioned Global Address Space • Узлы многоядерные – OpenMP, CUDA – Гибридное программирование • Математические библиотеки – ESSL, ScaLAPACK, FFTW, … • Прикладные программы – Химия, биология, физика – Визуализация http://www.fz-juelich.de/ias/jsc/EN/Expertise/Support/Software/_node.html 5
  • 6. HPC: Hardware = «суперкомпьютеры» • Суперкомпьютер – (почти) однородные узлы – очень быстрая сеть • Архитектура – тор или дерево – Параллельная файловая система • Lustre, IBM GPFS – Бенчмарк • Linpack http://www.netlib.org/linpack/ • Graph500 http://www.graph500.org/ – Основное внимание – утилизация cpu, memory, network bandwidth 6
  • 7. HPC: Примеры систем • Top500 – http://top500.org/lists/2014/11/ 7
  • 8. HPC: Как выглядит суперкомпьютер 8
  • 9. 9
  • 10. Big Data: The Four V’s • Volume = Объем • Variety = Разнообразие • Velocity = Скорость • Veracity = (Не)Достоверность 10
  • 15. Big Data: Задачи • Задачи, параллельные по данным – Применение одного преобразования ко всем элементам • Машинное обучение • Примеры – Анализ логов • Поведение пользователей в интернете – Рекомендательные системы » Магазины » Банки » Сотовые операторы » … • Internet Of Things: сенсоры – Anomaly detection – Анализ графов • Социальные сети 15
  • 16. Big Data: Алгоритмы и программы 16 • Data Mining and Machine Learning – Снижение размерности (“dimensionality reduction”) • Principal Component Analysis, locally linear embedding, … – Регрессия – Классификация – Кластеризация – Anomaly detection – Supervised learning • Нейросети, логистическая регрессия, support vector machines, k-NN • Численные методы линейной алгебры • External memory and cache obliviousness – Algorithms and data structures minimizing I/Os for data not fitting on memory but fitting on disk. B-trees, buffer trees, multiway mergesort, …
  • 17. Big Data: Алгоритмы и программы (2) 17 High dim. data Locality   sensitive   hashing Clustering Dimension ality   reduction Graph data PageRank,   SimRank Community   Detection Spam   Detection Infinite data Filtering   data   streams Web   advertising Queries  on   streams Machine learning SVM Decision   Trees Perceptron,   kNN Apps Recommen der   systems Association   Rules Duplicate   document   detection J. Leskovec,A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
  • 18. Аналогия: HPC vs Big Data • Параллельное перемножение больших матриц • Поэлементное перемножение матриц x = C(m,n)Row A(m,k) Col B(k,n) C(m,n) x = B(m,n)A(m,n) 18
  • 19. Big Data: Hardware = «датацентры» • Commodity Cluster – Традиционный – on premise – Cloud • Сеть может быть не очень быстрая и/или очень неоднородная – Архитектура интерконнекта – обычно «черный ящик» (особенно на cloud) • Большой объем HDD – Параллельная файловая система • Так как датацентры строят из обычных компонентов, то велик failure rate – Необходима избыточность и fault tolerant software • Бенчмарк – 1PB Parallel sort • Основной фокус – нагрузка на HDD, network bandwidth 19
  • 20. Big Data: примеры датацентров • Google – ~1 миллион серверов – Проиндексировано 60*10^12 веб страниц – Суммарное энергопотребление - 260MW – 3*10^6 поисков в минуту – http://www.google.com/about/datacenters • Microsoft – ~1 миллион серверов – Bing, One Drive, Azure cloud, … • Facebook – ~200 000 серверов – Обеспечивает трафик для 1.35 миллиарда пользователей – …которые закачивают 750Тб контента в сутки – Собственная инфраструктура сети – data center fabric • Yandex – Около 10 датацентров – http://habrahabr.ru/company/yandex/blog/258823/ 20
  • 21. 21
  • 22. Map Reduce • Программная модель для обработки распределенных данных – Идея пришла из функциональных языков • Map() = применение некоторой элементарной операции ко всем элементам списка • Reduce() = «свёртка» – преобразование списка к одному значению при помощи заданной функции • Google MapReduce (2004) – http://research.google.com/archive/mapreduce.html • Apache Hadoop – opensource реализация – Всю работу по распределению работы фреймворк берет на себя 22
  • 23. Map Reduce: Пример • Word Count 23 Image source: http://blog.trifork.com/2009/08/04/introduction-to-hadoop/
  • 24. Hadoop Distributed File System • Основные идеи – Hardware failure tolerance – Batch processing oriented • High throughput instead of low latency – Large datasets • 10000+ nodes, ~450PB – Simple Coherency Model • Write once, read many - no appending writes – “Moving Computation is Cheaper than Moving Data” – Portability • HDFS живет поверх файловой системы ОС 24
  • 25. Hadoop Distributed File System (2) https://www.cac.cornell.edu/vw/MapReduce/dfs.aspx Block size = 64MB Replication factor = 3 25
  • 26. Big Data: Экосистема Image: www.facebook.com/hadoopers 26
  • 27. Map Reduce и дисковые операции 27 Итеративные алгоритмы работают очень медленно
  • 28. Spark • Развитие идей Hadoop Map Reduce • Хранение промежуточных результатов в оперативной памяти – До 100 раз быстрее, чем Hadoop • Итеративные алгоритмы машинного обучения • Интерактивное изучение данных • Real-time stream processing • Написан на Scala – + поддерживает Python, Java 28
  • 29. Основная идея Spark • Алгоритм формулируется в терминах преобразований датасетов • Resilient Distributed Dataset (RDD) – Коллекция объектов, которые могут храниться в памяти или на диске – Построена при помощи параллельных преобразований – Последовательность преобразований (lineage) записывается – В случае сбоев объекты автоматически вычисляются заново • Всю работу по распределению работы фреймворк берет на себя 29
  • 30. Возможные операции над RDD map filter groupBy union join leftOuterJoin rightOuterJoibn reduce count fold reduceByKey groupByKey cogroup flatMap take first partitionBy pipe distinct save ... 30
  • 31. Word Count: From Map Reduce to Spark Map Reduce Spark 31 http://www.slideshare.net/databricks/bdtc2
  • 33. Spark Components • Spark streaming • MLLib • SparkSQL • GraphX • SparkR • … 33
  • 34. Berkeley Data Analytics Stack https://amplab.cs.berkeley.edu/software 34
  • 35. IBM and Spark • http://www.ibm.com/analytics/us/en/technology/spark/ • IBM SystemML – технология машинного обучения будет встроена в Spark • IBM Analytics продукты будут поддерживать Spark на IBM BlueMix • Будет открыт Spark Technology Center в Сан-Франциско • MOOC Обучение для data scientists 35
  • 36. Big Data Online Education • edX – Introduction to Big Data with Apache Spark • https://courses.edx.org/courses/BerkeleyX/CS100.1x/1T2015/info – Scalable Machine Learning with Apache Spark • https://courses.edx.org/courses/BerkeleyX/CS190.1x/1T2015/info • Udacity – Intro To Hadoop and Map Reduce • https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617 • Coursera – Mining Massive Datasets • https://www.coursera.org/course/mmds – Machine Learning • https://www.coursera.org/learn/machine-learning/home/info • IBM Big Data University – http://bigdatauniversity.com/ • Kaggle competitions – https://www.kaggle.com/ 36
  • 37. Заключение • HPC vs Big Data – Нужно определиться с терминологией – «Разные» задачи? – «Разная» инфраструктура? • Beouwlf cluster == HPC of 1994 == “Big Data” cluster of today • Infiniband + Hadoop = HPC? 37 HPC Big Data Big Compute