Une introduction au Big Data, NoSQL et Open Data.
Il présente les avantages de NoSQL.
Une présentation des différents types des bases de données NoSQL.
1. Introduction au Big Data
Présentée par: Abdelghani Azri
Expert Java/JEE/Hybris
Sqli Rabat
5/14/2017 1
2. Sommaire
• C’est quoi le Big Data ?
• Exploitation du Big Data
• Limitation des SGBDR
• Bases de données NoSQL
• Exemples de Bases de données NoSQL
• Open Data
• Conclusion
5/14/2017 2
3. Big Data c’est quoi ?
• Big Data n’est pas:
• une technologie
• une technique
• une initiative isolée
• Ce qui est Big Data:
• Ensemble de technologies et
d’initiatives portant sur les données
• Ces données sont assez:
• Volumineuses
• Diverses
• Changeantes que les
infrastructures, technologies et
compétences traditionnelles
sont totalement dépassées
5/14/2017 3
4. Big Data c’est quoi ?
• Big Data a trait à la création, au
stockage, à l'accès et à l'analyse de flux
de données se caractérisant par les
fameux trois V :
Volume
Vélocité
Variété.
5/14/2017 4
5. Volume
• En 2000, un ordinateur lambda stockait
en moyenne 10 Go de données.
• À nos jour, on parle de To Ex:
• Facebook ingère 500 To de données par
jour
• Boeing 737 génère en moyenne 240 To de
données sur un vol intra-européen.
5/14/2017 5
6. Vélocité
• Les flux de clics (clickstreams) et les
impressions publicitaires
• Millions d'événements à la seconde pour
mieux cerner les comportements des
internautes.
• Les algorithmes de trading
• haute fréquence
• les fluctuations des marchés à la
microseconde près.
• Les infrastructures et capteurs
• Quantités colossales de logs en temps réel.
• Les plateformes de jeu en ligne
• Millions d'utilisateurs, à raison de multiples
flux à la seconde pour chacun d’entre eux.
5/14/2017 6
7. Variété
• Le Big Data n'est pas qu'une histoire de chiffres,
de dates et de chaînes de données.
• Le phénomène s’étend aussi aux éléments:
• géospatiaux,
• 3D,
• audio, vidéo
• Et autres données texte non structurées,:
• les fichiers log
• les données de réseaux sociaux
5/14/2017 7
8. Limitation des Bases de
données relationnelles
• Les bases de données traditionnelles ont été
conçues pour le stockage d'ensembles
structurés:
• peu volumineux,
• peu changeants,
• structure plus prévisible et plus cohérente.
• Modèle « une base, un serveur », rendant par là
même l'extension de capacités coûteuse et
limitée.
• Alors que les applications voient leurs bases
d’utilisateurs exploser et que la méthode agile
s'ancre dans les pratiques de développement,
les bases de données relationnelles apportent
plus de problèmes que de solutions.
• NoSQL: Relever le défi du Big Data pour en
libérer toute la valeur.
5/14/2017 8
9. La transformation du Big Data
• Sources du Big Data: Sites, réseaux sociaux, sensors, bases de
données…
• L’enjeu est transformer et structurer ces données
• Créer de la valeur à partir l’exploitation et l’analyse de ces données
• Améliorer la santé
• Améliorer l’environnement
• Analyse vocale, reconnaissance vocale
• Analyse des données en temps réel
• Marketing: Savoir la tendance des consommateurs. Ex: sites e-Commerce
• Les élections: Voting intentions (Flux twitter…)
5/14/2017 9
10. Migration vers Bases de données NoSQL
• NoSQL signifie “Not Only SQL”, littéralement “pas seulement SQL”.
• NoSQL ne vient pas remplacer les BD relationnelles
• Mais les compléter
5/14/2017 10
11. Pourquoi la NoSQL ?
• Performance
• Cohérence
• Haute disponibilité (Availability)
• Tolérance au Partitionnement
Théorème CAP
5/14/2017 11
13. Type Clé / valeur Orienté Document Orienté colonne Orienté Graph
Définition Hashmap distribuée
Pas de structure
Requête par clé
Ce modèle se base
sur le paradigme clé
valeur.
un document de type
JSON ou XML
Ce modèle ressemble
à première vue à une
table dans un SGBDR.
Le nombre de
colonnes est
dynamique
Ce modèle de
représentation des
données se base sur
la théorie des
graphes.
Notions de noeuds,
de relations et de
propriétés qui leur
sont rattachées
Exemples Redis, Riak ,
Voldemort
MongoDB,
CouchDB d’Apache,
RavenDB (.NET)
Cassandra
BigTable (google)
HBase
La principale solution
est Neo4J
Avantages la communication
avec la BD se
résumera aux
opérations PUT, GET
et DELETE
L’avantage est de
pouvoir récupérer, via
une seule clé, un
ensemble
d’informations
structurées de
manière hiérarchique
Le nombre de
colonnes peut varier
d’un enregistrement à
un autre ce qui évite
de retrouver des
colonnes ayant des
valeurs NULL
Ce modèle facilite la
représentation du
monde réel, ce qui le
rend adapté au
traitement des
données des réseaux
sociaux
Clients Linkedin Met Life, Facebook,
Google, Expedia
Facebook, Netflix,
IBM, Reddit, Twitter…
InfoJobs, gamesys…
5/14/2017 13
18. Exemple mapping Mongo DB
SQL Terms/Concepts MongoDB Terms/Concepts
database database
table collection
row document or BSON document
column field
index index
table joins $lookup, embedded documents
primary key
Specify any unique column or column combination as
primary key.
primary key
In MongoDB, the primary key is automatically set to
the _id field.
5/14/2017 18
19. Open Data C’est quoi ?
• Il s’agit de données auxquelles tout le monde peut accéder et que
tout le monde peut utiliser et partager.
• On peut accéder aux données car elles sont disponibles en ligne.
• On peut utiliser les données car elles sont disponibles sous une forme
commune et lisible par des machines.
5/14/2017 19
20. • L’open data permet une plus grande transparence pour les
gouvernements.
• Il peut aider à prouver que les fonds publics sont dépensés à bon
escient et que les politiques sont bien implémentées.
5/14/2017 20
21. Conclusion
• On a vu c’est quoi la Big Data: tendance, concept
• Les trois V: Volume, Variété, Vélocité
• Les bases de données du NoSQL
• Les quatre types des bases de données NoSQL
• L’utilité du NoSQL
5/14/2017 21
Cohérence : tous les noeuds du système voient exactement les mêmes données au même moment
Haute disponibilité (Availability) : en cas de panne, les données restent accessibles
Tolérance au Partitionnement : le système peut être partitionné