SlideShare uma empresa Scribd logo
1 de 21
ICT사업본부장 정수화
shjeong@iworks.kr
Hadoop 기반 빅데이터 이해
빅데이타 개념
• 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측
• 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수
집, 저장, 검색, 분석, 시각화등 어렵다.
• 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범
위를 초과하는 규모의 데이타
빅데이타 출현 배경
• 비정형 데이터 급증
- 문자, 음성, GPS, 영상, 인터넷 SNS,
• 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩,
비콘 ,
• 멀티미디어 콘텐츠 사용 관련 정보
• 각종 센서로 부터 데이터 수집, 저장 – IoT
• 정보의 바다 정보의 홍수
빅데이타 특성 – 3V
• Volume( 데이터 량)
• Variety( 다양성)
• Velocity (빠른 생성, 빠른 처리)
Value
새로운 가치 창조
빅데이타 가치
빅데이타 활용
구글 Trend
빅데이타 분석시스템 – 시스템 개념도
하둡 - Hadoop
• 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴
퓨팅의 성능과 효율 향상
• 구성
- HDFS (Hadoop Distributed File System)
- Map Reduce(분산 처리프로그래밍)
HDFS - 하둡파일시스템
• 클러스터 환경에서 대용량 데이터를 분산해서 안정적
으로 저장하는 프레임워크
• 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬
• 덩어리를 복제하여 전체 클러스터에 분산 저장
• 일부 노드 장애는 서비스에 영향을 주지 않음
HDFS
• 수백GB – 수 TB 지원
• Write Once Read Many 파일 시스템
- 한번 작성되면 바뀔 필요없는 경우
- Append 만 가능
• 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
MapReduce
• 하둡 분산파일시스템에 저장된 분산데이타를 클러스
터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하
는 프레임워크
• 함수형 프로그램에서 일반적으로 사용하는 Map과
Reduce라는 함수 기반으로 구성
• 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
Map/Reduce 예시 – word count
시각화
• 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로
써 그 패턴을 인지하게 만드는 것이다.
• 통계/분석의 가장 중요한 부분.
1. 데이터의 특성을 쉽게 파악( vs 통계량 )
2. 결과 레포트에 활용
-> 독립된 학문/기술 분야로 발전
• 근거 : 사람은 탁월한 패턴 인식 능력이 있음.
• 데이터 패턴 파악의 도구, 분석을 돕는 역할
-> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머
/오락성
빅데이타 처리 과정
빅데이타 활용 - 공공
• 목적 : 과학적 정책 의사결정
• 스마트 시티
• 서울시 지하철 승객 분포 – 가장 복잡한 지하철,..
• 성남시 도서관 자료 분석
• 해운대구 쓰레기 무단 투기
• 서울시 심야버스 분석
• 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원
• 관광객 정보 분석 – 축제기간 유입인구 분석
• 유동인구 분석으로 상권 분석
• 범죄예방 – 20대 여성인구 시간대별 분석
빅데이타 활용 – 유통, 제조, 금융,.
• 목적 : 비용절감, 수익 창출
• 아마존 – 고객의 구매이력 데이터 분석
• 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션
• 넷플릭스 – 개인화된 VOD 서비스
• 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거
• 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성
향상
• 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
정리
• ICBM – IoT, Cloud, Bigdata, Mobile
• 성장 분야
• 데이터 축적이 기본
• 사업 구상에서 closing까지 오랜 기간 소요(2-3년)
• 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력
• 소규모 IT인력 openstack으로 Bigdata 분석은 무리
ICT사업본부장 정수화
shjeong@iworks.kr
Thank you!

Mais conteúdo relacionado

Mais procurados

pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Inside vacuum - 第一回PostgreSQLプレ勉強会
Inside vacuum - 第一回PostgreSQLプレ勉強会Inside vacuum - 第一回PostgreSQLプレ勉強会
Inside vacuum - 第一回PostgreSQLプレ勉強会Masahiko Sawada
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요NAVER D2
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
Massive service basic
Massive service basicMassive service basic
Massive service basicDaeMyung Kang
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)Satoshi Yamada
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Hyoungjun Kim
 
Airflow를 이용한 데이터 Workflow 관리
Airflow를 이용한  데이터 Workflow 관리Airflow를 이용한  데이터 Workflow 관리
Airflow를 이용한 데이터 Workflow 관리YoungHeon (Roy) Kim
 
MySQL SYSスキーマのご紹介
MySQL SYSスキーマのご紹介MySQL SYSスキーマのご紹介
MySQL SYSスキーマのご紹介Shinya Sugiyama
 
カスタムプランと汎用プラン
カスタムプランと汎用プランカスタムプランと汎用プラン
カスタムプランと汎用プランMasao Fujii
 
さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)Takanori Sejima
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
My first 90 days with ClickHouse.pdf
My first 90 days with ClickHouse.pdfMy first 90 days with ClickHouse.pdf
My first 90 days with ClickHouse.pdfAlkin Tezuysal
 
SQLチューニング入門 入門編
SQLチューニング入門 入門編SQLチューニング入門 入門編
SQLチューニング入門 入門編Miki Shimogai
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化Google Cloud Platform - Japan
 
binary log と 2PC と Group Commit
binary log と 2PC と Group Commitbinary log と 2PC と Group Commit
binary log と 2PC と Group CommitTakanori Sejima
 

Mais procurados (20)

pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_standbyの今後について(第19回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Inside vacuum - 第一回PostgreSQLプレ勉強会
Inside vacuum - 第一回PostgreSQLプレ勉強会Inside vacuum - 第一回PostgreSQLプレ勉強会
Inside vacuum - 第一回PostgreSQLプレ勉強会
 
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
[2B7]시즌2 멀티쓰레드프로그래밍이 왜 이리 힘드나요
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
Massive service basic
Massive service basicMassive service basic
Massive service basic
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)
PostgreSQLの実行計画を読み解こう(OSC2015 Spring/Tokyo)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
 
Airflow를 이용한 데이터 Workflow 관리
Airflow를 이용한  데이터 Workflow 관리Airflow를 이용한  데이터 Workflow 관리
Airflow를 이용한 데이터 Workflow 관리
 
MySQL SYSスキーマのご紹介
MySQL SYSスキーマのご紹介MySQL SYSスキーマのご紹介
MySQL SYSスキーマのご紹介
 
カスタムプランと汎用プラン
カスタムプランと汎用プランカスタムプランと汎用プラン
カスタムプランと汎用プラン
 
さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)さいきんの InnoDB Adaptive Flushing (仮)
さいきんの InnoDB Adaptive Flushing (仮)
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
My first 90 days with ClickHouse.pdf
My first 90 days with ClickHouse.pdfMy first 90 days with ClickHouse.pdf
My first 90 days with ClickHouse.pdf
 
SQLチューニング入門 入門編
SQLチューニング入門 入門編SQLチューニング入門 入門編
SQLチューニング入門 入門編
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
 
binary log と 2PC と Group Commit
binary log と 2PC と Group Commitbinary log と 2PC と Group Commit
binary log と 2PC と Group Commit
 

Semelhante a Hadoop 기반 빅데이터 이해

[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획Han Woo PARK
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영datasciencekorea
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)doo rip choi
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712Sunghun Bae
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
빅데이터
빅데이터빅데이터
빅데이터1jungeee
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력현주 유
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Seul Koo
 

Semelhante a Hadoop 기반 빅데이터 이해 (20)

[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
빅데이터
빅데이터빅데이터
빅데이터
 
국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향국내외 공간빅데이터 정책 및 기술동향
국내외 공간빅데이터 정책 및 기술동향
 
빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력빅 데이터, 새로운 통찰력
빅 데이터, 새로운 통찰력
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략
 
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료
 

Mais de 아이웍스 | iWorks Inc.

2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)아이웍스 | iWorks Inc.
 
Smart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. SolutionSmart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. Solution아이웍스 | iWorks Inc.
 
How to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 ServerHow to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 Server아이웍스 | iWorks Inc.
 
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여아이웍스 | iWorks Inc.
 
iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여아이웍스 | iWorks Inc.
 

Mais de 아이웍스 | iWorks Inc. (6)

아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406아이웍스 회사소개서(3.5.2)-20180406
아이웍스 회사소개서(3.5.2)-20180406
 
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)
 
Smart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. SolutionSmart Hospital을 위한 IBM IT Infra. Solution
Smart Hospital을 위한 IBM IT Infra. Solution
 
How to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 ServerHow to use the server guide update_ver2 for IBM x86 Server
How to use the server guide update_ver2 for IBM x86 Server
 
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
iWorks 아이웍스의 비즈니스, IBM Power Chip(CPU)에 대하여
 
iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여iWorks 아이웍스의 비즈니스, IBM에 대하여
iWorks 아이웍스의 비즈니스, IBM에 대하여
 

Hadoop 기반 빅데이터 이해

  • 2. 빅데이타 개념 • 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측 • 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수 집, 저장, 검색, 분석, 시각화등 어렵다. • 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범 위를 초과하는 규모의 데이타
  • 3. 빅데이타 출현 배경 • 비정형 데이터 급증 - 문자, 음성, GPS, 영상, 인터넷 SNS, • 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩, 비콘 , • 멀티미디어 콘텐츠 사용 관련 정보 • 각종 센서로 부터 데이터 수집, 저장 – IoT • 정보의 바다 정보의 홍수
  • 4. 빅데이타 특성 – 3V • Volume( 데이터 량) • Variety( 다양성) • Velocity (빠른 생성, 빠른 처리) Value 새로운 가치 창조
  • 8. 빅데이타 분석시스템 – 시스템 개념도
  • 9. 하둡 - Hadoop • 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴 퓨팅의 성능과 효율 향상 • 구성 - HDFS (Hadoop Distributed File System) - Map Reduce(분산 처리프로그래밍)
  • 10. HDFS - 하둡파일시스템 • 클러스터 환경에서 대용량 데이터를 분산해서 안정적 으로 저장하는 프레임워크 • 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬 • 덩어리를 복제하여 전체 클러스터에 분산 저장 • 일부 노드 장애는 서비스에 영향을 주지 않음
  • 11. HDFS • 수백GB – 수 TB 지원 • Write Once Read Many 파일 시스템 - 한번 작성되면 바뀔 필요없는 경우 - Append 만 가능 • 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
  • 12. MapReduce • 하둡 분산파일시스템에 저장된 분산데이타를 클러스 터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하 는 프레임워크 • 함수형 프로그램에서 일반적으로 사용하는 Map과 Reduce라는 함수 기반으로 구성 • 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
  • 13. Map/Reduce 예시 – word count
  • 14.
  • 15. 시각화 • 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로 써 그 패턴을 인지하게 만드는 것이다. • 통계/분석의 가장 중요한 부분. 1. 데이터의 특성을 쉽게 파악( vs 통계량 ) 2. 결과 레포트에 활용 -> 독립된 학문/기술 분야로 발전 • 근거 : 사람은 탁월한 패턴 인식 능력이 있음. • 데이터 패턴 파악의 도구, 분석을 돕는 역할 -> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머 /오락성
  • 17.
  • 18. 빅데이타 활용 - 공공 • 목적 : 과학적 정책 의사결정 • 스마트 시티 • 서울시 지하철 승객 분포 – 가장 복잡한 지하철,.. • 성남시 도서관 자료 분석 • 해운대구 쓰레기 무단 투기 • 서울시 심야버스 분석 • 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원 • 관광객 정보 분석 – 축제기간 유입인구 분석 • 유동인구 분석으로 상권 분석 • 범죄예방 – 20대 여성인구 시간대별 분석
  • 19. 빅데이타 활용 – 유통, 제조, 금융,. • 목적 : 비용절감, 수익 창출 • 아마존 – 고객의 구매이력 데이터 분석 • 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션 • 넷플릭스 – 개인화된 VOD 서비스 • 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거 • 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성 향상 • 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
  • 20. 정리 • ICBM – IoT, Cloud, Bigdata, Mobile • 성장 분야 • 데이터 축적이 기본 • 사업 구상에서 closing까지 오랜 기간 소요(2-3년) • 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력 • 소규모 IT인력 openstack으로 Bigdata 분석은 무리