2. 빅데이타 개념
• 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측
• 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수
집, 저장, 검색, 분석, 시각화등 어렵다.
• 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범
위를 초과하는 규모의 데이타
3. 빅데이타 출현 배경
• 비정형 데이터 급증
- 문자, 음성, GPS, 영상, 인터넷 SNS,
• 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩,
비콘 ,
• 멀티미디어 콘텐츠 사용 관련 정보
• 각종 센서로 부터 데이터 수집, 저장 – IoT
• 정보의 바다 정보의 홍수
4. 빅데이타 특성 – 3V
• Volume( 데이터 량)
• Variety( 다양성)
• Velocity (빠른 생성, 빠른 처리)
Value
새로운 가치 창조
9. 하둡 - Hadoop
• 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴
퓨팅의 성능과 효율 향상
• 구성
- HDFS (Hadoop Distributed File System)
- Map Reduce(분산 처리프로그래밍)
10. HDFS - 하둡파일시스템
• 클러스터 환경에서 대용량 데이터를 분산해서 안정적
으로 저장하는 프레임워크
• 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬
• 덩어리를 복제하여 전체 클러스터에 분산 저장
• 일부 노드 장애는 서비스에 영향을 주지 않음
11. HDFS
• 수백GB – 수 TB 지원
• Write Once Read Many 파일 시스템
- 한번 작성되면 바뀔 필요없는 경우
- Append 만 가능
• 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
12. MapReduce
• 하둡 분산파일시스템에 저장된 분산데이타를 클러스
터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하
는 프레임워크
• 함수형 프로그램에서 일반적으로 사용하는 Map과
Reduce라는 함수 기반으로 구성
• 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
15. 시각화
• 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로
써 그 패턴을 인지하게 만드는 것이다.
• 통계/분석의 가장 중요한 부분.
1. 데이터의 특성을 쉽게 파악( vs 통계량 )
2. 결과 레포트에 활용
-> 독립된 학문/기술 분야로 발전
• 근거 : 사람은 탁월한 패턴 인식 능력이 있음.
• 데이터 패턴 파악의 도구, 분석을 돕는 역할
-> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머
/오락성
18. 빅데이타 활용 - 공공
• 목적 : 과학적 정책 의사결정
• 스마트 시티
• 서울시 지하철 승객 분포 – 가장 복잡한 지하철,..
• 성남시 도서관 자료 분석
• 해운대구 쓰레기 무단 투기
• 서울시 심야버스 분석
• 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원
• 관광객 정보 분석 – 축제기간 유입인구 분석
• 유동인구 분석으로 상권 분석
• 범죄예방 – 20대 여성인구 시간대별 분석
19. 빅데이타 활용 – 유통, 제조, 금융,.
• 목적 : 비용절감, 수익 창출
• 아마존 – 고객의 구매이력 데이터 분석
• 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션
• 넷플릭스 – 개인화된 VOD 서비스
• 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거
• 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성
향상
• 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
20. 정리
• ICBM – IoT, Cloud, Bigdata, Mobile
• 성장 분야
• 데이터 축적이 기본
• 사업 구상에서 closing까지 오랜 기간 소요(2-3년)
• 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력
• 소규모 IT인력 openstack으로 Bigdata 분석은 무리