apache druid

Storage/Druid

apache druid

Prower 2022. 8. 7. 01:28

728x90

druid

오픈소스 분산 데이터 저장소
핵심 디자인: 데이터 웨어하우스, 시계열 DB, 검색 시스템으로 부터 고성능 실시간 분석 DB 제공
다차원 데이터: 1차원 정보(row)를 지정된 필드(dimension)을 통해 지표(metric)로 표현한 데이터

Usecase

주로 전반적인 지표 흐름을 조회하는 용도로 사용

클릭 스트림 분석
부정 분석 시스템
네트워크 성능 모니터링
서버 성능 분석
공급망 분석
어플리케이션 성능 분석...

사용하면 안되는 경우

정확한 데이터를 조회하는 경우
- 1차원 데이터(row) 에 대한 정확한 데이터 조회

인덱싱 방식

다차원 데이터에 대한 빠른 쿼리 결과 제공을 위해 세그먼트(time interval) 단위로 인덱싱
쿼리를 수행하는 시점이 아니라 데이터를 저장하는 시점에 인덱싱

데이터 통합

아파치 소프트웨어와 호환이 잘 되며 카프카, 하둡, 플링크 등으로 부터 데이터를 적재하여 사용 가능

적재

streaming, batch 적재 방식을 모두 지원
메세지 버스(kafka) 혹은 분산 파일 시스템(HDFS) 같은 데이터 소스에 연결되어 데이터 적재 가능

저장

데이터를 지정된 column으로 저장
column의 type에 따라 다른 압축, 인코딩, 인덱싱 방식 적용

질의

json과 sql을 통한 데이터 질의 가능
특별한 연산자를 제공하여 빠른 집계가 가능

아키텍처

마이크로 서비스 아키텍처로 구성되어 있으며, 여러 서비스의 조합으로 이루어저 있다.
각 서비스는 독립적으로 구성되어 있으며, 장애가 발생해도 각 서비스에 영향을 주지 않도록 설계되어있다.

ref

- https://blog.voidmainvoid.net/440

728x90

저작자표시 비영리 변경금지 (새창열림)