Storage/Druid

apache druid

Prower 2022. 8. 7. 01:28
728x90
반응형

druid

  • 오픈소스 분산 데이터 저장소
  • 핵심 디자인: 데이터 웨어하우스, 시계열 DB, 검색 시스템으로 부터 고성능 실시간 분석 DB 제공
  • 다차원 데이터: 1차원 정보(row)를 지정된 필드(dimension)을 통해 지표(metric)로 표현한 데이터

Usecase

주로 전반적인 지표 흐름을 조회하는 용도로 사용

  • 클릭 스트림 분석
  • 부정 분석 시스템
  • 네트워크 성능 모니터링
  • 서버 성능 분석
  • 공급망 분석
  • 어플리케이션 성능 분석...

사용하면 안되는 경우

  • 정확한 데이터를 조회하는 경우
    • 1차원 데이터(row) 에 대한 정확한 데이터 조회

인덱싱 방식

  • 다차원 데이터에 대한 빠른 쿼리 결과 제공을 위해 세그먼트(time interval) 단위로 인덱싱
  • 쿼리를 수행하는 시점이 아니라 데이터를 저장하는 시점에 인덱싱

데이터 통합

  • 아파치 소프트웨어와 호환이 잘 되며 카프카, 하둡, 플링크 등으로 부터 데이터를 적재하여 사용 가능

적재

  • streaming, batch 적재 방식을 모두 지원
  • 메세지 버스(kafka) 혹은 분산 파일 시스템(HDFS) 같은 데이터 소스에 연결되어 데이터 적재 가능

저장

  • 데이터를 지정된 column으로 저장
  • column의 type에 따라 다른 압축, 인코딩, 인덱싱 방식 적용

질의

  • json과 sql을 통한 데이터 질의 가능
  • 특별한 연산자를 제공하여 빠른 집계가 가능

아키텍처

  • 마이크로 서비스 아키텍처로 구성되어 있으며, 여러 서비스의 조합으로 이루어저 있다.
  • 각 서비스는 독립적으로 구성되어 있으며, 장애가 발생해도 각 서비스에 영향을 주지 않도록 설계되어있다.

ref

- https://blog.voidmainvoid.net/440

728x90
반응형