Devops

cloudwatch alert

Prower 2022. 8. 7. 01:34
728x90
반응형
  • cloudwatch: aws의 인프라 및 어플리케이션에 대한 관제 서비스
  • 알림 기능: cloudwatch에서 제공하는 기능으로 지정한 메트릭 값을 지속적으로 측정하여 설정한 기준값을 넘어가는 경우 지정한 채널로 알림 발송

기본적으로 알아야 할 개념

  • metric: 알림을 보내는데 측정하는 데이터. 메트릭 값이 지정한 조건을 벗어난 경우 알림 전송
  • alarm state
    • OK: 모든 메트릭 값이 정의한 threshold 이내인 상황
    • ALARM: 모든 메트릭 값이 정의한 threshold를 벗어난 상황
    • INSUFFICIENT_DATA: 메트릭이 비정상적이거나 충분하지 않은 데이터가 쌓인 경우
  • topic: 알림이 전송될 경우 메세지를 수신하며, 해당 topic을 구독하는 클라이언트에 메세지 전송
  • breaching: 직역하면 위반으로, 지정한 임계값(threshold)을 벗어난 메트릭

필드

  • definitions: 시스템을 관제하여 보낼 알림에 대해 정의하는 필드
  • threshold: 알림을 보내기 위한 기준값. 해당 값을 벗어나는 메트릭은 breaching으로 판별된다.
  • demension: key-value 형태이며, cloudwatch 메트릭값에 대한 메타 정보
  • okActions: alarm stateOK로 된 경우 실행할 action
  • alarmActions: alarm stateALARM으로 된 경우 실행할 action
  • treatMissingData: 누락된 측정값들에 대해 어떻게 처리할 지 지정
    • 메트릭에 대한 측정값이 cloudwatch로 report 되는 과정에서 누락이 발생할 수 있음
      • connection 끊김, 네트워크 이슈 등...
    • 알림을 평가할 때 이러한 누락된 측정값들에 대해 어떻게 처리할 지 명시
    • notBreaching: 누락된 측정값을 정상으로 처리. threshhold 이내의 값으로 처리한다.
    • breaching: 누락된 측정값을 비정상으로 처리. threshhold를 넘기는 것으로 처리한다.
    • ignore: 무시
    • missing: 모든 측정값이 누락된다면 alarm 상태를 INSUFFICIENT_DATA 로 변경
  • period: 메트릭을 평가하는 시간. 기본 초단위 이며 period값을 기준으로 메트릭이 평가된다.
  • evaluationPeriods: alarm state를 규정하기 위한 시간 단위.
  • datapointsToAlarm: evaludationPeriod 기간 동안 감지되는 breaching의 갯수

알림이 전송되는 예시

metric: Errors
period: 30
evaluationPeriods: 3
datapointToAlarm: 3
threshold: 2
  • 에러가 2번 이상 발생하는 상황이
  • 가장 최근 3번의 평가 기간 동안 3번 발생하면 에러 전송

기본 정의값

  • aws serverless plugin을 설치하면 기본적으로 제공하는 definitions
    • functionErrors
    • functionThrottles
    • functionInvocations
    • functionDuration
  • 해당 definition을 사용하면서 필드를 정의하면 미리 정의된 필드값에 override 된다.

functionErrors 에 대한 기본 설정값

  functionErrors:
    namespace: 'AWS/Lambda'
    metric: Errors
    threshold: 1
    statistic: Sum
    period: 60
    evaluationPeriods: 1
    datapointsToAlarm: 1
    comparisonOperator: GreaterThanOrEqualToThreshold
    treatMissingData: missing
  • 기타 기본 설정값에 대한 내용은 링크 참고

ref.

https://docs.aws.amazon.com/ko_kr/AWSCloudFormation/latest/UserGuide/aws-properties-cw-alarm.html

https://docs.aws.amazon.com/ko_kr/AWSCloudFormation/latest/UserGuide/quickref-cloudwatch.html#cloudwatch-sample-cpu-utilization-alarm

728x90
반응형