[ Datadog ] Metric Monitor

印刷

Metricを利用してMonitorを構成します。

  1. 検出方法を選択する

    Metric Monitorのタイプを選択します。
    - Threshold Alert:メトリック値を静的しきい値と比較します。
    - Change Alert:N分前と現在の値の絶対または相対(%)変化を指定のしきい値と比較します。
    - Anomaly Detection:過去の動作を使用してメトリックが異常に動作する時期を検出します。
    - Outliers Alert:グループのメンバー(ホスト、アベイラビリティゾーン、パーティションなど)が他と比較して異常に動作する時を検出します。
    - Forecast Alert:メトリックの将来の動作を予測し、それを静的しきい値と比較します。

  2. メトリックを定義する
    監視するメトリックを選択します。

    メトリックを選択します。from節で監視対象を指定できます。(タグ-値方式)、avg(min/max/sum) by を選択し、グループ化するタグを設定できます。(ホストを選択すると、ホストごとにアラームが発生)
    複数のメトリックを追加し、計算する方式を利用して監視することも可能です。

  3. アラート条件を設定する
    1番で選択したMetric Monitorのタイプに応じてアラート条件の設定が変更されます。

    • アラームが発生する基準と時間を設定します。(タイプごとに設定が異なりますが、記述式で組み合わせられます。)

    • しきい値を設定します。(Advanced Recovery項目がある場合、アラート/警告解除のしきい値を設定します。)

    • Advanced Alertを利用して、アラーム解除機能、新規グループに対するアラーム適用待機時間の設定、計算時の遅延時間の調整が可能です。

  4. チームに通知する
    アラームを受信する対象(メール)を選択するか、Integrationで設定されたチャンネルをリストから選択します。

    image-20240223-083015.png
    • アラートタイトル:アラーム発生時に伝達されるメッセージのタイトルです。
      - 例:[警告] {{host.name}} サーバーのCPU使用率が高くなっています。

    • アラートメッセージ
      - アラーム発生時に伝達されるメッセージの内容です。
      - 例

      {{#is_alert}}  
      
       発生時間(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}} 
         
      ## {{host.name}} ({{host.ip}}) サーバーのCPU使用率が現在5分間の平均 {{value}} です。ご確認ください。
      
      {{/is_alert}}  
      
      
      {{#is_alert_recovery}}  
      
       発生時間(KST): {{local_time 'last_triggered_at' 'Asia/Seoul'}}  
         
      ## [解除] {{host.name}} ({{host.ip}}) サーバーのCPU使用率が現在 {{threshold}} 以下に低下しました。
      
      {{/is_alert_recovery}}
    • メッセージテンプレート変数の使用
      アラートタイトルおよびメッセージ本文で使用可能なテンプレートおよび変数の使用方法を確認できます。
      使用可能な変数の参考: https://docs.datadoghq.com/monitors/notify/variables/?tab=is_alert

    • サービスおよびチームメンバーへの通知設定
      opsgenie / slack / TEAMS / webhook などの統合された通知チャネルやメールが表示されます。
      アラートを通知するチャネルまたは対象のメールアドレスを設定してください。

    • 表示コンテンツ設定(メッセージ構成の設定)
      クエリ/スナップショットなど、自動追加されるコンテンツをメッセージに含めるかどうかを設定します。

    • 通知タイトルにトリガータグを含める設定
      アラート発生時に、影響を受けた対象に関するタグを通知メッセージのタイトルに表示します。

    • 集約設定
      アラート条件の設定 でグループを選択した場合、自動的にマルチアラートとして選択されます。

    • 再通知設定
      アラート(警告)またはデータなしの状態が続く場合、選択した時間間隔で再通知を送信します。

    • タグ設定
      Manage Monitorsでの検索やダウンタイムスケジュール設定時に使用可能なモニター用のタグを設定します。

    • 優先度設定
      P1~P5の範囲でアラートの重大度(重要度)を設定します。
      優先度設定(以下の基準に基づき標準化)

  5. 権限の定義と監査通知の設定
    このモニターの編集権限を設定し、編集時の通知設定を行います。

オンライン相談

問い合わせ

この回答は役に立ちましたか? はい いいえ

フィードバックを送信
お役に立てずに申し訳ございません。この記事を向上させるためにフィードバックをお願い致します。