모니터링 조회(Namespace Admin)

인쇄

Cloud Z CP 의 모니터링은 다음의 오픈소스 컴포넌트로 구성하여 서비스를 제공합니다.

  • Metric 을 수집하고 저장하기 위한 Prometheus
  • Prometheus 에서 만들어진 Alert 을 처리하는 Alertmanager
  • 3rd-party 의 metric 들을 외부로 내보내서 Prometheus 가 수집할 수 있도록 하기 위한 각종 Exporter들(node-exporter, kube-state-metrics, blackbox-exporter, elasticsearch-exporter 등)
  • 마지막으로 수집된 Metric 들을 Prometheus Query 를 이용하여 시각화하여 사용자가 알아보기 쉬운 형태의 Dashboard로 제공하는 Grafana

여기에서는 Grafana 의 Dashboard 사용법 및 기본으로 제공하는 Dashboard 의 각 항목들 위주로 설명합니다.

Grafana에 대한 좀 더 상세한 내용이나 사용법을 확인하시려면 Grafana Docs를 참고하시기 바랍니다. 

서비스를 이용하기 위해서는 ZCP Console 사이드 메뉴에서 모니터링(Monitoring) 을 클릭합니다.

버전이 업데이트되면서 추가,수정,삭제된 Dashboard 나 Panel 에 변경된 정보는 다음의 범례로 표시됩니다.

  • (plus) 버전, 내용: 추가된 Dashboard 또는 Panel
  • (warning) 버전, 내용: 변경된 Dashboard 또는 Panel
  • (minus) 버전, 내용: 삭제된 Dashboard 또는 Panel


Dashboard 로 이동

  1. 상단의 Home 메뉴를 선택하세요.


  2. 최근에 선택했던 Dashboard(Recent)와 기본제공 Folder(4개) 가 보입니다.


  3. 기본제공 Folder 중에 하나를 선택하면 Folder 에 속해 있는 Dashboard 들이 펼쳐집니다.


  4. Dashboard 선택하면 각종 Panel 로 구성되어 있는 화면을 만날 수 있습니다.


기본 제공 Dashboard

Cloud Z CP Public 에서 기본으로 제공하는 Dashboard 에 대하여 설명합니다.

Addon Dashboards

ElasticSearch

elasticsearch에 대한 정보들을 표시 (JVM, CPU, Memory, Documents, Indices 등)

RowPannelDescription
KPICluster healthelasticsearch cluster의 현재 상태 (N/A / Green / Yellow / Red)
Tripped for breakerscluster가 깨져서 tripeed된 평균값
CPU usage Avg.CPU 평균 사용량
JVM memory used Avg.JVM memory 평균 사용량
NodesNumber of nodes in the cluster.
Data nodesNumber of data nodes in the cluster.
Pending tasksCluster level changes which have not yet been executed.
Openfile descriptors per clusterelasticsearch에서 진행되는 open file수의 합계
ShardsActive primary shardsThe number of primary shards in your cluster. This is an aggregate total across all indices.
Active shardsAggregate total of all shards across all indices, which includes replica shards.
Initializing shardsCount of shards that are being freshly created.
Relocating shardsThe number of shards that are currently moving from one node to another node.
Delayed shardsShards delayed to reduce reallocation overhead.
Unassigned shardsThe number of shards that exist in the cluster state, but cannot be found in the cluster itself.
JVM Garbage CollectionGC countGabage Collection에서 처리하는 개수
GC timeGabage Collection에서 처리하는 시간
CPU and MemoryLoad averageelasticsearch에서 사용하는 Load 평균
CPU usageelasticsearch에서 사용하는 CPU 사용량
JVM memory usageelasticsearch에서 사용하는 JVM memory 사용량
JVM memory committedelasticsearch에서 commit하는데 사용하는 JVM memory 사용량
Disk and NetworkDisk usageelasticsearch에서 사용하는 Disk 사용량
Network usageelasticsearch에서 사용하는 Network 사용량
DocumentsDocuments count on nodedata node에 저장된 document 개수
Documents indexed ratedocument들이 index된 비율
Documents deleted ratedocument들이 delete된 비율
Documents merged ratedocument들이 merge된 비율
Documents merged bytesdocument들이 merge된 용량(bytes)
TimesQuery timeQuery 실행 시간

Indexing time

Indexing 실행 시간
Merging timeMerging 실행 시간
Throttle time for index storeindex를 저장하기 위한 throttle 시간
Indices: Count of documents and Total sizeCount of documents with only primary shardsprimary shard들의 document 개수
Total size of stored index data in bytes with only primary shards on all nodesprimary shard들이 저장된 index data의 총용량
Total size of stored index data in bytes with all shards on all nodes모든 shard들이 저장된 index data의 총용량
Indices: Index writerIndex writer with only primary shards on all nodes in bytesprimary shard들이 index로 쓰여지고 있는 용량
Index writer with all shards on all nodes in bytes모든 shard들이 index로 쓰여지고 있는 용량

ZCP Services Status

zcp-system namespace의 health check (CPU usages, 상태값)

PanelDescription
Durationprobe duration seconds
Status : alertmanageralertmanager health (UP / DOWN)
alertmanager Status Codealertmanager 상태코드
Status : grafanagrafana health (UP / DOWN)
grafana Status Codegrafana 상태코드
Status : prometheusprometheus health (UP / DOWN)
prometheus Status Codeprometheus 상태코드


Cluster Dashboards

Etcd Cluster

Etcd 상태값 (RPC Rate, DB Size, Disk Sync Duration 등)

PanelDescription

Etcd has a leader?

Etcd가 leader를 가지고 있는지 체크 (YES / NO)
The number of leader changes seenEtcd leader가 바뀐 개수
The total number of failed proposals seen

proposal이 실패한 총 개수

RPC RategRPC가 5분 동안 시작되거나 handling된 개수
Etcd DB SizeEtcd debugging mvcc db total size in bytes
Etcd Disk Sync Duration5분 동안 etc disk가 wal fsync한 총 개수 (Histogram 99)
Etcd Memory'etcd' job의 메모리 사용량
Etcd Client Traffic In

etcd network client gRPC가 5분 동안 받았던 traffic 총 개수

Etcd Client Traffic Outetcd network client gRPC가 5분 동안 보냈던 traffic 총 개수
Etcd Peer Traffic Inetcd network peer가 5분 동안 받았던 traffic 총 개수
Etcd Peer Traffic Outetcd network peer가 5분 동안 보냈던 traffic 총 개수
Etcd Proposals rate(Fail,Pending,commit,apply)etcd server가 5분 동안 proposal한 총 committed 개수
Etcd Disk operations(AVG)etcd disk가 2분 동안 backend commit한 총 개수
Networketcd network client gRPC가 2분 동안 받았던 traffic 총 개수
Snapshot durationAbnormally high snapshot duration (snapshot_save_total_duration_seconds) indicates disk issues and might cause the cluster to be unstable.

Kubernetes: Cluster Overview

전체/Node평균/Cluster평균 Resource에 대한 정보 (Node/Pod/Container 수, CPU/Memory/Network Usage 등)

RowPanelDescription
Resource DashboardAlertmanager Alerts FiringAlert 총 개수
Node Not ReadyNode가 'Not Ready' 상태인 개수
Node UnschedulableNode가 'Unschedulable' 상태인 개수

Node Memory Pressure

Node가 'Memory Pressure' 상태인 개수

Node Disk Pressure

Node가 'Disk Pressure' 상태인 개수

Running Pod Total

현재 'Running' 상태인 Pod의 개수

Running Pod Total by Node

각 노드에서 현재 'Running' 상태인 Pod의 개수

Running Container Total

현재 'Running' 상태인 Container의 개수

Running Container Total by Node

각 노드에서 현재 'Running' 상태인 Container의 개수
Node Resource Usage

Number of Node

현재 클러스터 내 노드의 총 개수

Total CPU

현재 클러스터 내 노드의 CPU 합계

Used Memory

현재 클러스터 내 노드의 Memory 사용양

Total Memory

현재 클러스터 내 노드의 Memory 합계

DIsk Usage

현재 클러스터 내 노드의 DIsk 사용양

DIsk Total

현재 클러스터 내 노드의 DIsk 합계

Avg CPU Usage

현재 클러스터 내 노드의 CPU 평균 사용양

Avg Memory Usage

현재 클러스터 내 노드의 Memory 평균 사용양

Avg Disk Usage

현재 클러스터 내 노드의 Disk 평균 사용양

Network Usage (Node NIC)

현재 클러스터 내 노드의 Network 사용양
Cluster Resource Usage

Cluster CPU Usage(Used/Total)

현재 클러스터 내 노드의 CPU 전체 중 사용양(%)

- 부가적으로 밑에 전체 CPU 양(Core)과 사용된 양도 표기됨

Cluster Memory Usage(Used/Total)

현재 클러스터 내 노드의 Memory 전체 중 사용양(%)

- 부가적으로 밑에 전체 Memory 양(Gib)과 사용된 양도 표기됨

Cluster DIsk Usage(Used/Total)

현재 클러스터 내 노드의 DIsk 전체 중 사용양(%)

- 부가적으로 밑에 전체 DIsk 양(Gib)과 사용된 양도 표기됨

Pod Count by namespace

Namespace별로 kubernetes에 등록된 Pod의 개수
Container Count by namespaceNamespace별로 kubernetes에 등록된 Container의 개수

Kubernetes: Performance Overview

API Server Requests/Latency,  Pod/Container Running Trands, Creating Rate 등

PanelDescription

APIServer Request Rate

APIServer에서 2분 단위로 Request한 합계
APIServer LatencyAPIServer가 request latencies한 평균
Kubelet POD Start LatencyLatency in microseconds for a single pod to go from pending to running. Broken down by podname.
Running Pod Trandskubelet에서 'running'상태인 pod의 개수
Create Rate of Podskubelet에서 2분 동안 새로 생성된 Pod의 비율
Running Containers Trandskubelet에서 'running'상태인 Containers의 개수
Create Rate of Containerskubelet에서 2분 동안 새로 생성된 Container의 비율

Kubernetes: Resource Requests

Node의 CPU/Memory usages, Pod count에 대한 정보를 표시

PanelDescription
Cluster CPU(Allocated/Request)

This represents the total [CPU resource requests](https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/#meaning-of-cpu) in the cluster.

For comparison the total [allocatable CPU cores](https://github.com/kubernetes/community/blob/master/contributors/design-proposals/node-allocatable.md) is also shown.

Cluster Memory(Allocated/Request)

This represents the total [memory resource requests](https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/#meaning-of-memory) in the cluster.

For comparison the total [allocatable memory](https://github.com/kubernetes/community/blob/master/contributors/design-proposals/node-allocatable.md) is also shown.

Cluster Pod(Allocated/Request)

This represents the total [memory resource requests](https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/#how-pods-with-resource-limits-are-run) in the cluster.

For comparison the total [allocatable memory](https://github.com/kubernetes/community/blob/master/contributors/design-proposals/node-allocatable.md) is also shown.

Container Dashboards

Kubernetes: DaemonSet Overview

Daemonset에 대한 정보 (Replicas, CPU/Memory/Network/Filesystem((plus) v1.1.0) 등)

PanelDescription
Desired Replicas ((warning) v1.1.0, DESIRED)

스케줄 요구된 daemonset 개수

The number of nodes that should be running the daemon pod

CURRENT ((plus) v1.1.0)현재 스케줄된 daemonset 개수
READY ((plus) v1.1.0)현재 동작하고 준비된 daemonset 개수
Available Replicas ((warning) v1.1.0, AVAILABLE)현재 동작하고 사용중인 daemonset 개수
Metadata GenerationMetadata로 생성된 daemonset 개수
DaemonSet Create Time현재로부터 가장 오래 전에 생성된 daemonset의 시간
Total CPUDaemonset으로 생성된 Container들에서 사용된 CPU의 합계 (Core)
Total MemoryDaemonset으로 생성된 Container들에서 사용된 Memory의 합계 (MiB)
Total NetworkDaemonset으로 생성된 Container들에서 사용된 Network의 합계 (MBps)
CPU UsageDaemonset으로 생성된 Container의 CPU의 사용량
Memory UsageDaemonset으로 생성된 Container의 Memory의 사용량
Filesystem Read/Write ((plus) v1.1.0)Daemonset으로 생성된 Container의 Filesystem Read/Write 사용량 
Network TX/RX ((plus) v1.1.0)Daemonset으로 생성된 Container의 Network Transmit/Receive 사용량

Replicas Status

Daemonset의 Replica들의 상태 (Ready / Available / Unavailable / Misscheduled)

Kubernetes: Deployment Overview

Deployment에 대한 정보 (Replicas, CPU/Memory/Network/Filesystem((plus) v1.1.0) 등)

PanelDescription
Desired Replicas ((warning) v1.1.0, DESIRED)스케줄 요구된 deployment Replica 개수
Available Replicas ((warning) v1.1.0, AVAILABLE)사용중인 deployment Replica 개수
Observed GenerationObserved로 생성된 deployment 개수
Metadata GenerationMetadata로 생성된 deployment 개수
Deployment Create Time현재로부터 가장 오래 전에 생성된 deployment의 시간

AVG CPU

((warning) v1.1.0, Total CPU) 

Deployment으로 생성된 Container들에서 사용된 CPU의 평균 (Core)

((warning) v1.1.0, Deployment으로 생성된 Pod 의 모든 Container들에서 사용된 CPU의 합계 (Core))

AVG Memory

((warning) v1.1.0, Total Memory) 

Deployment으로 생성된 Container들에서 사용된 Memory의 평균 (MiB)

((warning) v1.1.0, Deployment으로 생성된 Pod 의 모든 Container들에서 사용된 Memory의 합계 (MiB))

AVG Network

((warning) v1.1.0, Total Network) 

Deployment으로 생성된 Container들에서 사용된 Network의 평균 (kBps)

((warning) v1.1.0, Deployment으로 생성된 Pod 의 모든 Container들에서 사용된 Network의 합계 (MiB))

CPU UsageDeployment으로 생성된 Container의 CPU의 사용량
Memory UsageDeployment으로 생성된 Container의 Memory의 사용량
Filesystem Read/Write ((plus) v1.1.0)Deployment으로 생성된 Container의 Filesystem Read/Write 사용량
Network TX/RX  ((plus) v1.1.0)Deployment으로 생성된 Container의 Network Transmit/Receive 사용량

Replicas Status

Deployment의 Replica들의 상태 (Ready / Available / Unavailable / Misscheduled)
SpecDeployment의 Replica들의 Spec (Replicas / Paused)

Kubernetes: POD Overview

Pod에 대한 정보 (Pod의 status, restart count, pod에서 사용된 CPU/Memory/Network/Volume((plus) v1.1.0)/Filesystem((plus) v1.1.0) 표시

PanelDescription

POD Count

선택한 Namespace에 있는 Pod의 개수
Pod Status선택한 Namespace, Pod의 상태 (Failed / Pending / Running / Succeeded / Unknown)
Pod Restart Count선택한 Namespace, Pod의 Restart 개수
CPU Usage선택한 Namespace, Pod의 Container에서 사용된 CPU의 사용량 및 추이
Memory Usage선택한 Namespace, Pod의 Container에서 사용된 Memory의 사용량 및 추이
Volume Usage ((plus) v1.1.0)선택한 Namespace, Pod의 Container에서 사용된 Persistent Volume의 사용량 및 추이
Filsystem Read/Write ((plus) v1.1.0)선택한 Namespace, Pod의 Container에서 사용된 Filesystem Read/Write 사용량 추이
Network TX/RX선택한 Namespace, Pod의 Container에서 사용된 Network의 Transmit/Receive 사용량 및 추이

Kubernetes: StatefulSets Overview

StatefulSets에 대한 정보 (Replicas, CPU/Memory/Network/Filesystem((plus) v1.1.0) 등)

PaneDescription
Desired Replicas ((warning) v1.1.0, DESIRED)스케줄 요구된 statefulset Replica 개수
Available Replicas ((warning) v1.1.0, AVAILABLE)사용중인 statefulset Replica 개수
Observed GenerationObserved로 생성된 statefulset 개수
Metadata GenerationMetadata로 생성된 statefulset 개수
Statefulset Create Time현재로부터 가장 오래 전에 생성된 statefulset의 시간
Total CPUStatefulset으로 생성된 Container들에서 사용된 CPU의 합계 (Core)
Total MemoryStatefulset으로 생성된 Container들에서 사용된 Memory의 합계 (MiB)
Total NetworkStatefulset으로 생성된 Container들에서 사용된 Network의 합계 (MBps)
CPU UsageStatefulset으로 생성된 Container의 CPU의 사용량
Memory UsageStatefulset으로 생성된 Container의 Memory의 사용량
Filesystem Read/Write ((plus) v1.1.0)Statefulset으로 생성된 Container의 Filesystem Read/Write 사용량
Network TX/RX  ((plus) v1.1.0)Statefulset으로 생성된 Container의 Network Transmit/Receive 사용량

Replicas Status

Statefulset의 Replica들의 상태 (Corrent / Available)

System Dashboards

System Disk Space

각각의 Node에서 사용된 Disk Usage 추이


PanelDescription
Root Disk 용량 체크Amount of disk space used and available on various mount points.  Running out of disk space on OS volume,  database volume or volume used for temporary space can cause downtime.   Some storage may also have reduced performance when small amount of space is available.

System Usage Overview

각각의 Node에서 사용량 정보 (Idle cpu, DISK I/O, Network received/transmitted, Memory/Disk Usage 등)


PaneDescription

CPU Core 별 Idle

선택한 Node 내의 CPU들의 5분 동안 Idle 평균
System Load(1,5,15)선택한 Node가 평균적으로 load되는 비율 (1분 / 5분 / 15분)
Memory Usage선택한 Node에서 사용된 memory의 종류별 사용량(memory used / memory buffers / memory cached / memory free)
Memory Usage선택한 Node에서 사용된 memory의 총 사용비율(%)
DIsk I/O선택한 Node에서 사용된 DIsk의 종류별 사용량(read / written)
Disk Usage선택한 Node에서 사용된 DIsk총 사용비율(%)
Network Interface 별 Received(Byte)선택한 Node에서 5분 동안 network로 받았던 bytes 양
Network Interface 별 Transmitted(Byte)선택한 Node에서 5분 동안 network로 보냈던 bytes 양

System: Overview

각각의 Node에 대한 요약 정보 (Load Average, Swap, CPU/Memory/Network Usage 등)


PanelDescription

System Uptime

선택한 Node의 선택한 Interval 시간 동안 system에서 uptime된 시간
Virtual CPU선택한 Node의 현재 Virtual CPU 할당량
RAM선택한 Node의 현재 Memory 할당량
Memory Available선택한 Node의 현재 Memory 사용비율(%)
Load Average선택한 Node의 선택한 Interval 시간의 평균 Load (min, max, avg 따로 표시)
Memory

선택한 Node의 선택한 Interval 시간의 종류별(Total / Used / Available) Memory 사용량(Gib)

- min, max, avg 따로 표시

CPU Usage

선택한 Node의 선택한 Interval 시간의 idle / user / system / steal / iowait / softirq / nice CPU 사용비율(%)

- min, max, avg 따로 표시

Memory Distribution

선택한 Node의 선택한 Interval 시간의 종류별(Cached / Used / Free / Buffers) Memory Distribution 사용량(Gib)

- min, max, avg 따로 표시

Network Traffic(KBps)

선택한 Node의 선택한 Interval 시간의 종류별(각 항목별 Inbound / Outbound) Network Traffic 사용량(kBps)

- min, max, avg 따로 표시

Network Utilization

선택한 Node의 선택한 Interval 시간의 종류별(Sent / Received) Network Utilization 사용량(MiB)

- min, max, avg 따로 표시

Swap

선택한 Node의 선택한 Interval 시간의 종류별(Used / Free) Swap 사용량(B)

- min, max, avg 따로 표시

Swap Activity

선택한 Node의 선택한 Interval 시간의 종류별(Swap In / Swap Out) Swap Activity 사용량(Bps)

- min, max, avg 따로 표시

Dashboard 작성 Guide

http://docs.grafana.org/reference/templating/



온라인상담

문의하기

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.