Monitoring

인쇄

Overview

System Administrator권한을 가진 사용자는 Monitoring에서 모든 권한을 가지고 있습니다.

Monitoring에 접속하는 방법

  • 콘솔에서 Monitoring Menu 선택

  • Grafana URL에 직접 접근

웹페이지의 주소창에 Grafana Domain URL를 입력한 후 Cloud Z CP의 계정으로 login

URL 예시 : https://{Realm name}-monitoring.{Realm name}.cloudzcp.net/

Org 변경하는 방법

Grafana 좌측 하단의 아이콘을 클릭하면 접속한 계정에 대한 정보 및 관련 메뉴들이 표시됩니다.

이 중 “Current Org” 메뉴를 선택하면 Org를 변경할 수 있습니다.

Switch Organization 팝업창에서 현재의 Org는 “Current” 버튼으로 표시됩니다.

변경하고자 하는 Org의 “Switch to” 버튼을 클릭하면 해당 Org가 현재의 Org로 변경 됩니다.

Dashboard 로 이동

1. 상단의 Home 메뉴를 선택하세요.

2. 최근에 선택했던 Dashboard(Recent)와 기본제공 Folder(4개) 가 보입니다.

3. 기본제공 Folder 중에 하나를 선택하면 Folder 에 속해 있는 Dashboard 들이 펼쳐집니다.

4. Dashboard 선택하면 각종 Panel 로 구성되어 있는 화면을 만날 수 있습니다.

5. 우측 상단에서 검색 기간과 재검색 주기를 설정할 수 있습니다.

시계 아이콘과 함께 있는 시간 부분(default : Last 1 hour)에 마우스를 가져가시면 현재의 검색 기간이 표시됩니다.

시간 부분에 마우스를 클릭하면 아래와 같은 검색기간을 설정할 수 있는 팝업창이 표시됩니다.

절대적인 범위(Absolute time range)로 설정하실 수도 있고, 상대적인 범위(Relative time ranges)로 설정하실 수도 있습니다.

시간 부분 우측에는 재검색 주기를 선택할 수 있는 부분이 있습니다.

무한루프 도는 듯한 아이콘과 함께 있는 시간 부분(default : 10s)에 마우스를 클릭하시면 검색기간의 Metric 정보를 자동으로 재검색하는 주기를 지정할 수 있습니다.

제일 상단에는 재검색을 중지할 수 있는 Off이고, 5초부터 하루까지 선택할 수 있습니다.

원하는 주기를 선택하면 재검색 주기가 지정됩니다.

Grafana 기본 제공 Dashboard

Cloud Z CP 에서 기본으로 제공하는 Dashboard 에 대하여 설명합니다.

참고 Document : https://grafana.com/docs/grafana/v7.5/dashboards/

Cluster Dashboards

  • Kubernetes : API Server

API Server에 대한 정보들(RPC Rate, CPU / Memory / Work Queue 등)을 표시하는 Dashboard입니다.

Panel

Description

Up

up인 API Server 개수

RPC Rate

API Server들의 RPC Rate

Request duration 99th quantile

API Server의 request 기간 동안의 99번째 분위수(quantile)

CPU usage

API Server의 CPU 사용량

Memory

API Server의 Memory 사용량

Goroutines

API Server의 Goroutine 사용량

Work Queue Add Rate

Work Queue에 추가되는 Rate

Work Queue Depth

Work Queue의 Depth

Work Queue Latency

Work Queue의 지연률

  • Kubernetes : Component Overview

Kubernetes Component에 대한 요약 정보들(API Server, Pod, Container 등)을 표시하는 Dashboard입니다.

Panel

Description

API Server Requests (Req/Sec)

API Server의 request 총합

API Server Latency

API Server들의 지연률 총합

Kublet Pod Start Latency

Kublet Pod들이 시작될 때의 지연률

Running Pods Trands

running 상태의 pod들의 개수 (min, max, avg, current 따로 표시)

Creating Rate of Pods

2분 사이에 생성된 running 상태의 Pod들의 개수

Running Containers Trands

running 상태의 Container들의 개수 (min, max, avg, current 따로 표시)

Creating Rate of Containers

2분 사이에 생성된 running 상태의 Container들의 개수

  • Kubernetes : Kubelet

Kubelet에 대한 정보들(Pod, Node, Storage, Cgroup, PLEG, RPC 등)을 표시하는 Dashboard입니다.

Panel

Description

Up

up인 instance 개수

Running Pods

Node들에 있는 running 상태의 Pod들의 개수

Running Container

Node들에 있는 running 상태의 Container들의 개수

Actual Volume Count

actual_state_of_world 상태인 volume들의 개수

Desired Volume Count

desired_state_of_world 상태인 volume들의 개수

Config Error Count

5분 사이에 config error가 난 Node들의 개수

CPU usage

Node들의 CPU 사용량

Memory

Node들의 Memory 사용량

Goroutines

Node들의 Goroutines 사용량

Operation Rate

Operation들의 runtime Rate

Operation Error Rate

Operation들의 Error Rate

Operation duration 99th quantile

Operation들의 runtime 기간 동안의 99번째 분위수(quantile)

  • Kubernetes : Namespace

Namespace에 대한 정보들(Status, Age, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

STATUS

Namespace의 상태

AGE

현재로부터 가장 오래 전에 생성된 Namespace의 지금까지의 기간

Total CPU

Namespace에 있는 Container들에서 사용된 CPU 합계(Core)

CPU Usage

Namespace에 있는 Container들의 CPU 사용량

Total Memory

Namespace에 있는 Container들에서 사용된 Memory 합계(MiB)

Memory Usage

Namespace에 있는 Container들의 Memory 사용량

Total Network

Namespace에 있는 Container들에서 사용된 Network의 합계(MBps)

Total Filesystem Read/Write 

Namespace에 있는 Container들의 Filesystem Read/Write 사용량 총합

Filesystem Read/Write 

Namespace에 있는 Container들의 Filesystem Read/Write 사용량 

Total Network TX/RX

Namespace에 있는 Container들의 Network TX/RX 사용량 총합

Network TX/RX

Namespace에 있는 Container들의 Network TX/RX 사용량

Pod Info

Namespace에 있는 pod들의 정보

정보에 있는 항목 클릭 시 “Container Dashboards / Kubernetes: Pod”으로 이동

Resource Quotas

Namespace의 Resource Quotas

Resource Limits

Namespace의 Resource Limits

Events

Namespace의 event 정보

Pod Events

Namespace에 있는 pod들의 event 정보

  • Kubernetes : Namespace Overview

Namespace들에 대한 요약 정보들(Namespace 개수, 각 Namespace들의 CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

Number of Namespaces

Namespace 개수

CPU

Namespace에 있는 Container들의 CPU 사용량 총합

Memory

Namespace에 있는 Container들의 Memory 사용량 총합

Volume

Namespace에 있는 Volume의 용량 / 사용량 총합

Filesystem Reads/Writes

Namespace에 있는 Filesystem의 Reads / Writes 총합

Network RX/TX

Namespace에 있는 Filesystem의 Receive / Transmit 총합

AGE

현재로부터 가장 오래 전에 생성된 Namespace의 지금까지의 기간

CPU Usage

Namespace에 있는 Container들의 CPU 사용량

정보에 있는 항목 클릭 시 “Cluster Dashboards / Kubernetes: Namespace”로 이동

Memory Usage

Namespace에 있는 Container들의 Memory 사용량

All CPU Usage

Namespace에 있는 모든 Container들의 CPU 사용량을 Line 형태로 표시

All Memory WorkingSet

Namespace에 있는 모든 Container들의 Memory 사용량을 Line 형태로 표시

Volume Usage

Namespace에 있는 Volume의 Limit / 사용량

Filesystem Read/Write 

Namespace에 있는 Container들의 Filesystem Read/Write 사용량 

Volume Usage

Namespace에 있는 Volume의 사용량을 Line 형태로 표시

Network TX/RX

Namespace에 있는 Container들의 Network TX/RX 사용량

Pod Count

Namespace에 있는 pod들의 개수

Container Count

Namespace에 있는 Container들의 개수

  • Kubernetes : Node

Node에 대한 정보들(Status, Age, Version, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

STATUS

Node의 상태

ROLES

Node의 Role

AGE

Node가 생성된 후 지금까지의 기간

VERSION

Node의 Kubernetes version

KERNEL-VERSION

Node의 Kernel version

CONTAINER-RUNTIME-VERSION

Node의 Container runtime version

Total CPU

Node에 있는 Container들에서 사용된 CPU 합계(Core)

CPU Usage

Node에 있는 Container들의 CPU 사용량

Total Memory

Node에 있는 Container들에서 사용된 Memory 합계(MiB)

Memory Usage

Node에 있는 Container들의 Memory 사용량

Total Network

Node에 있는 Container들에서 사용된 Network의 합계(MBps)

Total Filesystem Read/Write 

Node에 있는 Container들의 Filesystem Read/Write 사용량 총합

Filesystem Read/Write 

Node에 있는 Container들의 Filesystem Read/Write 사용량 

Total Network

Node에 있는 Container들의 Network TX/RX 사용량 총합

Network TX/RX

Node에 있는 Container들의 Network TX/RX 사용량

Pod Info

Node에 있는 pod들의 정보

Capacity

Node의 사용할 수 있는 resource

Allocatable

Node의 할당할 수 있는 resource

Events

Node의 event 정보

Pod Events

Node에 있는 pod들의 event 정보

  • Kubernetes : Node Overview

Node에 대한 요약 정보들(각 Node들의 CPU/Memory/Network/Filesystem/Pod 등)을 표시하는 Dashboard입니다.

Panel

Description

CPU

Node들에 할당된 CPU의 상태에 따른 양 (Allocatable / Capacity / Usage)

CPU Usage

Node들에 할당된 CPU 사용량(%)

Memory

Node들에 할당된 Memory의 상태에 따른 양 (Allocatable / Capacity / WorkingSet)

Memory Usage

Node들에 할당된 Memory 사용량(%)

Filesystem

Node들에 할당된 Filesystem의 상태에 따른 양 (Limit / Usage)

Filesystem Usage

Node들에 할당된 Filesystem의 사용량(%)

CPU Requests and Limits

Node들에 할당된 CPU의 정보 (Allocatable / Request / Limit)

Memory Requests and Limits

Node들에 할당된 Memory의 정보 (Allocatable / Request / Limit)

CPU Usage

Node들에 할당된 CPU의 정보 (Allocatable / Usage)

Memory Usage

Node들에 할당된 Memory의 정보 (Allocatable / Usage)

CPU Usage

Node들에 할당된 CPU의 사용량 (max, current)

Memory Usage

Node들에 할당된 Memory의 사용량 (max, current)

Container Dashboards

  • Kubernetes : CronJob

CronJob에 대한 정보들(Schedule, active, age 등)을 표시하는 Dashboard입니다.

Panel

Description

SCHEDULE

스케줄 요구된 CronJob의 개수

SUSPEND

일시 중지된 CronJob의 개수

ACTIVE

활성화되어 있는 CronJob의 개수

LAST SCHEDULE

마지막으로 CronJob 스케쥴이 실행 된 시간

NEXT SCHEDULE

다음 실행예정인 CronJob 스케쥴 시간

AGE

현재로부터 가장 오래 전에 생성된 CronJob의 지금까지의 기간

Jobs

cronjob들의 정보

  • Kubernetes : DaemonSet

DaemonSet에 대한 정보들(Replicas, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

DESIRED

스케줄이 요구된 DaemonSet의 개수

CURRENT

현재 스케줄 된 DaemonSet의 개수

READY

현재 동작하고 준비된 DaemonSet의 개수

UPDATED

업데이트 된 DaemonSet의 개수

AVAILABLE

현재 동작하고 사용중인 DaemonSet의 개수

AGE

현재로부터 가장 오래 전에 생성된 DaemonSet의 지금까지의 기간

Total CPU

Daemonset으로 생성된 Container들에서 사용된 CPU 합계(Core)

CPU Usage

Daemonset으로 생성된 Container들의 CPU 사용량

Total Memory

Daemonset으로 생성된 Container들에서 사용된 Memory 합계(MiB)

Memory Usage

Daemonset으로 생성된 Container들의 Memory 사용량

Replicas Status

Daemonset의 Replica들의 상태 (Ready / Available / Unavailable / Misscheduled / Scheduled)

Total Network

Daemonset으로 생성된 Container들에서 사용된 Network의 합계(MBps)

Total Filesystem Read/Write 

Daemonset으로 생성된 Container들의 Filesystem Read/Write 사용량 총합

Filesystem Read/Write 

Daemonset으로 생성된 Container들의 Filesystem Read/Write 사용량 

Total Network TX/RX

Daemonset으로 생성된 Container들의 Network TX/RX 사용량 총합

Network TX/RX

Daemonset으로 생성된 Container들의 Network TX/RX 사용량

Pod Info

Daemonset pod들의 정보

정보에 있는 항목 클릭 시 “Container Dashboards / Kubernetes: Pod”으로 이동

  • Kubernetes : Deployment

Deployment에 대한 정보들(Replicas, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

DESIRED

스케줄 요구된 Deployment Replica의 개수

UPDATED

업데이트 된 Deployment Replica의 개수

AVAILABLE

현재 동작하고 사용중인 Deployment Replica의 개수

AGE

현재로부터 가장 오래 전에 생성된 Deployment의 지금까지의 기간

Metadata Generation

Metadata로 생성된 Deployment의 개수

Observed Generation

Observed로 생성된 Deployment의 개수

Total CPU

Deployment로 생성된 Container들에서 사용된 CPU 합계(Core)

CPU Usage

Deployment으로 생성된 Container들의 CPU 사용량

Total Memory

Deployment으로 생성된 Container들에서 사용된 Memory 합계(MiB)

Memory Usage

Deployment으로 생성된 Container들의 Memory 사용량

Spec

Deployment의 Replica 개수와 Paused된 개수

Replicas Status

Deployment의 Replica들의 상태 (Ready / Available / Unavailable / Misscheduled / Scheduled)

Total Network

Deployment으로 생성된 Container들에서 사용된 Network의 합계(MBps)

Total Filesystem Read/Write 

Deployment으로 생성된 Container들의 Filesystem Read/Write 사용량 총합

Filesystem Read/Write 

Deployment으로 생성된 Container들의 Filesystem Read/Write 사용량 

Total Network TX/RX

Deployment으로 생성된 Container들의 Network TX/RX 사용량 총합

Network TX/RX

Deployment으로 생성된 Container들의 Network TX/RX 사용량

Pod Info

Deployment으로 생성된 pod들의 정보

정보에 있는 항목 클릭 시 “Container Dashboards / Kubernetes: Pod”으로 이동

Status Condition

Deployment으로 생성된 pod들의 상태

Events

Deployment들의 event 정보

Pod Events

Deployment pod들의 event 정보

  • Kubernetes : Job

Job에 대한 정보들(Replicas, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.

Panel

Description

PARALLELISM

“Parallelism” 상태인 Job의 개수

COMPLETIONS

“Completion” 상태인 Job의 개수

FAILED

Failed된 Job의 개수

COMPLETE

Complete된 Job의 개수

DURATION

Job이 시작되고 나서 completion 상태가 될 때까지의 기간

AGE

현재로부터 가장 오래 전에 생성된 Job의 지금까지의 기간

Total CPU

Job으로 생성된 Container들에서 사용된 CPU 합계(Core)

CPU Usage

Job으로 생성된 Container들의 CPU 사용량

Total Memory

Job으로 생성된 Container들에서 사용된 Memory 합계(MiB)

Memory Usage

Job으로 생성된 Container들의 Memory 사용량

Status

Job의 상태 (Active / Failed / Succeeded)

Total Network

Job으로 생성된 Container들에서 사용된 Network 합계(MBps)

Total Filesystem Read/Write 

Job으로 생성된 Container들의 Filesystem Read/Write 사용량 총합

Filesystem Read/Write 

Job으로 생성된 Container들의 Filesystem Read/Write 사용량 

Total Network TX/RX

Job으로 생성된 Container들의 Network TX/RX 사용량 총합

Network TX/RX

Job으로 생성된 Container들의 Network TX/RX 사용량

Pod Info

Job으로 생성된 pod들의 정보

정보에 있는 항목 클릭 시 “Container Dashboards / Kubernetes: Pod”으로 이동

  • Kubernetes : Pod

Pod에 대한 요약 정보들(Replicas, CPU/Memory/Network/Filesystem 등)을 표시하는 Dashboard입니다.