gpu-exporter+prometheus实现gpu监控

目录

  • gpu-exporter+prometheus实现gpu监控
  • 一、在gpu服务器上部署nvidia_gpu_exporter
  • 1、获取nvidia_gpu_exporter
  • 2、运行nvidia_gpu_exporter
  • 3、检测监控数据
  • 二、接入prometheus监控
  • 三、常用监控指标
  • 四、metrics接口信息示例

gpu-exporter+prometheus实现gpu监控
本文档基于开源项目nvidia_gpu_exporter实现gpu监控
一、在gpu服务器上部署nvidia_gpu_exporter
1、获取nvidia_gpu_exporter
wget https://github.com/utkuozdemir/nvidia_gpu_exporter/releases/download/v1.2.0/nvidia_gpu_exporter_1.2.0_linux_x86_64.tar.gz
2、运行nvidia_gpu_exporter
tar xf nvidia_gpu_exporter_1.2.0_linux_x86_64.tar.gz mv nvidia_gpu_exporter /usr/local/gpu-exporter/nvidia_gpu_exporter /usr/local/gpu-exporter/nvidia_gpu_exporter &
3、检测监控数据
项目运行后会自动监听:9835端口
尝试curl本机来查看是否正常获取到监控数据
curl localhost:9835/metrics
二、接入prometheus监控
在prometheus.yml中添加exporter地址

  • job_name: gpu-exporter static_configs: - targets: [‘192.168.2.23:9835’] lables: gpu: nvidia-4090 app: gpu-exporter - targets: [‘192.168.2.26:9835’] lables: gpu: nvidia-4080 app: gpu-exporter
    三、常用监控指标
    指标名含义nvidia_smi_utilization_gpu_ratioGPU使用率nvidia_smi_memory_used_bytesGPU显存使用量nvidia_smi_memory_total_bytesGPU显存总量nvidia_smi_temperature_gpuGPU温度
    Grafana dashboard