Lab-01/docker-compose.yml at master · Fat-ctrl/Lab-01 · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
networks:
  monitoring:
    driver: bridge

volumes:
  prometheus_data: {}
  grafana_data: {}
  alertmanager_data: {}
  model_serving_logs: {}
  mlflow_data: {}
  mlflow_artifacts: {}

services:
  mlflow-server:
    image: ghcr.io/mlflow/mlflow:v2.21.3
    container_name: mlflow-server
    environment:
      - MLFLOW_ARTIFACT_ROOT=/mlflow/artifacts
      - MLFLOW_BACKEND_STORE_URI=/mlflow/data/mlflow.db
    volumes:
      - mlflow_data:/mlflow/data
      - mlflow_artifacts:/mlflow/artifacts
    ports:
      - "5000:5000"
    networks:
      - default
      - monitoring
    command: >
      mlflow server
      --host 0.0.0.0
      --port 5000
      --backend-store-uri sqlite:///mlflow/data/mlflow.db
      --default-artifact-root /mlflow/artifacts

  node-exporter:
    image: prom/node-exporter:latest
    container_name: node-exporter
    restart: unless-stopped
    volumes:
      - /proc:/host/proc:ro
      - /sys:/host/sys:ro
      - /:/rootfs:ro
    command:
      - '--path.procfs=/host/proc'
      - '--path.rootfs=/rootfs'
      - '--path.sysfs=/host/sys'
      - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
    ports:
      - "9100:9100"
    networks:
      - monitoring

  prometheus:
    image: prom/prometheus:latest
    container_name: prometheus
    restart: unless-stopped
    volumes:
      - ./prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
      - ./prometheus/alert.rules.yml:/etc/prometheus/alert.rules.yml
      - prometheus_data:/prometheus
    command:
      - '--config.file=/etc/prometheus/prometheus.yml'
      - '--storage.tsdb.path=/prometheus'
      - '--web.console.libraries=/etc/prometheus/console_libraries'
      - '--web.console.templates=/etc/prometheus/consoles'
      - '--web.enable-lifecycle'
    ports:
      - "9090:9090"
    networks:
      - monitoring

  alertmanager:
    image: prom/alertmanager:latest
    container_name: alertmanager
    restart: unless-stopped
    volumes:
      - ./alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml
    ports:
      - 9093:9093
    networks:
      - monitoring

  cadvisor:
    image: gcr.io/cadvisor/cadvisor:latest
    container_name: cadvisor
    restart: unless-stopped
    volumes:
      - /:/rootfs:ro
      - /var/run:/var/run:ro
      - /sys:/sys:ro
      - /var/lib/docker/:/var/lib/docker:ro
      - /dev/disk/:/dev/disk:ro
      - /etc/machine-id:/etc/machine-id:ro
    ports:
      - "8080:8080"
    networks:
      - monitoring

  grafana:
    image: grafana/grafana:latest
    container_name: grafana
    restart: unless-stopped
    ports:
      - "3000:3000"
    volumes:
      - grafana_data:/var/lib/grafana
      - ./grafana/dashboards/system:/etc/grafana/dashboards/system:ro
      - ./grafana/dashboards/api:/etc/grafana/dashboards/api:ro
      - ./grafana/dashboards/ml:/etc/grafana/dashboards/ml:ro
      - ./grafana/provisioning:/etc/grafana/provisioning:ro
    environment:
      - GF_SECURITY_ADMIN_USER=admin
      - GF_SECURITY_ADMIN_PASSWORD=admin
      - GF_USERS_ALLOW_SIGN_UP=false
      # - GF_INSTALL_PLUGINS=grafana-piechart-panel,grafana-worldmap-panel
    networks:
      - monitoring
    depends_on:
      - prometheus

  train-pipeline:
    build:
      context: .
      dockerfile: Dockerfile-train
    container_name: train-pipeline
    environment:
      - MLFLOW_TRACKING_URI=http://mlflow-server:5000
      - USER=mlflow_user
      - OMP_NUM_THREADS=10
    volumes:
      - .:/app
      - mlflow_artifacts:/mlflow/artifacts
    deploy:
      resources:
        limits:
          cpus: '10'
          memory: 8G
    depends_on:
      - mlflow-server
      - node-exporter
      - prometheus
      - grafana

  model-serving:
    build:
      context: .
      dockerfile: Dockerfile-serve
    container_name: model-serving
    restart: unless-stopped
    environment:
      - MLFLOW_TRACKING_URI=http://mlflow-server:5000
      - MODEL_URI=models:/sk-learn-best-model/latest
      - PYTHONUNBUFFERED=1
      - ENABLE_METRICS=true
    volumes:
      - ./app:/app/app:delegated
      - model_serving_logs:/app/logs
      - mlflow_artifacts:/mlflow/artifacts
      - /dev/log:/dev/log
      - /var/log:/var/log:ro
    deploy:
      resources:
        limits:
          cpus: '10'
          memory: 8G
    command: >
      bash -c "
        mkdir -p /app/logs &&
        ln -sf /dev/stdout /app/logs/stdout.log &&
        ln -sf /dev/stderr /app/logs/stderr.log &&
        uvicorn app.main:app --host 0.0.0.0 --port 5050 --reload --log-config app/logging.conf
      "
    ports:
      - "5050:5050"
    networks:
      - default
      - monitoring
    depends_on:
      mlflow-server:
        condition: service_started
      train-pipeline:
        condition: service_completed_successfully
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:5050/metrics"]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 40s
    logging:
      driver: "json-file"
      options:
        max-size: "10m"
        max-file: "3"

  dcgm-exporter:
    profiles:
      - gpu
    image: nvidia/dcgm-exporter:latest
    container_name: dcgm-exporter
    restart: unless-stopped
    deploy:
      resources:
        limits:
          cpus: '10'
          memory: 2G
    ports:
      - "9400:9400"
    networks:
      - monitoring