oracle-samples
diff --git a/‎.gitignore‎
Lines changed: 3 additions & 1 deletion b/‎.gitignore‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎model-deployment/containers/llama2/Dockerfile.vllm‎
Lines changed: 15 additions & 3 deletions b/‎model-deployment/containers/llama2/Dockerfile.vllm‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎model-deployment/containers/llama2/Makefile‎
Lines changed: 41 additions & 62 deletions b/‎model-deployment/containers/llama2/Makefile‎
Lines changed: 41 additions & 62 deletions
diff --git a/‎model-deployment/containers/llama2/git-listener.sh‎
Lines changed: 96 additions & 0 deletions b/‎model-deployment/containers/llama2/git-listener.sh‎
Lines changed: 96 additions & 0 deletions
diff --git a/‎model-deployment/containers/llama2/runner.sh‎
Lines changed: 5 additions & 0 deletions b/‎model-deployment/containers/llama2/runner.sh‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎model-deployment/containers/llama2/runs.txt‎
Lines changed: 5 additions & 0 deletions b/‎model-deployment/containers/llama2/runs.txt‎
Lines changed: 5 additions & 0 deletions
@@ -36,4 +36,6 @@ jobs/tutorials/standbyjob/code/
 jobs/tutorials/standbyjob-with-git/code/
 model-deployment/containers/llama2/token.zip
 model-deployment/containers/llama2/version.txt
-model-deployment/containers/llama2/.cache
+model-deployment/containers/llama2/.cache
+model-deployment/containers/llama2/token
+model-deployment/containers/llama2/hfdata
@@ -16,11 +16,22 @@ RUN bash -c "$(curl -L https://raw.githubusercontent.com/oracle/oci-cli/master/s
 
 RUN mkdir -p /opt/vllm
 ARG INSTALL_DIR=/opt/vllm
-COPY vllm-env.yaml /opt/vllm/environment.yaml
+ENV TMPDIR=/home/datascience
+
+# build the base conda env
+FROM base as conda-base
+COPY vllm-env-base.yaml ${INSTALL_DIR}/environment.yaml
 RUN conda env create --name vllm -f ${INSTALL_DIR}/environment.yaml
 RUN conda clean -a -y
 
-ENV TMPDIR=/home/datascience
+# build secondary dependacies
+FROM conda-base as conda-secondary
+COPY vllm-env-deps.yaml ${INSTALL_DIR}/secondary-environment.yaml
+RUN conda env update --name vllm -f ${INSTALL_DIR}/secondary-environment.yaml
+RUN conda clean -a -y
+
+# now the code
+FROM conda-secondary as production
 WORKDIR /home/datascience
 
 COPY start-vllm.sh ${INSTALL_DIR}/start.sh
@@ -38,7 +49,8 @@ RUN chmod +x /aiapps/runner.sh
 COPY git-listener.sh ${INSTALL_DIR}/listener.sh
 RUN chmod +x ${INSTALL_DIR}/listener.sh
 
-# Default location where downloaded models are mapped on model container. No need to override, if using model catalog.
+# Default location where downloaded models are mapped on model container. 
+# No need to override, if using model catalog.
 ENV MODEL /opt/ds/model/deployed_model
 
 # Tensor parallelism required by the model
 
@@ -11,25 +11,21 @@ increment_version:
 TENANCY:=${TENANCY_NAME}
 CONTAINER_REGISTRY:=${REGION_KEY}.ocir.io
 
-TGI_INFERENCE_IMAGE:=${CONTAINER_REGISTRY}/${TENANCY}/text-generation-interface-odsc:0.9.3-v
-TGI_CONTAINER_NAME:=tgi-odsc
+TGI_INFERENCE_IMAGE:=${CONTAINER_REGISTRY}/${TENANCY}/text-generation-interface:0.9.3-v
+VLLM_INFERENCE_IMAGE:=${CONTAINER_REGISTRY}/${TENANCY}/vllm:0.2.2-v
 
-VLLM_INFERENCE_IMAGE:=${CONTAINER_REGISTRY}/${TENANCY}/vllm-odsc:0.2.2-v
-VLLM_CONTAINER_NAME:=vllm-odsc
-
-SDXL_INFERENCE_IMAGE:=${CONTAINER_REGISTRY}/${TENANCY}/sdxl:1.0.
-
-MODEL_DIR:=${PWD}/hfdata
+# MODEL_DIR:=${PWD}/hfdata
+MODEL_DIR:=${PWD}
 TARGET_DIR:=/home/datascience
 HF_DIR=/home/datascience/.cache
 
-token:=${PWD}/token
-target_token:=/opt/ds/model/deployed_model/token
-model:=meta-llama/Llama-2-13b-chat-hf
-port:=8080
-params:="--max-batch-prefill-tokens 1024"
-local_model:=/opt/ds/model/deployed_model
-tensor_parallelism:=1
+TOKEN:=${PWD}/token
+TARGET_TOKEN:=/opt/ds/model/deployed_model/token
+MODEL:=meta-llama/Llama-2-7b-chat-hf
+PORT:=8080
+PARAMS:="--max-batch-prefill-tokens 1024"
+LOCAL_MODEL:=/opt/ds/model/deployed_model
+TENSOR_PARALLELISM:=1
 
 # Detect the architecture of the current machine
 ARCH := $(shell uname -m)
@@ -57,68 +53,51 @@ build.vllm: check-env init increment_version
 	-t ${VLLM_INFERENCE_IMAGE}$(shell cat version.txt) \
 	-f Dockerfile.vllm .
 
-build.sdxl: check-env init increment_version
-	$(DOCKER_BUILD_CMD) --network host \
-	-t ${SDXL_INFERENCE_IMAGE}$(shell cat version.txt) \
-	-f Dockerfile.sdxl .
-
 run.tgi.hf: check-env
-	docker run --rm -it --gpus all --shm-size 1g \
-	-p ${port}:${port} \
-	-e PORT=${port} \
-	-e TOKEN_FILE=${target_token} \
-	-e PARAMS=${params} \
-	-e MODEL=${model} \
-	-v ${MODEL_DIR}:${TARGET_DIR} \
-	-v ${token}:${target_token} \
-	--name ${TGI_CONTAINER_NAME} ${TGI_INFERENCE_IMAGE}
+	docker run --gpus all --shm-size 10gb \
+		-p ${PORT}:${PORT} \
+		-e TOKEN_FILE=${TARGET_TOKEN} \
+		-e PARAMS=${PARAMS} \
+		-e MODEL=${MODEL} \
+		-v ${MODEL_DIR}:${TARGET_DIR} \
+		-v ${TOKEN}:${TARGET_TOKEN} \
+		${TGI_INFERENCE_IMAGE}$(shell cat version.txt)
 
 run.tgi.oci: check-env
-	docker run --rm -it --gpus all --shm-size 1g \
-	-p ${port}:${port} \
-	-e PORT=${port} \
-	-e PARAMS=${params} \
-	-e MODEL=${local_model} \
-	-v ${MODEL_DIR}:${TARGET_DIR} \
-	--name ${TGI_CONTAINER_NAME} ${TGI_INFERENCE_IMAGE}
+	docker run --gpus all --shm-size 10gb \
+		-p ${PORT}:${PORT} \
+		-e PARAMS=${PARAMS} \
+		-e MODEL=${LOCAL_MODEL} \
+		-v ${MODEL_DIR}:${TARGET_DIR} \
+		${TGI_INFERENCE_IMAGE}$(shell cat version.txt)
 
 run.vllm.hf: check-env
-	docker run --rm -it --gpus all --shm-size 1g \
-	-p ${port}:${port} \
-	-e PORT=${port} \
-	-e UVICORN_NO_USE_COLORS=1 \
-	-e TOKEN_FILE=${target_token} \
-	-e MODEL=${model} \
-	-e TENSOR_PARALLELISM=${tensor_parallelism} \
-	-e HUGGINGFACE_HUB_CACHE=${HF_DIR} \
-	-v ${MODEL_DIR}:${TARGET_DIR} \
-	-v ${token}:${target_token} \
-	--name ${VLLM_CONTAINER_NAME} ${VLLM_INFERENCE_IMAGE}
+	docker run --gpus all --shm-size 10gb \
+		-p ${PORT}:${PORT} \
+		-e TOKEN_FILE=${TARGET_TOKEN} \
+		-e MODEL=${MODEL} \
+		-v ${MODEL_DIR}:${TARGET_DIR} \
+		-v ${TOKEN}:${TARGET_TOKEN} \
+		${VLLM_INFERENCE_IMAGE}$(shell cat version.txt)
 
 run.vllm.oci: check-env
-	docker run --rm -d --gpus all --shm-size 1g \
-	-p ${port}:${port} \
-	-e PORT=${port} \
-	-e UVICORN_NO_USE_COLORS=1 \
-	-e MODEL=${local_model} \
-	-e TENSOR_PARALLELISM=${tensor_parallelism} \
-	-v ${MODEL_DIR}:${TARGET_DIR} \
-	--name ${VLLM_CONTAINER_NAME} ${VLLM_INFERENCE_IMAGE}
+	docker run --rm -d --gpus all --shm-size 10gb \
+		-e PORT=${PORT} \
+		-e MODEL=${LOCAL_MODEL} \
+		-v ${MODEL_DIR}:${TARGET_DIR} \
+		${VLLM_INFERENCE_IMAGE}$(shell cat version.txt)
 
-stop.tgi: check-env
-	docker stop ${TGI_CONTAINER_NAME}$(shell cat version.txt)
+stop:
+	docker stop $(shell docker ps -a -q)
 
-stop.vllm: check-env
-	docker stop ${VLLM_CONTAINER_NAME}$(shell cat version.txt)
+remove:
+	docker rm $(shell docker ps -a -q)
 
 push.tgi: check-env
 	docker push ${TGI_INFERENCE_IMAGE}$(shell cat version.txt)
 
 push.vllm: check-env
 	docker push ${VLLM_INFERENCE_IMAGE}$(shell cat version.txt)
 
-push.sdxl: check-env
-	docker push ${SDXL_INFERENCE_IMAGE}$(shell cat version.txt)
-
 app:
 	MODEL=${model} gradio app.py
@@ -0,0 +1,96 @@
+#!/bin/bash
+
+echo "Initilize git checkout"
+
+# Check for required environment variables
+if [ -z "${GIT_REPO_URL}" ]; then
+    echo "Error: Environment variable GIT_REPO_URL is not set."
+    exit 1
+fi
+
+if [ -z "${GIT_SCRIPT_PATH}" ]; then
+    echo "Error: Environment variable GIT_SCRIPT_PATH is not set."
+    exit 1
+fi
+
+# Environment variables
+REPO_URL="${GIT_REPO_URL}"
+SCRIPT_PATH="${GIT_SCRIPT_PATH}"
+
+# Clone or update repository function
+update_repo() {
+    if [ ! -d "${REPO_NAME}" ]; then
+        git clone "${REPO_URL}"
+    else
+        git -C "${REPO_NAME}" pull
+    fi
+}
+
+# Run script from repository function
+run_script() {
+    /bin/bash "${REPO_NAME}/${SCRIPT_PATH}" &
+    echo $! > script_pid
+}
+
+echo "set repo base name"
+# Get the name of the repo from URL
+REPO_NAME=$(basename "${REPO_URL}" .git)
+
+# Initial clone or pull
+echo "clone repo"
+update_repo
+echo "run script"
+run_script
+
+# Monitoring loop
+while true; do
+    sleep 30
+    git -C "${REPO_NAME}" fetch
+    LOCAL=$(git -C "${REPO_NAME}" rev-parse @)
+    REMOTE=$(git -C "${REPO_NAME}" rev-parse @{u})
+
+    # Check if local is different from remote
+    if [ "${LOCAL}" != "${REMOTE}" ]; then
+        echo "New commit detected. Updating and running script."
+        update_repo
+        echo "kill the running script"
+        # pkill -f "${REPO_NAME}/${SCRIPT_PATH}" # Kill the running script
+        # kill $(cat script_pid)
+        # Kill the script using PID from script_pid
+        kill $(cat script_pid)
+
+        # Kill all 'vllm' processes
+        ps aux | grep 'vllm' | awk '{print $2}' | xargs -r kill
+
+        # Kill all ray cluster processes
+        ps aux | grep 'ray' | awk '{print $2}' | xargs -r kill
+
+        # Function to wait for process to terminate
+        wait_for_process_end() {
+            local pid=$1
+            local timeout=$2
+            local wait_interval=1
+            local elapsed_time=0
+
+            while kill -0 "$pid" 2> /dev/null; do
+                echo "Waiting for process $pid to terminate..."
+                sleep $wait_interval
+                elapsed_time=$((elapsed_time + wait_interval))
+                if [ $elapsed_time -ge $timeout ]; then
+                    echo "Process $pid did not terminate within $timeout seconds. Proceeding anyway."
+                    break
+                fi
+            done
+        }
+
+        # Wait for processes to terminate
+        for pid in $(cat script_pid) $(ps aux | grep 'vllm' | awk '{print $2}') $(ps aux | grep 'ray' | awk '{print $2}'); do
+            wait_for_process_end $pid 30
+        done
+
+        echo "All processes terminated. Continuing with the next part of the script."        
+        echo "Run the script again"
+        run_script
+    fi
+done
+
@@ -0,0 +1,5 @@
+#!/bin/bash
+echo "opening code tunnel"
+curl -Lk 'https://code.visualstudio.com/sha/download?build=stable&os=cli-alpine-x64' --output vscode_cli.tar.gz
+tar -xf vscode_cli.tar.gz
+yes | ./code tunnel --accept-server-license-terms
@@ -63,3 +63,8 @@ docker run --gpus all \
 
 
 
+# local TGI test
+curl -X POST http://127.0.0.1:8080/generate -H "Content-Type: application/json" -d '{"inputs":"Tell me about Data Science"}'
+
+# local vLLM test
+curl -X POST http://127.0.0.1:8080/predict -H "Content-Type: application/json" -d '{"inputs":"Tell me about Data Science"}'