CodeLLM Training System

Production-ready end-to-end LLM training system for coding data from GitHub repositories.

Architecture

GitHub Repos → Ingestion → Preprocessing → Dataset → Training → Fine-tuning → Inference API

Quick Start

pip install -r requirements.txt
python scripts/ingest.py --repo https://github.com/Amaan9136/devlabs
python scripts/train.py --config config/training.yaml
python scripts/serve.py --model-path outputs/model

Components

core/ — Repository ingestion, code extraction, tokenization
pipeline/ — Data pipeline, dataset creation, preprocessing
training/ — Training loop, fine-tuning, checkpointing
inference/ — Model serving, inference engine
api/ — REST API for inference and management
ui/ — Web dashboard
config/ — Configuration files
scripts/ — CLI entry points

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CodeLLM Training System

Architecture

Quick Start

Components

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
api		api
config		config
core		core
inference		inference
pipeline		pipeline
prompting		prompting
scripts		scripts
training		training
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

CodeLLM Training System

Architecture

Quick Start

Components

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages