SPO

Code for
Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model
Nathan Kallus
https://arxiv.org/abs/2512.21917

Synthetic preference optimization experiment

See README.md in synthetic directory.

Aligning Qwen3 on UltraFeedback

See README.md in ultrafeedback directory.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
synthetic		synthetic
ultrafeedback		ultrafeedback
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SPO

Synthetic preference optimization experiment

Aligning Qwen3 on UltraFeedback

About

Uh oh!

Releases

Packages

Languages

CausalML/spo

Folders and files

Latest commit

History

Repository files navigation

SPO

Synthetic preference optimization experiment

Aligning Qwen3 on UltraFeedback

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages