leonardtang

Follow

Leonard Tang leonardtang

Follow

just havin fun @haizelabs

104 followers · 22 following

Achievements

Achievements

Highlights

Pro

Organizations

Pinned Loading

haizelabs/llama3-jailbreak haizelabs/llama3-jailbreak Public

A trivial programmatic Llama 3 jailbreak. Sorry Zuck!

Python 559 63
haizelabs/dspy-redteam haizelabs/dspy-redteam Public

Red-Teaming Language Models with DSPy

Python 207 22
haizelabs/verdict haizelabs/verdict Public

Inference-time scaling for LLMs-as-a-judge.

Jupyter Notebook 276 18
haizelabs/j1-micro haizelabs/j1-micro Public

j1-micro (1.7B) & j1-nano (600M) are absurdly tiny but mighty reward models.

Python 95 6
The-Naughtyformer The-Naughtyformer Public

The Naughtyformer: A Transformer Understands Offensive Humor (AAAI 2023)

8 1
LLM-Watermarks LLM-Watermarks Public

Baselines for Identifying Watermarked Large Language Models (ICML AdvML 2023)

Python 4 1