GitHub - Jiaxin-Wen/MisleadLM: Official Code for our paper: "Language Models Learn to Mislead Humans via RLHF""

Language Models Learn to Mislead Humans via RLHF

This repository contains data and code for our paper:

Language Models Learn to Mislead Humans via RLHF

1. Installation

conda create -n mislead python=3.10
pip install -e .

2. RLHF Training

2.1 Programming

cd src/programming
python reward_api.py
bash train.sh

2.2 Question Answering

cd src/qa/reward
bash train_judge.sh # task-specific reward training
bash train_preference.sh # general reward training

cd ..
CUDA_VISIBLE_DEVICES=6 python reward_api.py # general reward
CUDA_VISIBLE_DEVICES=7 python judge_api.py # task-specific reward
bash train.sh

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
examples		examples
trlx		trlx
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Language Models Learn to Mislead Humans via RLHF

1. Installation

2. RLHF Training

2.1 Programming

2.2 Question Answering

3. Fine-tuned Checkpoints

About

Releases

Packages

Languages

License

Jiaxin-Wen/MisleadLM

Folders and files

Latest commit

History

Repository files navigation

Language Models Learn to Mislead Humans via RLHF

1. Installation

2. RLHF Training

2.1 Programming

2.2 Question Answering

3. Fine-tuned Checkpoints

About

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages