PaperLM

Source code for the CIKM 2023 paper "PaperLM: A Pre-trained Model for Hierarchical Examination Paper Representation Learning"

Environment

Requirments

numpy
pandas
torch==1.11.0
transformers==4.26.0
edunlp==0.0.8
tqdm
sklearn
scipy

Usage

Data preprocessing
- Convert paper text into vector using pre-trained BERT
- Build knowledge table
```
cd src
# train
python data_preprocess.py
```

Pre-train

cd src
# train
python main.py --mode pretrain

Test

cd src

# paper difficulty estimation
python main.py --mode finetune --downstream_task diff

# examination paper retrieval
python main.py --mode finetune --downstream_task similarity

# paper clustering
python main.py --mode finetune --downstream_task cluster

For more running arguments, please refer to [src/utils.py].

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data/example		data/example
src		src
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PaperLM

Environment

Usage

About

Releases

Packages

Languages

bigdata-ustc/PaperLM

Folders and files

Latest commit

History

Repository files navigation

PaperLM

Environment

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages