GitHub - SecAI-Lab/bcsd_obf_sure2025

OBF-BCSD

RoBERTa-based Obfuscated Binary Code Similarity Detection

Requirements

pip install -r requirements.txt

Besides, you need to install the followings:

python3 (tested on 3.8)
IDA Pro (tested on 8.2)

Testing

If you only want to test without preprocessing and training:

Download the RQ test dataset from https://zenodo.org/records/17119870.
Then move the files into the dataset directory:

mkdir dataset
mv RQ_test_dataset dataset/
mv dataset/RQ_test_dataset/* dataset/
rmdir dataset/RQ_test_dataset

Run the evaluation:

python eval.py

Dataset Preprocessing

You can download the binary datasets (ollvm.tar.xz and tigress.tar.xz) from

https://zenodo.org/records/17119870 and use them to perform the preprocessing steps for training and testing.

By default, put ollvm and tigress under the /data directory.

Step 1 — Generate initial dataset

python make_dataset.py --dataset_name ollvm
python make_dataset.py --dataset_name tigress

Step 2 — Generate tokenizer dataset

python make_tokenizer_dataset.py

Step 3 — Generate pretraining dataset

python make_pretrain_dataset.py --dataset_name ollvm
python make_pretrain_dataset.py --dataset_name tigress

Step 4 — Generate finetuning dataset

python make_finetune_dataset.py --dataset_name ollvm
python make_finetune_dataset.py --dataset_name tigress

Pretraining

python pretrain.py --dataset_name tigress
python pretrain.py --dataset_name ollvm

Finetuning

python finetune.py --dataset_name tigress 
python finetune.py --dataset_name ollvm

Finetuning Dataset Validation

python val_finetunedata.py --dataset_name tigress
python val_finetunedata.py --dataset_name ollvm

Create RQ Test Dataset

python make_rq_test_data.py

Evaluation

python eval.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
data_utils		data_utils
opensource/binshot		opensource/binshot
output		output
tigress_build		tigress_build
.gitignore		.gitignore
Adam_opti.py		Adam_opti.py
README.md		README.md
eval.py		eval.py
finetune.py		finetune.py
hparams.py		hparams.py
make_tokenizer.py		make_tokenizer.py
pretrain.py		pretrain.py
requirment.txt		requirment.txt
rq_eval_out_new.txt		rq_eval_out_new.txt
run.sh		run.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

OBF-BCSD

Requirements

Testing

Dataset Preprocessing

Step 1 — Generate initial dataset

Step 2 — Generate tokenizer dataset

Step 3 — Generate pretraining dataset

Step 4 — Generate finetuning dataset

Pretraining

Finetuning

Finetuning Dataset Validation

Create RQ Test Dataset

Evaluation

About

Uh oh!

Releases

Packages

Languages

SecAI-Lab/bcsd_obf_sure2025

Folders and files

Latest commit

History

Repository files navigation

OBF-BCSD

Requirements

Testing

Dataset Preprocessing

Step 1 — Generate initial dataset

Step 2 — Generate tokenizer dataset

Step 3 — Generate pretraining dataset

Step 4 — Generate finetuning dataset

Pretraining

Finetuning

Finetuning Dataset Validation

Create RQ Test Dataset

Evaluation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages