Finetune on Short Sequence Dataset

한국어 | English

Details

max_seq_length<=512 환경에서의 KoBigBird 성능 평가
총 5개의 Dataset으로 평가
- Single Sentence Classification: NSMC
- Sentence Pair Classification: KLUE-NLI, KLUE-STS
- Question Answering: Korquad 1.0, KLUE-MRC
KLUE-Baseline의 코드를 기반으로 일부 수정하여 학습
- nsmc와 korquad 1.0 task 추가
- transformers==4.11.3에 호환되도록 수정

Sequence Classification은 128, Question Answering은 512의 길이로 학습

Sparse Attention이 아닌 Full Attention으로 세팅 (아래의 로그가 나오면서 자동으로 Full Attention으로 변경)

Attention type 'block_sparse' is not possible if sequence_length: 300 <= num global tokens: 2 * config.block_size + min. num sliding tokens: 3 * config.block_size
+ config.num_random_blocks * config.block_size + additional buffer: config.num_random_blocks * config.block_size = 704 with config.block_size = 64, config.num_random_blocks = 3.
Changing attention type to 'original_full'...

Result

	NSMC (acc)	KLUE-NLI (acc)	KLUE-STS (pearsonr)	Korquad 1.0 (em/f1)	KLUE MRC (em/rouge-w)
KoELECTRA-Base-v3	91.13	86.87	93.14	85.66 / 93.94	59.54 / 65.64
KLUE-RoBERTa-Base	91.16	86.30	92.91	85.35 / 94.53	69.56 / 74.64
KoBigBird-BERT-Base	91.18	87.17	92.61	87.08 / 94.71	70.33 / 75.34

KLUE, Korquad 1.0 모두 dev set으로 평가
KoELECTRA-Base-v3와 KLUE-RoBERTa-Base의 KLUE dataset 관련 점수는 KLUE Paper의 A. Dev Set Results에서 참고

Reference

NSMC
KLUE
Korquad 1.0
KoELECTRA-Base-v3
KLUE-RoBERTa-Base

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

short_seq_evaluation_ko.md

short_seq_evaluation_ko.md

Finetune on Short Sequence Dataset

Details

Result

Reference

Files

short_seq_evaluation_ko.md

Latest commit

History

short_seq_evaluation_ko.md

File metadata and controls

Finetune on Short Sequence Dataset

Details

Result

Reference