Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Reproduce MRC task #6

Open
haisonle001 opened this issue Sep 10, 2023 · 0 comments
Open

Reproduce MRC task #6

haisonle001 opened this issue Sep 10, 2023 · 0 comments

Comments

@haisonle001
Copy link

haisonle001 commented Sep 10, 2023

I want to reproduce the MRC task result on ViSquad 1. dataset. I tried using your code but there are some problems:

  1. ViSquad dataset: there are still some samples with wrong answers, and what did you do to deal with it:
    For example:
    {
    "context": "Ngày 22-7-1954 , Chủ_tịch Hồ_Chí_Minh ra lời kêu_gọi : " Đấu_tranh để củng_cố hoà_bình , thực_hiện thống_nhất , hoàn_thành độc_lập dân_chủ cũng là một cuộc đấu_tranh lâu_dài và gian_khổ " và khẳng_định : " Trung , Nam , Bắc đều là bờ_cõi của nước ta , nước ta nhất_định thống_nhất , đồng_bào cả nước nhất_định được giải_phóng " . Cũng trong ngày này Thủ_tướng Quốc_gia Việt_Nam Ngô_Đình_Diệm ra_lệnh treo cờ rủ toàn Miền Nam từ vĩ_tuyến 17 trở vào để bày_tỏ quan_điểm phản_đối sự chia đôi đất_nước . Tuy_nhiên , trưởng_đoàn đại_biểu Việt_Nam Dân_chủ Cộng_hoà đã lên_tiếng : " Những_ai yêu nước Việt_Nam , những_ai yêu sự thống_nhất Việt_Nam thì không cần phải khóc hôm_nay . Hãy thực_hiện tốt những gì đã ký_kết hôm_nay , thì 2 năm nữa sẽ có một nước Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu_mạnh . Những gì Chính_phủ Việt_Nam Dân_chủ Cộng_hoà làm trong những năm qua chính là vì mục_đích đó . Nước_mắt của chúng_tôi đổ ra trong cuộc đấu_tranh cho sự_nghiệp đó nhiều hơn rất nhiều so với những giọt lệ mà quý_vị ( Quốc_gia Việt_Nam ) nhỏ ra ở đây " .",
    "question": "Mục_đích đấu_tranh của Chính_phủ Việt_Nam Dân_chủ Cộng_Hoà là gì ?",
    "answers": {
    "answer_start": [
    -1
    ],
    "answer_end": [
    -1
    ],
    "text": [
    "Việt_Nam thống_nhất , độc_lập , hoà_bình và giàu mạn"
    ]
    }
    },

  2. With pyvi lib, how did you segment? just segment each context, each answer seperately? Because I have problem doing that like below:
    {
    "context": "Nguồn_gốc của Mặt_Trăng hiện_nay còn chưa chắc_chắn , mặc_dù đa_số bằng_chứng tồn_tại ủng_hộ giả_thuyết sự va_chạm dữ_dội . Trái_Đất có_thể không phải là hành_tinh duy_nhất được tạo thành ở khoảng_cách 150 triệu km từ Mặt_trời . Một giả_thuyết cho rằng một tập_hợp vật_chất khác với khoảng_cách 150 triệu km từ cả Trái_Đất và Mặt_trời , ở điểm Lagrange thứ tư hay thứ năm . Hành_tinh này được gọi là Theia , nó được cho là nhỏ hơn so với Trái_Đất lúc đó , có_lẽ có cùng kích_thước và khối_lượng như Sao_Hoả . Quỹ_đạo của nó ban_đầu là ổn_định nhưng về sau khi Trái_Đất ngày_càng có khối_lượng lớn hơn khi thu_thập thêm vật_chất ở xung_quanh , thì quỹ_đạo của Theia trở_nên bất_ổn_định . Theia đu_đưa tới_lui theo Trái_Đất cho tới khi , cuối_cùng , cách nay khoảng 4.533 tỷ năm ( có_lẽ 0 giờ 05 phút đêm theo giờ cái đồng_hồ của chúng_ta ) , nó va_chạm vào Trái_Đất theo một góc thấp và chéo . Tốc_độ chậm và góc nhỏ không đủ để nó tiêu_diệt Trái_Đất , nhưng một tỷ_lệ lớn lớp vỏ của nó bị bắn ra . Những phần_tử nặng từ Theia chìm sâu vào vỏ Trái_Đất , trong khi những phần còn lại và vật_chất phóng ra tập_hợp lại thành một vật_thể duy_nhất trong vài tuần . Dưới ảnh_hưởng của trọng_lực của chính nó , có_lẽ trong một năm , nó trở_thành một vật_thể có hình_cầu : là Mặt_Trăng . Sự va_chạm cũng được cho rằng đã làm thay_đổi trục của Trái_Đất làm nó nghiêng đi 23,5 ° , trục_quay nghiêng gây ra mùa trên Trái_Đất . ( Một hình_thức lý_tưởng và đơn_giản về nguồn_gốc hành_tinh sẽ có các trục nghiêng 0 ° và không gây ra mùa . ) Có_thể nó cũng đã làm tốc_độ quay của Trái_Đất tăng thêm và khởi_động những kiến_tạo địa_tầng .",
    "question": "Mặt_Trăng có kích_thước gần giống với hành_tinh nào trong hệ Mặt_Trời ?",
    "answers": {
    "answer_start": [
    -1,
    -1,
    -1,
    -1
    ],
    "answer_end": [
    -1,
    -1,
    -1,
    -1
    ],
    "text": [
    "Sao Hoả",
    "Sao Hoả",
    "Sao Hoả",
    "Sao Hoả"
    ]
    }
    },

Correct me if im wrong. Wish you could provide more details or your code so that I can reproduce the results. Thanks in advance!

@haisonle001 haisonle001 closed this as not planned Won't fix, can't repro, duplicate, stale Sep 10, 2023
@haisonle001 haisonle001 reopened this Sep 11, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant