Dự án Document similarity nhằm thực hiện mục đích là so sánh các văn bản tiếng Việt và đưa ra độ tương đồng dựa trên cosine similarity.
- So sánh các văn bản đưa ra gợi ý.
- So sánh các các bài báo giống nhau đưa ra gợi ý cho người dùng.
Top 5 bài báo liên quan
- : https://thanhnien.vn/shark-binh-ban-trai-dien-vien-phuong-oanh-len-tieng-ve-thong-tin-chua-ly-hon-vo-post1492270.html
Độ tương đồng: 32.76% - : https://thanhnien.vn/vu-khoi-to-chong-lay-tien-vo-tien-chung-vo-chong-lay-xai-co-phai-xin-phep-post1465717.html
Độ tương đồng: 16.15% - https://thanhnien.vn/vo-kien-co-giao-chu-nhiem-quan-he-bat-chinh-sinh-con-voi-chong-minh-post1434941.html
Độ tương đồng: 12.44% - https://thanhnien.vn/ngay-xoa-bo-bao-luc-doi-voi-phu-nu-rat-it-nguoi-nho-phap-luat-can-thiep-post1525144.html
Độ tương đồng: 11.66% - https://thanhnien.vn/su-that-la-don-ly-hon-vi-vo-khong-cho-dap-chan-cua-cu-ong-u-90-post1432001.html
Độ tương đồng: 9.6%
Nhận xét:
- Độ tương đồng quá thấp và chưa sát ngữ nghĩa bài báo kết quả do đây là phương pháp sử dụng so sánh các từ chưa được training để hiểu ngữ nghĩa các câu.
- Có rất nhiều bài báo có độ tương đồng bằng 0 mặc dù văn bản có liên quan tới nhau.
Top 5 bài báo liên quan:
- https://thanhnien.vn/shark-binh-ban-trai-dien-vien-phuong-oanh-len-tieng-ve-thong-tin-chua-ly-hon-vo-post1492270.html
Độ tương đồng: 61.16% - https://thanhnien.vn/chong-lay-tien-vo-dem-di-bi-khoi-to-tien-nop-cho-vo-giu-lay-xai-phai-xin-phep-post1465717.html
Độ tương đồng: 46.89% - https://thanhnien.vn/mua-ban-xe-may-cu-phai-co-xac-nhan-doc-than-nguoi-dan-than-bi-hanh-post1018484.html
Độ tương đồng: 39.98% - https://thanhnien.vn/su-that-la-don-ly-hon-vi-vo-khong-cho-dap-chan-cua-cu-ong-u-90-post1432001.html
Độ tương đồng: 39.75% - https://thanhnien.vn/vo-to-co-giao-chu-nhiem-quan-he-bat-chinh-sinh-con-voi-chong-minh-post1434941.html
Độ tương đồng: 37.49%
Nhận xét:
- TF-IDF là một phương pháp toán học thông thường vẫn chưa được training hiểu được ngữ nghĩa nên độ tương đồng chưa cao là điều dễ hiểu.
- Độ tương đồng chưa cao và văn bản top 3 hoàn toàn không tương đồng với văn bản gốc.
Top 5 bài báo liên quan
- https://thanhnien.vn/shark-binh-ban-trai-dien-vien-phuong-oanh-len-tieng-ve-thong-tin-chua-ly-hon-vo-post1492270.html
Đọ tương đồng: 97.76% - https://thanhnien.vn/me-don-than-viet-cap-ben-hanh-phuc-cung-nguoi-chong-anh-hon-19-tuoi-post1427521.html
Độ tương đồng: 96.79% - https://thanhnien.vn/nsnd-kim-xuan-cuoc-doi-toi-cung-co-nhung-luc-khoc-khong-ra-tieng-post1525997.html
Độ tương đồng: 966.61% - https://thanhnien.vn/nguoi-phu-nu-viet-lo-mot-lan-do-lay-chong-tay-u-70-anh-nhu-chang-trai-16-post1452479.html
Độ tương đồng: 96.559495% - https://thanhnien.vn/elly-tran-toi-ngu-ngoc-khi-chon-hon-nhan-post1522250.html
Độ tương đồng: 96.55187%
Nhận xét:
- Độ tương đồng rất cao tuy nhiên không tương ứng với ngữ nghĩa của văn bản sai lệch rất nhiều.
- Model Tiếng Việt được phát hành từ FastText còn lỗi nhiều cần cải thiện thêm hoặc dùng model khác.
- Bài báo top 3 không liên quan nhiều và chưa gợi ý được cho người xem.
Top 5 bài báo liên quan
- https://thanhnien.vn/shark-binh-ban-trai-dien-vien-phuong-oanh-len-tieng-ve-thong-tin-chua-ly-hon-vo-post1492270.html
Độ tương đồng: 78.72037% - https://thanhnien.vn/mua-ban-xe-may-cu-phai-co-xac-nhan-doc-than-nguoi-dan-than-bi-hanh-post1018484.html
Độ tương đồng: 74.27565% - https://thanhnien.vn/yeu-khong-thanh-quay-mot-vong-me-don-than-viet-van-nen-duyen-cung-chong-an-do-post1518833.html
Độ tương đồng: 71.51493% - https://thanhnien.vn/elly-tran-toi-ngu-ngoc-khi-chon-hon-nhan-post1522250.html
Độ tương đồng: 71.49129% - https://thanhnien.vn/nguoi-phu-nu-viet-lo-mot-lan-do-lay-chong-tay-u-70-anh-nhu-chang-trai-16-post1452479.html
Độ tương đồng: 70.77005%
Nhận xét:
- Độ tương đồng phù hợp với nội dung bài báo gốc được so sánh
- Model pho-BERT được xử lý tốt để hiểu được nội dung bài báo gốc đồng đồng thời sinh ra các ma trận đủ tốt để ta so sánh.
Tác giả: Ngô Minh
Email: [email protected]
Pho-Bert
Transformer
Document simlarity
TF-IDF
Giải thuật Jaccard