Skip to content

The News Text Summarization project aims to develop a platform that automatically generates concise and accurate summaries of Al Jazeera articles. By utilizing web scraping and advanced models like T5, BART, and PEGASUS, we explore translation and fine-tuning approaches to produce summaries in the target language. Our goal is to provide users with

Notifications You must be signed in to change notification settings

ibtissam01/News-Text-Summarization

Repository files navigation

News-Text-Summarization

image

Plateforme de Résumé Automatique d'Articles d'Al Jazeera

Ce projet vise à développer une plateforme de résumé automatique de textes à partir des articles d'Al Jazeera. Le résumé automatique de texte consiste à générer une version condensée et précise d'un document textuel en utilisant des techniques informatiques. Notre objectif est de fournir aux utilisateurs un résumé clair et concis du contenu des articles d'Al Jazeera.

image

Réalisé par :

  • Ibtissam LABYADY
  • Sokhna Mai WANE
  • Mohamed CISSE

Encadré par:

  • Najima DAOUDI
  • Ghizlane BOURAHOUAT

Technologies utilisées

image

Nous avons utilisé les technologies suivantes pour la réalisation de ce projet :

  • Web Scraping : Nous avons extrait les articles d'Al Jazeera à partir des sites web suivants :

  • Modèles de résumé automatique :

    • T5: Text-To-Text Transfer Transformer
    • Modèle BART
    • PEGASUS

Approche adoptée

Nous avons exploré deux approches différentes pour générer des résumés dans la langue cible :

  1. Utilisation de la traduction avec un modèle pré-entraîné : Nous avons utilisé des modèles pré-entraînés T5, BART et PEGASUS pour traduire les articles en langue cible, puis nous avons généré des résumés à partir des traductions.

  2. Fine-tuning sur des données dans la langue cible : Nous avons effectué un fine-tuning des modèles de T5 en utilisant des données dans la langue cible. Cela nous a permis d'adapter les modèles aux spécificités de la tâche de résumé et d'améliorer leur capacité à produire des résumés pertinents et de qualité.

Évaluations des modèles fine-tunés

Nous avons évalué les performances des modèles fine-tunés sur notre tâche de résumé en utilisant les métriques appropriées. Voici les modèles fine-tunés que nous avons évalués :

Conclusion

En conclusion, les modèles RNN (Réseaux de Neurones Récurrents) et LLMs (Langage Models) offrent des avantages significatifs pour les tâches de résumé grâce à leur capacité à capturer les dépendances contextuelles à long terme et à être adaptés à travers le fine-tuning. Cependant, il reste des défis à relever, tels que la génération de résumés cohérents et la gestion des ressources computationnelles. De plus, l'extension de ces modèles à des langues spécifiques comme le darija nécessite des efforts supplémentaires de collecte de données et de formation.

About

The News Text Summarization project aims to develop a platform that automatically generates concise and accurate summaries of Al Jazeera articles. By utilizing web scraping and advanced models like T5, BART, and PEGASUS, we explore translation and fine-tuning approaches to produce summaries in the target language. Our goal is to provide users with

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages