Fusion de zds-antispam dans zds-site #6720

Jan-Ha-He · 2025-03-10T19:15:27Z

Description

Dans cette pull request, nous fusionnons le module zds-antispam dans zds-site afin de supprimer la dépendance aux requêtes HTTP et permettre un accès direct aux données via l’ORM de Django. Concrètement, cela permettra :

De simplifier l’architecture en évitant des appels à l’API HTTP ;
Un accès plus facile aux biographies des utilisateurs;

Fichiers modifiés

signals.py
Exécute le Spam Detector à chaque mise à jour d'une biographie.
spam_detector.py
Contient la logique principale du module antispam : analyse des contenus et règles permettant de marquer un texte comme suspect.
spam_training.py
Regroupe les fonctions nécessaires à l’entraînement ou à la mise à jour des règles de détection de spam, en utilisant les données recueillies sur Zeste de Savoir.

Contrôle Qualité

Pour vérifier la bonne intégration de zds-antispam :

Lancez python manage.py migrate puis yarn test pour vous assurer du bon fonctionnement global.
Créez ou modifiez un profil utilisateur avec une biographie suspecte.
Vérifiez que le contenu problématique est bien signalé par le nouveau module antispam (consultez les logs ou l’interface d’administration).

En cas de problème ou de question, n’hésitez pas à le mentionner dans cette discussion.

TODO:

Création de tests
Intégration de données de formation
Mise en œuvre du rythme de formation
Assurer la persistance du modèle entraîné

…és" dans la sidebar des forums. Fix zestedesavoir#6467 - Vérifiez que les liens s'affichent bien dans la sidebar. - Testez que les liens redirigent vers les bonnes pages. - Assurez-vous que le comportement est correct sur mobile et desktop.

Situphen

Merci pour cette PR ! Voici quelques remarques qui me viennent après une première lecture, n'hésites pas à argumenter si tu as un avis différent ;)

Remarques concernant tous les fichiers :

Pour une meilleure lisibilité, il est recommandé de grouper les lignes d'importation (dans l'ordre : modules standard de Python, puis modules installés avec Pip, puis modules de ton projet) et de les trier par ordre alphabétique. Ça peut être fait automatiquement avec isort et je viens de créer une PR pour l'inclure dans le projet (#6721).
Tu es parti du code existant et c'est très bien, mais n'hésites pas à restructurer complètement le code (passer d'une classe à une fonction, renommer les variables, etc.) car d'une part le cas d'usage est très différent (on n'est plus du tout sur un script qui tourne tous les X minutes et fait des appels API) et d'autre part le code est vieux !

Situphen · 2025-03-10T23:26:39Z

zds/utils/spam_training.py

+current_dir = os.path.dirname(os.path.abspath(__file__))
+json_path = os.path.join(current_dir, "spamdata.json")


Dans les projets Django, on préfère en règle générale créer les chemins à partir de BASE_DIR pour partir de la même base partout. De plus, on préfère travailler avec des objets Path que le module os.path quand c'est possible. La documentation donne les équivalences entre les deux modules : https://docs.python.org/fr/3.13/library/pathlib.html#corresponding-tools

from django.conf import settings chemin = settings.BASE_DIR / "sous-dossier" / "fichier.txt"

Situphen · 2025-03-10T23:31:40Z

zds/utils/signals.py

+# Logger Setup
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.ERROR)
+current_dir = os.path.dirname(os.path.abspath(__file__))
+log_file = os.path.join(current_dir, "spam_signals.log")
+
+# File Handler
+handler = logging.FileHandler(log_file)
+handler.setLevel(logging.ERROR)
+formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
+handler.setFormatter(formatter)


Dans les fichiers de code du projet, on définit le logger avec seulement cette simple ligne :

Suggested change

# Logger Setup

logger = logging.getLogger(__name__)

logger.setLevel(logging.ERROR)

current_dir = os.path.dirname(os.path.abspath(__file__))

log_file = os.path.join(current_dir, "spam_signals.log")

# File Handler

handler = logging.FileHandler(log_file)

handler.setLevel(logging.ERROR)

formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")

handler.setFormatter(formatter)

logger = logging.getLogger(__name__)

Le reste est géré dans la configuration :

zds-site/zds/settings/abstract_base/django.py

Lines 253 to 287 in 5b98a51

LOGGING = {

"version": 1,

"disable_existing_loggers": False,

"formatters": {

"verbose": {

"format": "%(levelname)s %(name)s %(message)s",

},

},

"handlers": {

"console": {

"level": "DEBUG",

"class": "logging.StreamHandler",

"formatter": "verbose",

},

},

"loggers": {

"django": {

"handlers": ["console"],

"level": "WARNING",

},

"django.request": {

"level": "ERROR",

"handlers": [],

"propagate": False,

},

"zds": {

"handlers": ["console"],

"level": "WARNING",

},

"root": {

"handlers": ["console"],

"level": "WARNING",

},

},

}

Situphen · 2025-03-10T23:35:07Z

zds/utils/spam_detector.py

+        current_dir = os.path.dirname(os.path.abspath(__file__))
+        log_file = os.path.join(current_dir, "spam_detector.log")
+
+        handler = logging.FileHandler(log_file, mode="a")
+        formatter = logging.Formatter("%(asctime)s - %(name)s - %(levelname)s - %(message)s")
+        handler.setFormatter(formatter)
+        self.logger.addHandler(handler)


Idem, géré dans la configuration du projet

Suggested change

current_dir = os.path.dirname(os.path.abspath(__file__))

log_file = os.path.join(current_dir, "spam_detector.log")

handler = logging.FileHandler(log_file, mode="a")

formatter = logging.Formatter("%(asctime)s - %(name)s - %(levelname)s - %(message)s")

handler.setFormatter(formatter)

self.logger.addHandler(handler)

Situphen · 2025-03-10T23:36:10Z

zds/utils/spam_detector.py

+        self.logger = logging.getLogger("zds.spam")
+        self.logger.setLevel(logging.ERROR)


À remplacer par logger = logging.getLogger(__name__) juste après les lignes d'importation

Suggested change

self.logger = logging.getLogger("zds.spam")

self.logger.setLevel(logging.ERROR)

Situphen · 2025-03-10T23:40:50Z

zds/utils/spam_detector.py

+from django.contrib.auth.models import User
+
+
+class SpamDetector:


Je pense que le code gagnerait en lisibilité en remplaçant cette classe par une fonction, car le code est assez linéaire.

Situphen · 2025-03-10T23:44:21Z

zds/utils/spam_detector.py

+    reported_users_file = "reported_users.txt"
+    reported_users = []


Dans le fonctionnement actuel, le code est exécuté toutes les 5 minutes donc ce fichier permet de ne pas vérifier tout le temps la même biographie. Étant donné que dans le nouveau fonctionnement ce code est exécuté pour une biographie seulement à sa création ou à sa modification, ce fichier n'a plus d'utilité ! Tu peux donc retirer tout ce qui est lié à reported_users.

Mise a jour du fork

Merge tests pour zds-antispam integration

Modification spam_training.py et spam_detector.py : 1-Remplacement des données dynamiques par un jeu de données statique 2-Utilisation de données factices pour l'entraînement du modèle Ajout des tests unitaires qui couvrent : 1-Profils sans biographie 2-Contenu spam 3-Contenu valide Lancer python3 manage.py test zds.utils.tests.tests_antispam

wassimaarab

la commit 717cb10 est une duplication involontaire due à un conflit de merge.
Merci d’ignorer celle-ci et de vous référer à la commit précédente 385b8f5 pour les vrais changements

…persistance et de retrain_spam_filter.py pour les tâches planifiées.

Restructuring

Ajout de reentraîner le modèle que nécessaire

coveralls · 2025-04-22T09:35:13Z

coverage: 89.07% (-0.2%) from 89.225%
when pulling 724785e on Jan-Ha-He:dev
into e30e481 on zestedesavoir:dev.

philippemilink

Pas mal de petits points à revoir.

Ce serait bien d'ajouter quelques commentaires dans le code pour expliquer le fonctionnement général de l'antispam. Et également rédiger la documentation correspondante.

Par contre, la façon dont vous avez conçu le code ne prend pas du tout en compte l'évolution qui permettrait de chercher du spam dans d'autres champs. Mais il ne vous reste sans doute pas assez de temps pour mettre ça en place...

zds/antispam/retrain_spam_filter.py

zds/antispam/spam_detector.py

zds/utils/management/commands/load_fixtures.py

zds/utils/signals.py

wassimaarab · 2025-04-23T10:47:18Z

Pour réaliser la tache pour l'évolution, nous pensons qu’il suffit d’entraîner le modèle séparément sur chacun des champs (commentaire, biographie et contenu), puis de le lancer pour l’analyse de spam. Ensuite, on pourrait simplement adapter le message d’alerte en fonction du champ analysé. Est-ce bien la démarche à suivre, ou y a-t-il une autre approche recommandée ?

philippemilink · 2025-04-24T20:15:32Z

Pour réaliser la tache pour l'évolution, nous pensons qu’il suffit d’entraîner le modèle séparément sur chacun des champs (commentaire, biographie et contenu), puis de le lancer pour l’analyse de spam. Ensuite, on pourrait simplement adapter le message d’alerte en fonction du champ analysé. Est-ce bien la démarche à suivre, ou y a-t-il une autre approche recommandée ?

C'est pas tant d'appliquer le même processus qui est difficile, mais de coder la chose de façon à ce qu'on puisse très facilement ajouter les champs dans lesquels on souhaite chercher du spam. Dans l'idéal, pour dire au système qu'on souhaite chercher du spam dans un champ supplémentaire, ce serait juste une ligne de code ajouter. On en avait discuté lors d'une réunion de dev's.

… antispam.

…ec le même modèle pour tous les attributs.

…différents.

zds/antispam/apps.py

zds/antispam/receivers.py

philippemilink · 2025-05-04T18:21:58Z

zds/antispam/spam_detector.py

+            alert_kwargs = {
+                "author": User.objects.get(username="antispam"),
+                "scope": scope,
+                "text": _(f"Potential spam detected in {instance_info}, field '{field_name}'."),
+                "pubdate": datetime.now(),
+            }


Suggested change

alert_kwargs = {

"author": User.objects.get(username="antispam"),

"scope": scope,

"text": _(f"Potential spam detected in {instance_info}, field '{field_name}'."),

"pubdate": datetime.now(),

}

scope_to_alert_kwargs = {

"PROFILE": "profile",

"FORUM": "comment",

"CONTENT": "content",

}

alert_kwargs = {

"author": User.objects.get(username="antispam"),

"scope": scope,

"text": _(f"Potential spam detected in {instance_info}, field '{field_name}'."),

"pubdate": datetime.now(),

scope_to_alert_kwargs[scope]: instance,

}

Mais peut-être qu'on peut définir le scope directement à la valeur attendue par Alert ? La question c'est : est-ce qu' on a envie/besoin de distinguer les messages sur le forum et les commentaires des contenus pour détecter du spam ?

J'ai fait des changements comme j'ai compris le commentaire, je ne suis pas 100% sûre que c'était ce que était signifié par le commentaire

zds/antispam/spam_detector.py

philippemilink · 2025-05-04T19:28:36Z

zds/antispam/spam_fields.py

+        "model": Profile,
+        "field": "biography",
+        "scope": "PROFILE",
+        "get_instance_info": lambda instance: f"Profile of user '{instance.user.username}'",


J'ai l'impression que cet attribut correspond aux méthodes __str__() des des objets ?

C’est changé pour le profil, mais pas pour les commentaires, car cela entraînerait du HTML en clair dans les alertes.

philippemilink · 2025-05-04T19:47:40Z

zds/antispam/spam_model_manager.py

+    def prepare_training_data(self, content_type):
+        """
+        Prepare training data for the given content type.
+        """
+        # Implement logic to fetch or generate training data based on content_type
+        bios = ["example spam text", "example non-spam text"]
+        labels = [0, 1]  # 0 for spam, 1 for non-spam
+        return bios, labels
+


Cette méthode n'a pas sa place dans cette classe, elle doit être directement dans les tests.

En général, cette fonction doit aussi collecter des données pour l’entraînement de la base de données, mais il y avait une petite erreur dans le commit.
Pour la création des données de test, j’ai également ajouté un autre commentaire.

zds/antispam/spam_fields.py

…gnes inutiles dans apps.py.

…t Comment

… antispam.

…ers antispam.

…model_manager.py.

…ec le même modèle pour tous les attributs.

…différents.

…gnes inutiles dans apps.py.

…t Comment

Vérification des tests : -Dans le répertoire racine, lance : python3 manage.py test zds.utils.tests.tests_antispam

Vérification des tests : -Dans le répertoire racine, lance : python3 manage.py test zds.utils.tests.tests_spam_manager

Fichiers modifiés/ajoutés : 1-Modifié arborescence-back.rst : ajout le modèle antispam/ à l’arborescence de zds/ 2-antispam.rst : rédaction de la documentation pour le modèle antispam

…s données d’entraînement

wassim aarab and others added 4 commits January 27, 2025 20:16

Merge branch 'zestedesavoir:dev' into dev

864b763

Fusion de zds-antispam dans zds-site

4a213e3

Fusion de zds-antispam dans zds-site

2c9422b

philippemilink added this to Suivi des PR Mar 10, 2025

github-project-automation bot moved this to En développement in Suivi des PR Mar 10, 2025

philippemilink added the Projet Étudiants label Mar 10, 2025

Situphen requested changes Mar 10, 2025

View reviewed changes

github-project-automation bot moved this from En développement to Modification demandée in Suivi des PR Mar 10, 2025

wassimaarab mentioned this pull request Mar 23, 2025

Tests pour le spam_detector #6723

Open

Jan-Ha-He and others added 6 commits March 25, 2025 17:06

Merge pull request #1 from zestedesavoir/dev

d33a543

Mise a jour du fork

Merge pull request #2 from wassimaarab/dev

008c371

Merge tests pour zds-antispam integration

Ajout de la génération de profils spam pour tester le filtre.

ba2d1b4

Merge remote-tracking branch 'origin/dev' into dev

7216a9f

wassimaarab reviewed Apr 21, 2025

View reviewed changes

Jan-Ha-He and others added 6 commits April 21, 2025 16:42

Reorganisation dans un nouvel package zds.antispam.

611eabd

Ajout d'exigences, amélioration de la structure du code, ajout de la …

da6705f

…persistance et de retrain_spam_filter.py pour les tâches planifiées.

Ajout d'exigences, amélioration de la structure du code, ajout de la …

a4c08b0

…persistance et de retrain_spam_filter.py pour les tâches planifiées.

Merge pull request #3 from Jan-Ha-He/restructuring

a61bd29

Restructuring

Ajout de reentraîner le modèle que nécessaire.

c6aa6ab

Merge pull request #4 from Jan-Ha-He/restructuring

686b799

Ajout de reentraîner le modèle que nécessaire

Jan-Ha-He requested a review from Situphen April 22, 2025 09:48

philippemilink requested changes Apr 22, 2025

View reviewed changes

Jan-Ha-He added 2 commits April 24, 2025 23:27

Résolution de 14/22 des petits points (modifications des loggers, etc.)

19ff103

Ajout de la commande antispam_train et déplacement des receivers vers…

935ac60

… antispam.

Jan-Ha-He added 5 commits April 26, 2025 15:45

Correction #3 pour le dernier commit : train(), pas retrain()

a4dcaa0

Fixation éventuelle pour le chemin d'accès au fichier.

695b270

Fixation #2 éventuelle pour le chemin d'accès au fichier.

a8465f0

Ajout de la possibilité de tester d’autres attributs pour le spam, av…

dec6340

…ec le même modèle pour tous les attributs.

Ajout de la possibilité d’avoir plusieurs modèles pour des attributs …

35febe6

…différents.

philippemilink requested changes May 4, 2025

View reviewed changes

Jan-Ha-He added 18 commits May 9, 2025 14:55

Correction de la génération des données de test et suppression des li…

78a545d

…gnes inutiles dans apps.py.

Correction de petits éléments + ajout du champ is_spam pour Profile e…

e0f644f

…t Comment

Changement de l’utilisation du scope dans send_alert.

46a467f

Résolution de 14/22 des petits points (modifications des loggers, etc.)

a75b3ae

Ajout de la commande antispam_train et déplacement des receivers vers…

bda16df

… antispam.

Ajout d'un utilisateur antispam pour les notifications antispam.

4a48286

Ajout du code pour créer et utiliser un nouvel dossier pour les fichi…

45f3756

…ers antispam.

Fusion de retrain() et train().

a80346e

Correction pour le dernier commit : il manquait load_model dans spam_…

62377d8

…model_manager.py.

Correction #2 pour le dernier commit : predict() manque aussi

11cba74

Correction #3 pour le dernier commit : train(), pas retrain()

3ef3a4f

Fixation éventuelle pour le chemin d'accès au fichier.

ea392e1

Fixation #2 éventuelle pour le chemin d'accès au fichier.

4bed8d7

Ajout de la possibilité de tester d’autres attributs pour le spam, av…

bbfbd81

…ec le même modèle pour tous les attributs.

Ajout de la possibilité d’avoir plusieurs modèles pour des attributs …

e33158c

…différents.

Correction de la génération des données de test et suppression des li…

ff74cc2

…gnes inutiles dans apps.py.

Correction de petits éléments + ajout du champ is_spam pour Profile e…

cb2ee3d

…t Comment

Changement de l’utilisation du scope dans send_alert.

6d28d89

wassimaarab force-pushed the dev branch from 46a467f to 717cb10 Compare May 10, 2025 11:17

wassim aarab and others added 5 commits May 10, 2025 14:11

Tester le modele spam_detector.py

d604c97

Vérification des tests : -Dans le répertoire racine, lance : python3 manage.py test zds.utils.tests.tests_antispam

Tester le modele spam_manager.py

8db663c

Vérification des tests : -Dans le répertoire racine, lance : python3 manage.py test zds.utils.tests.tests_spam_manager

Ajouter la documentation pour le modèle antispam

2977b63

Fichiers modifiés/ajoutés : 1-Modifié arborescence-back.rst : ajout le modèle antispam/ à l’arborescence de zds/ 2-antispam.rst : rédaction de la documentation pour le modèle antispam

Merge remote-tracking branch 'origin/dev' into dev

1805583

Petites améliorations : structure des posts spam et journalisation de…

724785e

…s données d’entraînement

		current_dir = os.path.dirname(os.path.abspath(__file__))
		json_path = os.path.join(current_dir, "spamdata.json")

	LOGGING = {
	"version": 1,
	"disable_existing_loggers": False,
	"formatters": {
	"verbose": {
	"format": "%(levelname)s %(name)s %(message)s",
	},
	},
	"handlers": {
	"console": {
	"level": "DEBUG",
	"class": "logging.StreamHandler",
	"formatter": "verbose",
	},
	},
	"loggers": {
	"django": {
	"handlers": ["console"],
	"level": "WARNING",
	},
	"django.request": {
	"level": "ERROR",
	"handlers": [],
	"propagate": False,
	},
	"zds": {
	"handlers": ["console"],
	"level": "WARNING",
	},
	"root": {
	"handlers": ["console"],
	"level": "WARNING",
	},
	},
	}

		self.logger = logging.getLogger("zds.spam")
		self.logger.setLevel(logging.ERROR)

		from django.contrib.auth.models import User


		class SpamDetector:

		reported_users_file = "reported_users.txt"
		reported_users = []

Fusion de zds-antispam dans zds-site #6720

Are you sure you want to change the base?

Fusion de zds-antispam dans zds-site #6720

Uh oh!

Conversation

Jan-Ha-He commented Mar 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description

Fichiers modifiés

Contrôle Qualité

Uh oh!

Situphen left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

wassimaarab left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

coveralls commented Apr 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

philippemilink left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

wassimaarab commented Apr 23, 2025

Uh oh!

philippemilink commented Apr 24, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Jan-Ha-He commented Mar 10, 2025 •

edited

Loading

wassimaarab left a comment •

edited

Loading

coveralls commented Apr 22, 2025 •

edited

Loading