Skip to content

fix: disable cache to resolve parse_cache namespace error#27

Closed
Kaiohz wants to merge 1 commit into
mainfrom
fix/parse-cache-namespace
Closed

fix: disable cache to resolve parse_cache namespace error#27
Kaiohz wants to merge 1 commit into
mainfrom
fix/parse-cache-namespace

Conversation

@Kaiohz
Copy link
Copy Markdown
Collaborator

@Kaiohz Kaiohz commented Apr 26, 2026

Problem

The Kreuzberg cache was causing documents to fail processing with:

ERROR: Unknown namespace: parse_cache
WARNING: Error accessing parse cache: get_by_id_parse_cache
WARNING: No new unique documents were found.
INFO: No valid documents to process after consistency check
INFO: Enqueued document processing pipeline stopped

Root Cause

Kreuzberg use_cache=True requires a cache namespace that does not exist by default. The cache tried to access parse_cache namespace which was not configured.

Solution

Disable the cache (use_cache=False) until proper cache directory configuration is implemented.

Impact

  • Documents will be parsed without caching
  • Slight performance impact on re-parsing same documents
  • Processing pipeline will work correctly

Test

  1. Deploy the fix
  2. Restart the raganything pod
  3. Trigger document indexing
  4. Verify documents are processed without parse_cache errors

The Kreuzberg cache was causing documents to fail processing with:
- ERROR: Unknown namespace: parse_cache
- WARNING: Error accessing parse cache
- 'No valid documents to process after consistency check'

This disables the cache until proper cache directory configuration is implemented.
@Kaiohz
Copy link
Copy Markdown
Collaborator Author

Kaiohz commented Apr 26, 2026

🤖 Review automatique SoluBot

✅ Points positifs

  • Fix minimal et ciblé : Une seule ligne modifiée, impact limité
  • Commentaire explicatif : Le commentaire indique clairement le pourquoi du changement
  • Description de PR complète : Problem → Root Cause → Solution → Impact → Test, bien structuré
  • CI verte : Le pipeline passe

⚠️ Points à améliorer

1. Solution temporaire, pas définitive
Désactiver le cache résout le symptôme mais pas la cause racine. Kreuzberg a besoin d'un répertoire de cache configuré. Pour une vraie solution, il faudrait :

use_cache=os.getenv("KREUZBERG_USE_CACHE", "false").lower() == "true"

2. TODO tracking
Ajouter un TODO avec issue reference pour tracker le fait qu'il faut configurer le cache proprement.

3. Pas de tests
Le fichier kreuzberg_adapter.py n'a pas de tests unitaires. Au minimum : un test que extract_content fonctionne avec un PDF simple.

📊 Score: 7/10

Critère Note
Résout le problème
Minimalité du fix
Documentation
Solution pérenne ❌ (workaround)
Configurabilité
Tests

🎯 Recommandations

  1. Pour ce PR : Le fix est acceptable pour débloquer le pipeline. Prêt à merger.

  2. Follow-up : Créer une issue pour :

    • Configurer proprement le cache Kreuzberg via env var
    • Ajouter des tests unitaires sur KreuzbergAdapter

Review terminée. Le fix débloque la prod, mais prévoir un retour pour une vraie solution de caching.

@Kaiohz Kaiohz closed this May 5, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant