Skip to content

Instructions PTM

Alix Chagué edited this page Apr 21, 2021 · 5 revisions

Dernière MàJ

Préparation des données

Structure des dossiers

Le scénario de transformation est construit en fonction de l'organisation des données dans les dossiers transmis. Par exemple :

dossier principal/
  - out/
    - 1923_pg0001_metadata.xml
    - 1923_pg0001.pdf
    - 1923_pg0001.xml
    - 1923_pg0001.xml_data/
      - image-1.png
      - image-1.svg

⚠️ Gardez cette structure !

Format de l'archive

Bien que les fichiers transmis soient des tar.gz, je n'ai pas développé de fonction exprès donc il faut les changer en .zip.

Noms des images à charger dans eScriptorium (après application d'Aspyre)

⚠️ Attention, il s'agit ici des noms de fichiers images tels qui devraient être avant de les importer dans eScriptorium, pas avant de faire tourner Aspyre dessus !

Lors de la transformation, Aspyre modifie automatiquement le nom de l'image source (//sourceImageInformation/fileName) de la manière suivante : même si l'image dans le dossier s'appelle "image-1", on suppose que toutes les images ont été renommées d'après le nom du dossier qui la contient. Donc, au lieu de 1923_pg0001.xml_data/image-1.png, la valeur inscrite dans le noeud fileName est 1923_pg0001.png.

Vous avez deux options si ce n'est pas comme ça que vos images sont nommées (et prévenez-moi):

  • soit vous avez un autre système de nommage des images avant import et il faut le reporter (de manière assez simple) dans get_image_filename()
  • soit vous modifiez le noms de vos images de manière à correspondre à la valeur inscrite dans le script

Installation

(Aspyre 0.3.2 minimum !)

$ git clone https://github.com/alix-tz/aspyre-gt.git
$ cd aspyre-gt
$ virtualenv venv -p python3
$ source venv/bin/activate
(venv)$ pip install -r requirements.txt

Commande

(venv)$ cd aspyre
(venv)$ python3 run.py -i /path/to/archive.zip -sc pdfalto -vp 70

Si vous ne spécifiez pas de chemin d'output, le programme vous indiquera où l'archive a été sauvegardée (normalement dans le même dossier que l'archive source)

L'option -vp permet d'ajuster la hauteur des baselines, car il semble que PDFALTO crée ce qu'on pourrait appeler des toplines, qui posent problème pour la génération des masques. A priori la valeur de 70 (pixels) permet de remettre la plupart des lignes à la bonne hauteur, mais on peut en changer.


Résultat d'Aspyre sans l'ajustement de la hauteur des baselines:

Résultat d'Aspyre avec ajustement de la hauteur par 70 (-vp 70)