Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Přiřazení více zdrojů do interní kolekce #660

Open
Kupcova opened this issue Sep 11, 2023 · 5 comments
Open

Přiřazení více zdrojů do interní kolekce #660

Kupcova opened this issue Sep 11, 2023 · 5 comments
Assignees
Milestone

Comments

@Kupcova
Copy link

Kupcova commented Sep 11, 2023

Po přiřazení většího množství zdrojů do kolekce Periodické publikace mi nejde kolekce upravit - hází mi to Bad Request (400).
Přiřazených zdrojů je přes 1000 a zdroje v mimosystémových semínkách by se taky měly přesunout do přiřazených zdrojů.
https://www.webarchiv.cz/seeder/harvests/collections/internal/21

@mariehaskovcova
Copy link
Contributor

mariehaskovcova commented Sep 11, 2023

EDIT:
problém není v tomto případě v počtu semínek jako takových (do kolekce SWEB, která má několik desítek tisíc zdrojů přidávat další url lze, do této menší už nejde přidat ani jedno), ale možná v limitu počtu semínek, která mají záznam v Seederu, tzn. počtu tzv. přiřazených zdrojů. V kolekci Periodické publikace je hodně zdrojů se záznamem v Seederu, zdroje v kolekci SWEB samostatné záznamy až na výjimky nemají

@mariehaskovcova mariehaskovcova added this to the 1.0.9 milestone Apr 12, 2024
@Fasand
Copy link
Contributor

Fasand commented Jul 4, 2024

Prosím o kontrolu, jestli to je stále problém – na lokálu i app.webarchiv se mi do "Periodické publikace" daří přidávat mimosystémová semínka a i se párují, tak je na produkci jen nějak výrazně více zdrojů?

Kvůli nahrávání velkého množství semínek přes soubor jsem upravoval trochu workflow ukládání. Je tam teď podmínka, že pokud je v mimosystémových semínkách více než 1MB (1 mil. znaků) url, tak se už nepokouší párovat semínka a jdou aktualizovat pouze přes soubor. Pod tento limit se párování furt spouští a u většího množství semínek je určitě pomalé, ale mělo by max skončit timeoutem.

@Fasand Fasand mentioned this issue Jul 4, 2024
@mariehaskovcova
Copy link
Contributor

díky, Pavla otestuje příští týden, po dovolené

@Kupcova
Copy link
Author

Kupcova commented Jul 18, 2024

Zkoušela jsem v testovací verzi a povětšinou to funguje, ale jsou url, které se nechtějí přiřadit k jejich zdroji, i když je url stejná jako u zdroje např. http://e-auto.cz, http://www.technika.ccb.cz/, http://www.equiserver.eu a další, které jsou v části mimosystémová semínka.

Fasand added a commit that referenced this issue Jul 18, 2024
@Fasand
Copy link
Contributor

Fasand commented Jul 18, 2024

@Kupcova je to teda zapeklité, ale asi vím, v čem je problém, jen ještě nevím, jak ho vyřešit 😅
Z těch tvých příkladů:

  • http://e-auto.cz: URL se u semínka uložilo s mezerou na konci, takže se nespáruje, protože se páruje jen podle identické URL
  • http://www.equiserver.eu/: stejný problém, mezera na konci
  • http://www.technika.ccb.cz/: alespoň v test verzi má semínko stav "Ukončeno vydávání" a URL už nefunguje, takže je to asi správně. Párují se pouze semínka, která mají stav "Zahrnout do sklizně"

Co je pozitivní, tak semínka teď vytvořená/upravená přes formulář (což by měly být všechna...) se ukládají automaticky bez mezer na začátku/konci (i když je to hlavní semínko z formuláře pro nový zdroj), takže by to měl být problém jen u starších semínek. Můj best guess je, že v nějaké starší implementaci HTML/prohlížečů se mezery neodmazávaly a teď už to je ve formulářích standard, ale jen hádám, poslední semínko s mezerou v URL je z 2017.

Napsal jsem na to migraci, která u všech semínek s mezerou ty mezery vymaže + ve formuláři se budou mezery taky odmazávat i ve starších prohlížečích – půjde to otestovat až se rozběhne app.webarchiv, ale na e-auto jsem to vyzkoušel aspoň na lokálu.

Co se týče technika.ccb.cz, tak tam se to podle mě chová správně: pokud semínko nemá stav "Zahrnout do sklizně" tak by se nemělo spárovat. Co zůstává je problém, že se nespáruje např. "http://www.equiserver.eu" bez lomítka na konci, protože to semínko na konci lomítko má. Vyhledávání typu "contains" bohužel párování výrazně zpomalí a zase by bylo úplně nepoužitelné.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants