Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Inaktiva PID / avpublicerat material #13

Closed
andre-jernung opened this issue Aug 28, 2023 · 18 comments
Closed

Inaktiva PID / avpublicerat material #13

andre-jernung opened this issue Aug 28, 2023 · 18 comments
Labels
enhancement New feature or request

Comments

@andre-jernung
Copy link

Contact Details

[email protected]

What benefits does the suggestion solve?

I specifikationens Rekommendation UM-10 framgår att (inaktiv) PID som pekar på avpublicerat material enbart skall hanteras med HTTP 410-respons utan ytterligare kontextuell information.

Detta bryter i vår mening med de best practices som utformats internationellt men också med förväntningar på transparens och ansvarsutkrävande hos svensk statlig verksamhet.

Feature suggestion description

För PID som pekar på avpublicerat material existerar en praxis med s.k. tombstone pages som kan innehålla information om varför materialet avpublicerats, vad det eventuellt har ersatts av och vem som är ansvarig för beslut och förvaltning.

Ett exempel på denna praxis kan t.ex. ses hos DataCite:s rekommendationer: https://support.datacite.org/docs/tombstone-pages

Alternative solutions

No response

Additional information

No response

@andre-jernung andre-jernung added the enhancement New feature or request label Aug 28, 2023
@salgo60
Copy link

salgo60 commented Aug 28, 2023

Håller med RAÄ håller på med httpkoder och gissar varför saker försvunnit det känns inte 2023

Exempel med RAÄs bebyggelseregistet där vi hittade flera 1000 döda länkar och RAÄ själva började gissa att det är copyright osv sv... RAÄ är en myndighet som lekt med detta i > 10 år och har ingen vettig helpdesk där man får ett helpdesknummer och en sida man kan följa ärendet --> gör datat blir mer eller mindre oanvändbart för andra än Wiki entusiaster...

jag skulle vilja säga ha en kunskapsgraf där man kan följa livscykeln, tycker det även skall vara tydligt hur en PID föds där kan man titta på EEA hur dom beskriver kriteriet och vem man kontaktar om man vill ha en ny

data element bathingWaterIdentifier 99263

Methodology for obtaining data


Must be a valid bathing water identifier in 
the "WFDProtectedArea" registry ( https://dd.eionet.europa.eu/vocabulary/wise/WFDPro... ).

New bathing water identifiers 
must be reported under 
"Bathing Water Directive - 
Identification of Bathing Waters - 2019" ( https://rod.eionet.europa.eu/obligations/788 )

Contact [email protected] for support if 
you need to report additional 
bathing water identifiers.


Exempel udda ändring som RAÄ gjorde för att vara "tydligare"

PR

image

@matthiaspalmer
Copy link
Collaborator

UM-10 säger bara att man ska svara med status koden 410.
Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone.
HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.

@matthiaspalmer
Copy link
Collaborator

matthiaspalmer commented Aug 28, 2023

Eventuellt kan man också använda link rel=sunset då den:
"Identifies a resource that provides information about the context's retirement policy."

Den definieras här: https://www.rfc-editor.org/rfc/rfc8594.html

@salgo60
Copy link

salgo60 commented Aug 29, 2023

UM-10 säger bara att man ska svara med status koden 410.

Det är alltså inte förbjudet att skicka med en message body i t.ex. html som motsvarar en tombstone.

HTTP specen tillåter detta: https://www.rfc-editor.org/rfc/rfc9110#name-core-semantics.

Men som Niklas på KB sa i den video intervju Mathias gjorde med honom för 9 år sedan "städa vid källan inte ha ett reningsverk vid varje handfat" det bör vara tydligt att för konsumenten av en PID varför, blir det bara en rekommendation att förklara så blir det samma antipattern vi ser hela tiden med öppna data att det levereras massa textsträngar som jag som konsument skall städa upp och tolka... varje sten vi lyfter på visar ett kaos och avsaknad av informationsdesign...

DIGG använder ordet främja allt för ofta istället för att ställa krav och säga skall eran organisation leverera data på högsta nivå så uppfyll följande krav #10

Skall vi gå från dagens data silos till där kommuner har sina beslut, kommentarer utredningar med Persistenta Identifierare så behövs saker som ovan vara enormt tydliga att det förväntar vi oss av data leverantören.

image Bilden ovan ett beslut om nytt Naturreservat som 2023 Naturvårdsverket vet om och verkar inte kunna leta fram själva utan ber mig prata med Tyresö kommun.... Här borde Tyresö kommun fått en PID av Naturvårdsverket och Naturvårdsverket peka tillbaka på beslutet i sina register... att inte vara tydlig vad som förväntas av olika aktörer blir inte bra... idag verkar det mesta vara ett kaos...

Mitt RAÄ exempel ovan så la vi ned 10 tals timmar att förstå problemet som efter 1 år kommenterades av RAÄ att nu var det fixat dvs. det var nog en bugg hos RAÄ....

Mer tydlighet hur man uppträder för att vara bäst i klassen Tack

@salgo60
Copy link

salgo60 commented Sep 19, 2023

Maintenance hell - utan tombstone pages #38

3775 fel wikidata -> RAÄ - enorma kostnader att underhålla ett dåligt ekosystem för persistenta identifierare

Min Issue #4 "att skapa Best practices" känns mer än viktigt om detta skall bli något... plus att vi får inte ramla in i den vanliga DIGG fällan att det bara blir en pdf spec utan att ett ekosystem byggs kring detta med att hantera livscykeln med persistenta identifierare från att

  1. någon önskar att en PID skapas
  2. tills den landar på Riksarkivets hyllor
  • jag skapade 2021 "The Magnus list" som är en lägsta nivå för att jobba ihop

Jag testade 2023-09-08 att köra igenom 173 000 länkar Wikidata -> RAÄ där RAÄ inte har följt Best Practices for Tombstone Pages som rekommenderas ovan utan endast ger dig http-koden plus en statisk text --> att städaktiviteten att förstå vad som sker blir konsumentens problem = "ett reningsverk vid varje handfat" --> Maintenance hell

Rekommenderat utseende på tombstone page

image

This page conforms to best practices for tombstone pages.

  1. It contains a full bibliographic citation of the item, so users can confirm they have located the correct item.
  2. It includes the DOI displayed as a URL.
  3. It gives a reason for the unavailability of the item.

RAÄs ekosystem med httpkoder och en statisk text på svenska - Problem 1: följer inte rekommendationen på tombstone pages

Exempel fel från RAÄ

image image
Number records in Wikidata: 173028
OK: 169250 not ok 3775
Ended: 2023-09-08 14:04:25.417392

Status samma test 2021-03-25 med samma dataset fel funna 4605

På Wikipedia diskuterades detta fel från 27 september 2020

  • inget hände så jag skrev ihop lite kod som anropa WD och skickade frågan till RAÄ 2021-03-25 länk 4605 fel funna av 160 531 testade poster --> 2.8 % av posterna har länkröta -> Gissar att RAÄ inte kollar sina länkar internt utan saker bara ruttnar

Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus

RAÄ saknar publika backlogs och enkelhet att logga fel med helpdeskid --> maintenance hell för konsumenten

Att kontinuerligt kolla av sina PID:ar och datakällor dom kopplar till som Wikidata gör Humlab Riksdagens Corpus något som alla måste göra...Jag sliter en del med Svenska Riksdagsmän och Wikidata där ett forskningsprojekt Riksdagens corpus valt att ange samma som Wikidata eftersom Wikipedia är den organisation som har bäst kunskap över svenska Riksdagsmän över tid i Sverige (borde vara Riksarkivet och Sveriges Riksdag eller Kungliga Biblioteket...)

  • Vid en PR på GITHUB kör detta projekt Riksdagens corpus en check att deras data är konsistent och att det data i Wikidata dom kopplat till är i ordning exempel då dom hittar fel Wikidata och direkt från denna pull #258 pingar in mig (Bra kandidat till Skapa "Best practices" #4 att ha ett ekosystem där man kan pinga alla intressenter, tror även alla aktörer skall implementera observer pattern där jag kan begära att bli notifierad då en PID ändras)

image

image

Problem 3: RAÄ saknar bra mönster när organisationer lämnar dom - dom verkar bara ta bort posten och skicka 404

I körningen ovan finns ett bra mönster att man i PID:en kan se agenten exempel
/LSH/agents/12250 --> LSH

  1. jag vet för jag strulat en del med detta data att LSH var "Livrustkammaren och Skoklosters slott med Stiftelsen Hallwylska museet"
  2. Resultatet av denna gegga Wikidata har nu 1902 "fel i wikidata" som har denna agent
  3. min gissning är att dessa finns nu hos SHMM se artikel 2017-06-01 "SHMM och LSH går samman" och 2023 efter 6 år har dessa poster
    1. troligen blivit flyttade till SHMM
    2. I wikidata har SHMM lagt till en ny WD egenskap med Wikimedia Sveriges hjälp se egenskapsdiskussion för Id i Statens historiska museers samlingar som blev Property:P9495
    3. Wikimedia Sverige användare Alicia_Fagerving_(WMSE) och LinneaKarlberg har sedan lagt in Property:P9495 > 30 000 ggr i Wikidata
    4. Någon på RAÄ tänker inte persistenta identifierare och att externa aktörer fortfarande pekar på dom med det gamla id:et --> att man tar bort det och ger oss konsumenter "Felkod: 404 (Not Found) Service: Ksamsök."

Flera fel gjorda lesson learned är att skapa detta kaos är inte bara att ett fel görs man brukar prata om "a trail of shit"...

  1. RAÄ borde informerat var den nya platsen för identifieraren är inte bara skicka 404
  2. RAÄ borde ha implementerat observer pattern så aktörer som Wikidata kan fånga upp detta innan vi får problem
  3. den som lägger till nya egenskapen i Wikidata borde ta bort den gamla eller i Wikidatas fall ange skäl Q122746164 både på svenska och engelska se ex. Q28967664#P1260 - svenska / engelska
    1. se Skapa "Best practices" #4 "Best practice: Support depreciated and reason for deprecated rank"
image image

Observer pattern

En snygg implementering av Observer pattern vore att även i löst kopplade system kan saker som citation graphs skapas....

image

dvs. att en SFS som Riksdagen har skulle kunna ha koll på vilka myndighetsförfattningar som refererar den, att utredningar som refereras kan am med ett klick kunna se vilka som refererar till den se #100 #85 status idag är att ex. Esamverkan publicerar dokument som refererar myndigheter som upphört och ligger i en kartong hos Riksarkivet dvs. det saknas helt vettig dokumenthantering vilket jag ser som en brist i vår demokrati och att Sveriges Riksdag inte har 5-star data

Fixat av RAÄ 6 september 2021 - tid 1 år

F.k. : fr.o.m. igår 2021-09-06 ska 10 537 BeBR-poster som var tillfälligt borttagna ur K-samsök (svarade med 410) vara tillbaka i indexet. De beständiga kulturarvsdata.se-URI:erna svarar igen antingen med 200 + RDF/XML / JSON-LD, eller 302 + ompekning till källan (posten hos Bebyggelseregistret) beroende på anropets Accept-headers

image

image

Behovet av best practices #4 är stort för att styra icke digitala organisationer att fungera i ett ekosystem med persistenta identfierare

@salgo60
Copy link

salgo60 commented Sep 22, 2023

Problem 4: Hur skall problem med Persistenta identifierare kommuniceras/felanmälas när flera organisationer är inblandade... idag saknas en infrastruktur för att jobba ihop

  • jag testade twitter och får snabbt svar av Linnea men RAÄ är tysta
    • jag har även försökt få kontakt med @matthiaspalmer för att få en status på detta projekt
image image

UPDATE 2023-10-03:

@salgo60
Copy link

salgo60 commented Sep 22, 2023

Problem5: Skall vara enkelt att på landningssidan av en Persistent identifierare se

  • versioner av objektet
  • öppna helpdeskärenden relaterade till pid:en
  • enkelt kunna skapa ett nytt helpdesk ärende från landningssidan och kunna prenumerera på uppdateringar...
  • att kunna prenumerera på ändringar på objektet se observer pattern

Pratade nyss med Linnea (som snabbt svarat på twitter) och det verkar vara helt fel i RAÄs del - allt skall levereras dit och det ligger i Linneas backlog att ladda upp fler objekt dvs. min killgissning ovan att Wikidata inte skall peka på kulturnav är nog fel

  • gissar att deras organisationsändring som gjorde att dom skapar en wikidata egenskap kommer att leda till agent namnet ovan skall bytas hur hanteras det? Behövs det tankar om detta i denna spec...?

@carwash vad är RAÄs take på detta?

  1. går det att logga ett fel hos er och få ett helpdesk nummer som jag kan följa status på, om ja hur

    1. kan jag skicka in 3775 fel(httpkod != 400) och ni rapportera tillbaka det på ett vettigt sätt?
    2. trevligast vore det att se Notebook kod exempel hur jag som konsument kan stämma av status med ert data och om det finns helpdesk ärenden kopplade till PID:en med fel
      1. att det finns ett API där man kan direkt skapa avvikelser jmf dom PR Riksdagens corpus gör som skapar avvikelser och det blir enkelt att pinga in t.ex. mig se ovan "Problem 2: RAÄ saknar bra mönster för att hitta länkröta i sina system - jmf Humlab Riksdagen Corpus"
  2. finns det beskrivet vad som skall göras med LSH objekten? Är det redan ett helpdesk ärende?

    1. finns dialogen med Statens historiska museer och Linnea dokumenterad vad som skall göras eller finns det dokumenterat vad ni gjort och av vem och varför dvs. har ni spårbarhet

    2. hur sker återkopplingen till Statens historiska museer känns väldigt udda att deras Intendent digital förmedling blir överraskad vad som fungerar och inte fungerar... finns det en förklaring vad som saknas i eran dialog med dom och planer att jobba mer proffsigt ihop

      1. jag blir lite mörkrädd att det "bara" pratas httpkoder i detta rep och inte att skapa fungerande ekosystem tycker misslyckandet med öppna data där vi bara ser datasilos 2023 och inte länkade data borde få DIGG att tänka om att dagens sätt att "främja" måste ersättas med styra upp...
        1. RAÄ har varit inblandad i Europeana där massa museer skickat ned > 50 miljoner bilder och använder textsträngar --> Wikipedia inte länkar Europeana för att kvaliten är så dålig dvs. flera 100 miljoner Euro bortkastat och ett ekosystem som inte fungerar...
        2. min hobby analys av RAÄs ekosystem med museerna #33 icke lärande organisationer
      2. när uppenbara fel i dialog och utförande hittas hur jobbar RAÄ då? Gör ni en root cause analysis och loggar detta om ja var kan vi se detta och kan andra myndigheter följa hur ni förbättrar er organisation eller sker allt ad hoc dvs. level 1 i CMM Maturity model? det vi på utsidan ser är icke lärande organisationer se försök att ha dialog med muserna under 1 år om Riksdagsmän och ange persistenta identifierare och samma som #42 liknande dialog med projekt #359 Riksdagens Corpus

      image

  3. finns planer att bygga om denna del så det blir bättre för oss konsumenter? Om jag fattar rätt så utreds nästa version K-samsök 2.0 hur långt har ni kommit var kan man följa detta er video 2023-jul är enormt ytlig och säger ingenting mer än Europeanas video från 2012 ;-) finns de krav ni skall uppfylla beskrivna.... finns projektet på GITHUB....

    1. har ni börjat att speca och peka på de krav som detta projekt skall uppfylla ? Som jag sa tidigare så vore det snyggt att ha detta projekts krav som Öppna data med Persistenta identifierare som RAÄ skulle kunna peka på och kunna ha sina egna krav som länkade data.....

@salgo60
Copy link

salgo60 commented Oct 2, 2023

Vet inte om ni är mogna för detta men PID livscykeln borde styras upp så att det skalar även mellan olika länders PID:ar och då tänker jag på mer avancerat än http:koder jag tror det skall till bra API:er, SPARQL federation "The Magnus list" det jag ser ovan av RAÄs httpkod baserade "lösning" är att det lätt blir en datasilo med dålig data... men det kanske är en början.... blir ofta lite ghosting då man pekar på problem och vill ha dialog ( se skuggbackloggar)...

Wikidata ser behovet att olika intressenter pratar ihop sig så dom har skapat ett event nu 2023 och jag försöker få med forskare på Riksdagen corpus som nu bygger stora delar av sitt ekosystem på Wikidata på gott och ont se länk där jag tycker dom borde jobba med egna kunskapsgrafer och jobba mer internationellt som ParlaMINT

WIkidatas utmaning idag är löst kopplade system med olika mogenhetsgrad och en community som bygger på frivillighet... se lista med externa Wikidata egenskaper som idag > 8200 / enbart svenska > 100 tyvärr så skapas inte så många svenska egenskaper lite pga av att initiativ som detta om att standardisera PID hanteringen inte landat och det kaos vi har med massa datasilos utan publika backlogs...

image image image image

Hur snyggt Nobelprize.org och Wikidata jobbar ihop med 5-star open data

Exempel hur Persistenta identifierare kopplar ihop två löst kopplade system...

@salgo60
Copy link

salgo60 commented Nov 1, 2023

Bra exempel som jag tweetade om att RAÄ måste följa "The Magnus List" om man skall kunna hantera livscykeln med persistena identifierare och samspel med dom som "konsumerar" deras datat

image

@salgo60
Copy link

salgo60 commented Nov 2, 2023

@andre-jernung
Copy link
Author

andre-jernung commented Nov 6, 2023

SND har funderat på ett grundläggande informationspaket som hör samman med en tombstonesida för avpublicerat material. Vi har baserat det på Schema.org även om det finns många andra tänkbara lösningar. Vi har inte kunnat hitta kontrollerade termer som exakt mappar mot svensk förvaltning av handlingar, men EU:s OP Core har en lämplig status baserad på ADMS (https://www.w3.org/TR/vocab-adms/) där Completed/Deprecated/UnderDevelopment/Withdrawn finns tillgängliga och Withdrawn mappar mot avpublicerade handlingar.

På detta sätt går det att garantera information om hur en handling har hanterats. Syftet är också att underlätta myndighetsutövningen och efterlevnaden av t.ex. kraven i RA-FS 2009:1 och annan relevant lagstiftning som berör hanteringen av allmänna handlingar i elektronisk form.

Obligatoriska

Koncept Schema Typ
Handling toppnivå schema.org::CreativeWork self
Handlingens namn schema.org::CreativeWork::name Text
Handlingens beständiga identifierare @id och schema.org::CreativeWork::identifier URL
Ansvarig myndighet schema.org::CreativeWork::publisher schema.org::Organization
Avpublicerad? schema.org::CreativeWork::creativeWorkStatus schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN
Avpubliceringsstatus toppnivå schema.org::UpdateAction schema.org::Action
Handling som avpublicerats schema.org::UpdateAction::object self
Ansvarig för avpublicering (chef/funktion) schema.org::UpdateAction::agent schema.org::Person eller schema.org::Organization
Tidpunkt för förändring av handlingsstatus schema.org::UpdateAction::startTime schema.org::DateTime
Anledning till avpublicering (fritext) schema.org::UpdateAction::description Text
Aktuell handlingsstatus (avpublicerad) schema.org::UpdateAction::result schema.org::DefinedTerm::identifier = http://publications.europa.eu/resource/authority/distribution-status/WITHDRAWN

Valfria (ett urval av många möjliga)

Koncept Schema Typ
Annan identifikator t.ex. diarienr schema.org::CreativeWork::identifier Text eller schema.org::PropertyValue
Version av handling schema.org::CreativeWork::version Number eller Text
Beskrivning av handling (fritext) schema.org::CreativeWork::description Text
Ansvarig tjänsteman schema.org::CreativeWork:: accountablePerson schema.org::Person

Motsvarande hantering med HTTP 300?

Koncept Schema Typ
Om handling också har ersatts av något annat som inte bör ha en tvingande redirect, t.ex. en konceptuell motsvarighet schema.org::ReplaceAction schema.org::Action
Tidpunkt för ersättningsstatus schema.org::ReplaceAction::startTime schema.org::DateTime
Handling som ersatts schema.org::ReplaceAction::replacee self
Handling den har ersatts av schema.org::ReplaceAction::replacer schema.org::CreativeWork
Handling den har ersatts av, beständig identifierare @id och schema.org::ReplaceAction::replacer::identifier URL

Noterar också att @salgo60 har uppmärksammat den vikt som EOSC lägger på utförlig maskinläsbar tombstoneinformation. Detta kommer sannolikt bli standard för statlig datadistribution i EU, så det är en god idé att få med en grundläggande implementation redan nu även om den inte är perfekt.

@salgo60
Copy link

salgo60 commented Nov 6, 2023

@andre-jernung tack för att du lyfter betydelsen/möjligheter med persistenta identifierares och som jag ser det den enda vägen framåt idag ser jag datasilos och massa länkröta... tror saker skall kopplas mer till Fair data och saker som FAIR Data Maturity Model DOI: 10.15497/rda00045 pdf och The FAIR Cookbook for FAIR doers

Jag jobbade med internationella banktransaktioner som konsult på SEB och för att hantera hur 2 banker kommunicerar avvikelser och problem definierades Swift jag tror för att detta med persistenta identifierare skall bli bra så behövs något liknande... och att anledningen skall vara maskinläsbar.... Wikidata har > 7000 olika externa identifierare som ofta inte ens ger oss ett helpdesk id eller har en publik öppen backlog dvs. det blir kaos... jag skapade 2020 en lista med det som behövs av en extern identifierare för att det skall bli bra med Wikidata se "The Magnus list" skall PIDar leva så kan det inte vara ad hoc varje gång fel uppstår... utan mycket bättre styrning behövs... tycker att 2023 är det status quo vi ser galet med länkröta och inga ekosystem som skapas #112 / #76... det positiva jag ser är ett projekt som skapar TEI av Riksdagstrycket med @MansMeg som projektledare där han driver på och har en öppen publik backlog där snygga mönster som att en PR gör tester att deras data är konsistent men även att Wikidata som dom pekar på "sköter sig"....

image

Exempel på fel

  • jag testade statens historiska museums data i WD och där hade dom avpublicerat på grund av osäkerhet med GPRS men det fixades med vändande post men borde vara en status kod som skickas så Wikidata kan automatisk "ta bort" länken till det är fixat...

image

  • jag tycker myndigheter/kommuner websidor skall kunna nås över hela sin livstid och då stödjas av persistenta idientifierare idag är det sämre än kalles korvkiosk exempel
    • Kommuners anslagstavlor fick användas på web:en då det kom en kommunllag 20??? --> att istället för att skapa ett ekosystem sätter sig 290 webdesigners och skapar egna lösningar ???? och tittar vi så po 2 år har 50 kommuner lyckats flytta på sina sidor --> inte ens anslagstavlorn hittar vi det vi vill se är att varje enskilt dokument skall ha TEI som ovan och det skall anges med persistenta identifieraere att nu tar vi ett beslut om utegym = Wikidata Qssss
    • sidor med utegym är idag massa websudor utan identifierare och typ 9 kommuner har yckats ladda upp ett dataset till portalen men som jag säger på #222 detta mönster med att INTE jobba data drivet blir bara ett kaos med kaos som visar sig att dagens webadminstratör inte kan jålla ihop och skalar inte alls
  • sidor med badplatser
    • här "tvingar" EU på att staten skall rapportera in dom bad med flest användare EU bad -_>
      • HaV bygger en ny applikation där dm INTE tar ansvar för datat och kommunerna skall mata in datat
      • DoS. ??? följs inte och en badplats beskrivs då pöola av Lantmäteriet, kommunen, Hav, EU
        • ingen verkar jobba ihop utan nya datasilos skapas där det idag sker en koppling mellan Hav --> EU men i Sverige så klarar inte Lantmäteriet, DIGG skapa ett ekosysystem utan det blir massa datasiulos med massa länkröta ochganska värdelös data

skall detta bli något måste vi prata metadataroundtripping

Jag har testat att klassificera fel hos Riksarkivet och andra källor vilket fungerar perfekt med Wikidata som kan hantera motstridiga fakta och även ange vilket fakta som är trovärdigt och varför... tror en liknande maskinläsbar tanke är den enda vägen framåt att sitta och manuellt jaga fel skalar inte och sedan bör detta ske mellan trovärdiga källor där Wikidata enbart skall lyssna och konsumera... vi har idag 2023 skapat enormt bra koppling med Nobelpriset.org som hade massa länkröta och teststrängar och har idag

  • persistenta unika id:n
  • anger "samma som" Wikidata Q170342 dvs. när Svante Pääbo får priset 2022 skapas 1011 och anges samma som Wikidata Qnummer
  • Wikidata har Nobelpriset.org som extern identifierare Property:P8024

Annat snyggt mönster är detta med ange olika trovärdighet hos påståenden

how to handle differencies compare Wikidata see #35

image

Vad menar vi då vi säger att vi jobbar ihop

Intressant modell "what we mean when we refer to collaboration" Fact sheets: your guide to building collaborative capacity där jag ser att börja knyta ihop myndighets Sverige med pid.ar och samma som är det som är Digitalisering

image

För mig är det självklart att skattefinansierad verksamhet skall finnas i kolumnen med "high reward" jag ser tyvärr mest ordet främja som jag tolkar som vänstra kolumnen = low reward

image

Hör gärna av dig 0735152802

@salgo60
Copy link

salgo60 commented Nov 11, 2023

@andre-jernung jobbar ni med PROV provenance? jag skulle gärna se att Riksarkivet, RAÄ, forskningsprojekt som Riksdagens Corpus och Umeå Universitet Familia hade bättre data och jobbade lika, tycker mig se att i Riksdagens Corpus bygger man mycket av sin kunskap idag på en bok "Tvåkammar-riksdagen 1867–1970" som när vi även skannat in porträttböcker från tidigt 1900 kan se att denna bok klassificerar politiska vildar med en annan terminologi, att inte ha provenance tappar vi en stor del av spårbarheten och trovärdigheten det Wikipedia världen utan källor ofta med all rätt beskylls för men som jag nu ser 2023 års forskningsdata drabbas av....

Känns som en bra tombstone sida skall ha metadata som beskriver proveniens/PROV (Provenance) och PROV är en bra modell för detta....

image

image

image image image image image

Exempel bilder och metadata Wikicommons SPA

Jag skapade några exempel på hur Wikicommon SPA ger tillgång till metadata via API:er men tyvärr stöds inte PROV

@salgo60
Copy link

salgo60 commented Nov 28, 2023

@andre-jernung diskussion om PROV hos Riksdagens Corpus

https:// github.com/welfare-state-analytics/riksdagen-corpus/issues/421

Exempel hur struligt det är att skapa samma som med Gbg Karp

@matthiaspalmer
Copy link
Collaborator

Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.

@salgo60
Copy link

salgo60 commented Dec 18, 2023

Möte 4 beslöt att rekommendation 4 är tillräckligt konkret för att detta ärende kan stängas.

@matthiaspalmer vilka volymer pratar ni om att DIGG/myndigheter/kommuner skall skapa PID:ar - ni borde ha en vision som följs upp och gärna att ni skapar en nyttoberäkning enligt DIGGS mall

  • nu kollar jag på skolor där scb och skolverket har unika id:n för Sveriges skolor och redan nu 2023-12 har dom lyckats flytta runt saker.....
    • skall alla som identifierar en skola sitta och läsa massa länkade dokument för att hitta vart saker tar vägen så är inte detta seriöst det måste vara maskinläsbara beskrivningar så saker kan uppdateras automatiskt... http koder duger inte om datat skall användas...

Geggan med SCB och skolenhetskoder

image image

Update

Hittar nu av "misstag" detta hos SCB som pekar på att saker finns hos Skolverket... så då måste vi föröka fatta hur dom gör det... kostnaden är enorm för gegga utan persistenta identifierare

image

@salgo60
Copy link

salgo60 commented Jan 31, 2024

@andre-jernung interesting how other countries works with research data and knowledge graphs was shown today on CLARIN Café - ParlaMint I feel Sweden needs to step up we see all the time that projects deliver bad data example one project combined seats with Swedish politicians but didn't understand what a persistent identifier is and "invented" something new see issue #450 were another projects cant just consume the data bit needs to clean the data... seems also that there is a culture being afraid explaining for another project that they needs to step up.... result waste of time and money


example
https://partyfacts.herokuapp.com - Party Facts links datasets on political parties and provides an online platform about parties and their history as recorded in social science datasets


another example

Colleagues from Finland have been working on a knowledge graph of their politicians:
 https://ebooks.iospress.nl/volumearticle/57420
image image image image image

Another example


Parlamint:
https://www.clarin.eu/parlamint

LREC-COLING 2024 Workshop:
https://www.clarin.eu/ParlaCLARIN-IV

Stay up to date with the cafés:
https://www.clarin.eu/content/clarin-cafe

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

3 participants