@kristoffer-selvaer Takk for innspel Kjenner ikkje godt nok til GitHub sitt API med tanke på kva mulegheter som er der.
Tanken er at dette erstattar å legge ut datasetta som filer på eigen nettstad, så det er ikkje tenkt at ein kan hente data på noko anna måte (oppslag, søk, filtrering) enn å laste ned heile datasettet. Antar at med GitHub sitt API så tenker du på å lese ut liste over mapper og filer som er i kodelageret (repository).
- Direktelenker til filer
Tenker hovud-måten å hente data på er å peike direkte på rå-versjonen av CSV-filene. For eksempel:
https://raw.githubusercontent.com/datahotellet/ldir-test/main/datasets/leveransedata-melk/2023/dataset.csv
Om du tenker på å oppdage nye datasett (til dømes at undermappa "2025" har dukka opp i ei mappe), så er det andre alternativ (sjå under).
- Korleis hente nyaste data
For datasetta som blir erstatta med ny versjon, til dømes foretak, er det berre å hente nye data frå samme URL.
Nokre av datasetta er tidsseriar, for eksempel leveransedata melk. Slik eg forstår det, ønskjer du å kunne peike mot nyaste datasettet i ein serie ved å peike til for eksempel ".../latest" i staden for å ha logikk for å avgjere at undermappa "2024" er nyaste datasettet. Eg trur dette blir litt rotete. Enten må ein kalle datasettet "2024" for "latest", og seinare endre namn til "2024" når det kjem nytt, eller så må ein duplisere mappene, så ein har både "2024" og "latest" med samme innhald.
Prøver ei anna løysing.
Har rigga ein ny fil, datasets.txt, som blir generert på roten av prosjektet.
Der er liste over alle datasett i repositoriet. På den måten kan ein lettare oppdage filer.
Kan det vere ein farbar veg?
Elles skal det vere mogeleg å oppdage nye datasett ved å parse data-katalogen på data.norge.no. Akkurat no er det ikkje API-endepunkt som gir ut alle datasett inkludert distribusjonar, så i skrivande stund er heile katalogen kun tilgjengeleg i Turtle-format. Det er uansett ein omveg, og det er som regel noko forsinkelse frå data vert lagt ut til data-beskrivelse i data.norge er på plass, enten det er berre eit par timar eller par dagar.
- Releases i GitHub
Kan vere mogleg, men usikker på om det gir nok verdi til å forsvare ekstra kostnaden ved å måtte manuelt opprette releases i GitHub når det kjem nye datasett. Om ein gjer seg avhengig av dette, kan det også blir ei ekstra feilkjelde. Fort gjort å legge ut dataene men gløyme å opprette release.
Tenker det er betre framgangsmåte å oppdage at nye datasett (mapper) er dukka opp.
Skulle ein hatt opplegg med releases, kunne ein tenke seg å legge på tags for melk, egg, korn etc.
Utdjup gjerne vidare om du likevel trur det er verdt å sjå vidare på.