Grønt hefte API
-
Beregningsteknisk dokumentasjon (grønt hefte) er et vedlegg til statsbudsjettet som viser fordeling av rammetilskudd til (fylkes)kommuner. Tallgrunnlaget fra grønt hefte er er av stor interesse for kommuner, forskere og folk flest fordi det gir detaljert innsikt i hvordan inntektsutjevningen i kommunesektoren fungerer rent praktisk. Du kan for eksempel bruke oversikten til å se hvorfor akkurat din kommune fikk de pengene den fikk over statsbudsjettet.
KDD publiserer hele tallgrunnlaget for grønt hefte på sine nettsider. Dette er en fin oversikt og man kan enkelt laste ned for eksempel hva staten anslo hva hver kommune ville få inn i frie inntekter for alle kommunene i 2023 (tabell 3-k).
Derimot er det vanskelig å maskinelt få tilgang på disse dataene. Jeg mener det hadde vært vært svært nyttig om tallgrunnlaget for alle årene var samlet i én database som var tilgjengelig gjennom et API. I jobben min som forsker bruker jeg ofte tallmaterialet fra grønt hefte, men sånn det er tilgjengeligjort nå er det vanskelig å skrive lett forståelig og reproduserbar kode som henter disse tallene.
For eksempel bruker vi hos oss ofte kriteriedata for kommunene (tabell F-k) for ulike analyseformlål. I dagens arbeidsflyt skraper jeg info om nedlastningslenker fra nettsiden over, og bruker disse til å laste ned excel-filene som jeg deretter rydder for å få dem i et mer analysevennlig format.
Det er noen problemer med denne fremgangsmåten slik jeg ser. For det første er det ikke sikkert at oppskriften jeg per i dag bruker til å identifisere URLene som laster ned datasett er stabile. Videre er lenkene heller ikke standardiserte slik at det er litt ulik fremgangsmåte for å identifisere dem fra år til år. Dette gjør at koden blir knotete og vanskelig å forstå for noen som ikke har sett HTML-koden på KDD sine nettsider – det er forsåvidt også forvirrende for meg selv når jeg kommer tilbake til koden og skal feilsøke, typisk når eg nedlastingslenke endrer seg og et år forsvinner fra tallgrunnlaget jeg henter ned.
Jeg ser for meg et API der jeg kan poste en spørring til en database med alle tabeller fra alle årgangene av grønt hefte. I spørringen kan jeg spesifisere:
-
Tabell nummer, for eksempel F-k for kriteriadata for kommunene
-
Årstall
-
Kommune
-
-
Hei, @mafw!
Synes du kommer med et veldig bra forslag her. Ettersom tallgrunnlaget fra grønt hefte er av interesse for såpass mange bør det være mulig å forbedre tilgangen.
Jeg tar kontakt med KDD og hører hva dem tenker om forslaget ditt.
-
@christiane-andrea-frohlich Supert, takk for rask respons!
En liten oppdatering: i forbindelse med denne posten skulle jeg kjøre kode jeg har laget tidligere som skraper KDD sin overssiktsside for grønt hefte for lenker til å laste ned de ulike tabellene. Nå får jeg imidlertid opp en feilkode 403, som da betyr at jeg ikke har tilgang til nettstedet. Jeg antar at dette betyr at regjeringen har endret tilgangen man har til å skrape nettsidene deres. Muligens i forbindelse med dataangrepene som skjedde i sommer?
Jeg nevner dette fordi det er et annet eksempel på hvorfor skraping er en dårlig måte å maskinelt innhente data på. Dersom det ikke blir gjort riktig (mange forespørsler på kort tid f.eks) så skaper det unødvendig trafikk på nettsidene som skrapes. I tillegg ønsker ofte de som er ansvarlig for nettsidene at folk ikke skal skrape informasjon fra nettsidene, og det kan være vanskelig for den som skal innhente informasjon å vite dette. Jeg vet nå, etter dette tilfellet, at man kan sjekke i nettsiden sin
robots.txt
fil for å få føringer på hvordan man bør gå frem når man skal innhente informasjon fra nettsiden.Oppsummert betyr dette at webscraping krever mye mer av deg som bruker enn en tilgang gjennom et API. Jeg har ihvertfall etter denne hendelsen blitt mer obs på hvor viktig det er å utvise aktsomhet når man skal skrape nettsider.
Beklager hvis dette siste ble off-topic!
-
Jeg har ikke selv erfaring med webscraping, men tenker som deg at det er best om dataeeier selv er ansvarlig for distribusjon, både med tanke på datakvalitet og tilgjengelighet. Deling gjennom et API virker fornuftig her. Det burde heller ikke være altfor tidkrevende å lage en teknisk løsning for data som allerede er organiserte i en tabell.
Håper vi får en positiv tilbakemelding fra KDD
-
Det har kommet inn et liknende forslag som ditt her. Har også kontaktet IT-avdelingen på stortinget for å høre videre med dem.
-
@christiane-andrea-frohlich Supert, takk for oppdateringen!
-
Dette innlegget er slettet!
-
Har du fått noe svar fra KDD/IT om mulighetene for et API for tall fra grønt hefte?
-
Hei igjen, @mafw
Beklager sen tilbakemelding her.
Jeg fikk et svar fra KDD. Fagpersonene i KDD er visst kjent med problemstillingen og viser til at flere har etterspurt det samme som deg. Forslaget ditt er videresendt til fagmiljøet, men det er ikke iverksatt noen fremtidige planer her, slik jeg forstod dem.
-
Takk for tilbakemelding @christiane-andrea-frohlich!
Da får vi krysse fingrene for at de ordner det en gang i den ikke altfor fjerne fremtid