Hva er den vanligste flytypen i Norge? Norsk Luftfartøyregister med Python i Jupyter Notebook - med noen tips til dataeiere for å gjøre data mer tilgjengelig
-
Jeg har sett på siste utgave av Norsk Luftfartøyregister ved hjelp av Python. Resultatene er presentert i en Jupyter Notebook på GitHub - som kan kjøres på MyBinder, samt laget en litt mer utfyllende artikkel på LinkedIn.
Øvelser som dette er morsomme i seg selv, siden man lærer noe nytt. Hva er, for eksempel, det største flyet registrert i Norge, og hva brukes det til?*
Å forberede data for analyse er gjerne en tidkrevende jobb, fordi datasett må ryddes i, sammenstilles med andre data og tilpasses formålet. Dataeiere kan likevel gjøre noen grep for at brukerne enklere skal kunne utnytte dataene som publiseres. Da jeg så på dette datasettet, fant jeg noen mulige forbedringspunkter. Jeg skrev om dem i artikkelen., og gjengir dem her:
- Velg riktig datatype for kolonner. Registeret distribueres i en Excel-fil. Kolonnen for "vekt" er lagret som tekst, og ikke tall. Dette gir litt ekstraarbeid og øker sjansen for brukerfeil, siden brukeren må gjøre konverteringen selv. Et alternativ er å distribuere i andre formater, som CSV eller JSON.
- Inkluder vesentlig informasjon, og innhent den dersom den mangler. En del fartøy mangler informasjon om vekt og produsent.
- Fjern duplikater og vurder å slå sammen likelydende navn i viktige kolonner som "produsent". Unngå at noen fartøy som er oppført under "Boeing", mens andre er under "The Boeing Company". Likelydende navn på samme produsent kompliserer.
- Type luftfartøy (f.eks. helikopter) bør inkluderes på hver rad, i stedet for bare å være som sammendrag. Nederst i datafilen er et sammendrag av typer fartøy, med antall. Denne informasjonen kunne med fordel stått på hver rad, slik at brukerne kan lage sine sammenstillinger.
- Spesielle regler i dataene bør dokumenteres. Excel-arket inneholder noen rader markert med rødt. Etter litt prøving og feiling kom jeg til at dette må bety en "advarsel" om duplikater. Denne regelen kunne med fordel vært tydeligere dokumentert.
'* Et Airbus A340 som brukes av SAS. Det ble registrert i 2001. Det har angivelig stått på lager siden mars 2020 og skal skrotes.
-
Takk for nyttige innspill @magnusf . Vi videreformidler dine tips til Luftfarttilsynet.
PS: om du lenker til datasettregistreringer (altså i dette tilfelle Registrerte luftfartøy med eiere) på data.norge.no i innleggende her i Datalandsbyen , så dukker tråden opp i tilknytning til oppføringen i datasettkatalogen på data.norge.no. -
@magnusf Takk skal du ha! Dette er veldig bra tilbakemeldinger. Hva tror du, burde det offentlige spandert på seg å publisere de linjene med kode som skal til for å lese inn dataene med riktig datatype for de mest brukte verktøyene (der jeg antar Pandas kommer veldig høyt på lista)? For selv om dataene distribueres i andre format (CSV eller JSON) er det ikke noen standard måte å angi hvilken av Pandas innebyggete typer som er den beste matchen, eller f.eks. om en kolonne er en kategori.
-
Forresten, kanskje du skulle tagge innlegget ditt med Python og Pandas, så det blir lettere for de som kjenner disse verktøyene å finne innlegget?