Jeg har sett på siste utgave av Norsk Luftfartøyregister ved hjelp av Python. Resultatene er presentert i en Jupyter Notebook på GitHub - som kan kjøres på MyBinder, samt laget en litt mer utfyllende artikkel på LinkedIn.
Øvelser som dette er morsomme i seg selv, siden man lærer noe nytt. Hva er, for eksempel, det største flyet registrert i Norge, og hva brukes det til?*
Å forberede data for analyse er gjerne en tidkrevende jobb, fordi datasett må ryddes i, sammenstilles med andre data og tilpasses formålet. Dataeiere kan likevel gjøre noen grep for at brukerne enklere skal kunne utnytte dataene som publiseres. Da jeg så på dette datasettet, fant jeg noen mulige forbedringspunkter. Jeg skrev om dem i artikkelen., og gjengir dem her:
- Velg riktig datatype for kolonner. Registeret distribueres i en Excel-fil. Kolonnen for "vekt" er lagret som tekst, og ikke tall. Dette gir litt ekstraarbeid og øker sjansen for brukerfeil, siden brukeren må gjøre konverteringen selv. Et alternativ er å distribuere i andre formater, som CSV eller JSON.
- Inkluder vesentlig informasjon, og innhent den dersom den mangler. En del fartøy mangler informasjon om vekt og produsent.
- Fjern duplikater og vurder å slå sammen likelydende navn i viktige kolonner som "produsent". Unngå at noen fartøy som er oppført under "Boeing", mens andre er under "The Boeing Company". Likelydende navn på samme produsent kompliserer.
- Type luftfartøy (f.eks. helikopter) bør inkluderes på hver rad, i stedet for bare å være som sammendrag. Nederst i datafilen er et sammendrag av typer fartøy, med antall. Denne informasjonen kunne med fordel stått på hver rad, slik at brukerne kan lage sine sammenstillinger.
- Spesielle regler i dataene bør dokumenteres. Excel-arket inneholder noen rader markert med rødt. Etter litt prøving og feiling kom jeg til at dette må bety en "advarsel" om duplikater. Denne regelen kunne med fordel vært tydeligere dokumentert.
'* Et Airbus A340 som brukes av SAS. Det ble registrert i 2001. Det har angivelig stått på lager siden mars 2020 og skal skrotes.