Datalandsbyen Logo

    Datalandsbyen

    • Kategorier
    • Emneord
    • Siste
    • Populære
    • Kalender
    • Lenkeikon
    • Søk
    • Varslinger Logg inn / Registrer
    Community illustrasjon

    Datalandsbyen

    Velkommen til nettforumet Datalandsbyen! Vi er glade for at du har funnet frem til oss.

    Her kan du stille spørsmål om alt du måtte lure på om deling og bruk av data, eksempelvis datasett, API-er, begreper, informasjonsmodeller og juss, videre kan du delta i diskusjoner, vise frem prosjektene dine, knytte nye kontakter og finne nye samarbeid. Nettforumet er åpent for alle, men for å skrive innlegg må du først registrere deg. Formålet med forumet er å legge til rette for at data skal bli en verdiskapende ressurs for hele samfunnet – bli med og bidra til økt kunnskap, åpenhet og innovasjon. Vi oppfordrer til en konstruktiv og saklig dialog i nettforumet.

    Hva er den vanligste flytypen i Norge? Norsk Luftfartøyregister med Python i Jupyter Notebook - med noen tips til dataeiere for å gjøre data mer tilgjengelig

    Tips og spørsmål
    3
    4
    736
    Laster flere innlegg
    • Eldste til nyeste
    • Nyeste til eldste
    • Flest stemmer
    Denne tråden har blitt slettet. Bare brukere med trådhåndterings-privilegier kan se den.
    • M
      magnusf sist endret av

      Jeg har sett på siste utgave av Norsk Luftfartøyregister ved hjelp av Python. Resultatene er presentert i en Jupyter Notebook på GitHub - som kan kjøres på MyBinder, samt laget en litt mer utfyllende artikkel på LinkedIn.

      Øvelser som dette er morsomme i seg selv, siden man lærer noe nytt. Hva er, for eksempel, det største flyet registrert i Norge, og hva brukes det til?*

      Å forberede data for analyse er gjerne en tidkrevende jobb, fordi datasett må ryddes i, sammenstilles med andre data og tilpasses formålet. Dataeiere kan likevel gjøre noen grep for at brukerne enklere skal kunne utnytte dataene som publiseres. Da jeg så på dette datasettet, fant jeg noen mulige forbedringspunkter. Jeg skrev om dem i artikkelen., og gjengir dem her:

      • Velg riktig datatype for kolonner. Registeret distribueres i en Excel-fil. Kolonnen for "vekt" er lagret som tekst, og ikke tall. Dette gir litt ekstraarbeid og øker sjansen for brukerfeil, siden brukeren må gjøre konverteringen selv. Et alternativ er å distribuere i andre formater, som CSV eller JSON.
      • Inkluder vesentlig informasjon, og innhent den dersom den mangler. En del fartøy mangler informasjon om vekt og produsent.
      • Fjern duplikater og vurder å slå sammen likelydende navn i viktige kolonner som "produsent". Unngå at noen fartøy som er oppført under "Boeing", mens andre er under "The Boeing Company". Likelydende navn på samme produsent kompliserer.
      • Type luftfartøy (f.eks. helikopter) bør inkluderes på hver rad, i stedet for bare å være som sammendrag. Nederst i datafilen er et sammendrag av typer fartøy, med antall. Denne informasjonen kunne med fordel stått på hver rad, slik at brukerne kan lage sine sammenstillinger.
      • Spesielle regler i dataene bør dokumenteres. Excel-arket inneholder noen rader markert med rødt. Etter litt prøving og feiling kom jeg til at dette må bety en "advarsel" om duplikater. Denne regelen kunne med fordel vært tydeligere dokumentert.

      '* Et Airbus A340 som brukes av SAS. Det ble registrert i 2001. Det har angivelig stått på lager siden mars 2020 og skal skrotes.

      S 1 Svar Siste svar Svar Siter 2
      • O
        oystein.asnes sist endret av oystein.asnes

        Takk for nyttige innspill @magnusf . Vi videreformidler dine tips til Luftfarttilsynet.
        PS: om du lenker til datasettregistreringer (altså i dette tilfelle Registrerte luftfartøy med eiere) på data.norge.no i innleggende her i Datalandsbyen , så dukker tråden opp i tilknytning til oppføringen i datasettkatalogen på data.norge.no.

        1 Svar Siste svar Svar Siter 1
        • S
          steinar.skagemo Svar til @magnusf sist endret av

          @magnusf Takk skal du ha! Dette er veldig bra tilbakemeldinger. Hva tror du, burde det offentlige spandert på seg å publisere de linjene med kode som skal til for å lese inn dataene med riktig datatype for de mest brukte verktøyene (der jeg antar Pandas kommer veldig høyt på lista)? For selv om dataene distribueres i andre format (CSV eller JSON) er det ikke noen standard måte å angi hvilken av Pandas innebyggete typer som er den beste matchen, eller f.eks. om en kolonne er en kategori.

          1 Svar Siste svar Svar Siter 0
          • S
            steinar.skagemo sist endret av

            Forresten, kanskje du skulle tagge innlegget ditt med Python og Pandas, så det blir lettere for de som kjenner disse verktøyene å finne innlegget?

            1 Svar Siste svar Svar Siter 0
            Ikon Svar
            Ikon Logg inn for å besvare
            • Første innlegg
              Seneste innlegg
            • Datalandsbyen Logo
            • Våre partnere
            • Felles datakatalog Åpne
            • Datafabrikken Åpne
            • Transportportal Åpne
            • Om nettstedet
            • Digitaliseringsdirektoratet forvalter datalandsbyen.
            • Samtykke og brukervilkår
            • Personvernerklæring Åpne
            • Informasjonskapsler Åpne
            • Kontakt
            • Lenkeikonfellesdatakatalog@digdir.no