Hva er et datasett?
-
Hei, alle forumbrukere.
Jeg jobber med fagfeltet informasjonsforvaltning, og et spørsmål jeg ofte får fra andre er hva et datasett egentlig er. Det eksisterer ikke en formell definisjon, noe som kan føre til forvirring hos de virksomhetene som skal kartlegge og dokumentere egne datasett. Og det vil vi jo ikke!
I dag viser Digdir blant annet til denne beskrivelsen: https://www.digdir.no/informasjonsforvaltning/hva-er-et-datasett-og-hvilke-datasett-skal-beskrives/2199
Hvordan ville dere beskrevet datasett på en pedagogisk måte? Har dere forslag til hvordan vi kan forbedre beskrivelsen og gjøre det enklere å definere opp datasett. Fyr løs!
-
Jeg pleier å si at et datasett er en haug data vi ønsker å snakke om av en eller annen grunn. Dermed er hele Nasjonal vegdatabank (NVDB) et datasett, og alle bomstasjonene i vegdatabanken er et datasett fordi det er folk interessert i, men alle rundkjøringer med rosebeplantning i vegdatabanken er ikke et datasett, fordi det ikke er en spesielt interessant haug data.
Jeg er ikke så glad i den definisjonen du lenker til fordi den kan gi inntrykk av at datasett bare er hauger av data som kan gjøres tilgjengelig eksternt. Hauger med data som er unntatt offentlighet, og hauger med data som man kunne delt, men ikke har tatt seg tid til å dele ennå, er også datasett.
-
Ingen fasit, men et bidrag til diskusjonen: ISO/TC 211 (Geografisk Informasjon) definerer et datasett som "identifiable collection of data". https://isotc211.geolexica.org/concepts/124/
-
Jeg synes den korteste varianten jeg har sett, er den beste. "En organisert samling av data". (Egentlig ville jeg foretrukket "en organisert mengde data", for da er det lettere å trekke på mengdebegrepet fra mengdelære.) Det er kort og konsist, det åpner for at man må ha et bevisst forhold til organiseringen av dataene, og at elementene i datasettet kan være datasett.
I kontekst av datakatalog og deling, kunne man spørre om definisjonen burde forutsette en datasettbeskrivelse. Er det et datasett hvis det ikke finnes en beskrivelse?
Det kan hende pedagogikken ikke bør ligge i definisjonen, men rundt.
-
For meg blir den logikken motstrøms. Hvem er det som bestemmer hva som er interessant mht. et datasett? Rundkjøringer med rosebeplantning er kanskje ikke et etterspurt datasett pr. i dag, men det er jo ikke utenkelig at hvis man f. eks. skulle i gang med en satsning for å bekjempe problemarten rynkerose, ville man vært interessert i rundkjøringer og andre objekter hvor den er plantet. Rynkerose bekjempes bl. a. med glyfosat, hvorpå jeg tenker at f. eks. miljøforvaltningen ville hatt interesse av å koble det mot overvåkning av bruk av plantevernmidler. Eller Mattilsynet i forkant av selve sprøytingen.
Er da den organiserte samlingen av data et datasett først når det blir etterspørsel etter den? Hva er den i så fall før det?
-
@filip-hansen Jeg ser poenget ditt. Samtidig går det an å lage et tilnærmet uendelig antall delmengder fra store og kompliserte samlinger av data. Det er ikke praktisk å definere alle disse som egne datasett. Og det er ihvertfall ikke praktisk å lage egne datasettbeskrivelser i felles datakatalog for alle delmengder! Men noen av delmengdene er såpass interessante at de bør beskrives separat.
Ellers liker jeg definisjonen "en organisert mengde data", den er konsis og tydelig.
-
Og det er ihvertfall ikke praktisk å lage egne datasettbeskrivelser i felles datakatalog for alle delmengder!
Det er jeg rungende enig i, og derfor liker jeg også "organisert mengde data" som definisjon. Alle mulige permutasjoner av data vil være datasett etter den definisjonen, men det blir opp til den som publiserer å velge en organisering som gir mening både mtp. innhold og omfang.
Jeg lever godt med at "alle felter i Tolletatens databaser som har verdien '-6.00' ved fullmåne" er et datasett, uten at jeg mener det er en glup organisering for det. Egnet for publisering og beskrivelse i Felles datakatalog er det i alle fall neppe.
-
Hei dere!
Orden i eget hus legger opp til at virksomheter kartlegger og beskriver datasett. I den reviderte versjonen av orden i eget hus-veilederen (lanseres 1. november) forsøker jeg å få til en god nok forklaring på et datasett samt kort veiledning rundt dette, for å hjelpe orden i eget hus-arbeidet. Jeg ble inspirert av innspillene deres her.Å forsøker å definere hva et datasett er tror jeg er nytteløst, men heller gi noen tips til hvordan det er lurt å tenke rundt denne "problematikken".
Teksten jeg har skriblet ned har jeg limt inn under. Hva syns dere?
Hva er et datasett?
Kort fortalt er et datasett "en organisert samling av data". Hvordan et datasett avgrenses og organiseres vil imidlertid variere mellom ulike virksomheter. Har deres virksomhet store datasett vil dere raskt oppdage at disse kan deles inn i mange mindre datasett.Husk at i veilederens steg fem skal dere beskrive datasettene dere kartlegger. Det vil derfor lønne seg å tenke praktisk rundt datasettavgrensning: Å beskrive utallige, små datasett gir mye ekstraarbeid og er ikke hensiktsmessig. Samtidig vil å beskrive et fåtall, veldig store datasett blir for generelt og ikke gi en nøyaktig nok beskrivelse av innholdet i datasettet. Et sted midt i mellom er å anbefale.
For dere som er interessert i datasett-diskusjonen:
-
Les Digdirs beskrivelse av datasett (https://www.digdir.no/informasjonsforvaltning/hva-er-et-datasett-og-hvilke-datasett-skal-beskrives/2199).
-
Følg og bidra til diskusjonstråden i Datalandsbyen vedrørende hva et datasett egentlig er [lenke hit].
-
-
@anne-karete-hvidsten, Likte @Hilde-Austlid sin definisjon bedre "En organisert mengde data"
-
Hei alle sammen.
Ja - begreper bruker vi, men er vi enige om hva de betyr - Nei.
Også jeg har vridd meg rundt begrepene vi bruker på de mest sentrale delen av iformasjonsforvaltningen. Jeg satte på et tidspunkt opp noen setninger slik:
Typer informasjon
Informasjon kan deles i forskjellige typer, og disse må forvaltes på forskjellige måter.
Man kan skille mellom ustrukturert og strukturert informasjon:
Ustrukturert informasjon inkluderer bla. fritekst, dokumenter, eposter, lyd og bilder. Informasjonen forvaltes i forhold til innhold og tilgjengelighet.
Strukturert informasjon kan bli systematisk satt opp i tabeller hvor hver rad har de samme elementene (kolonner). Vi kaller slik strukturert informasjon for data og hver av tabellene kaller vi for datasett. Et enkelt eksempel er en postnummertabell der det finnes en egen kolonne for postnummeret og en annen for poststed. Forvaltning av datasett inkluderer i tillegg å definere dataverdier og begrep brukt i datasettet.
Datasett
Data Norge beskriver datasett slik:
Et datasett er en samling av data for eksempel i form av en tabell, liste eller en database som kan gjøres tilgjengelig som en nedlastbar fil, og/eller nåes via et API.
Osv
Som dere kan forstå her jeg et grunnleggende problem med at vi kaller alt som er lagret i dataløsninger for data. Det er for meg informasjon lagret digitalt. Mens jeg vil ha på plass et databegrep som gir noe merverdi, nemlig at det da dreier seg om strukturert informasjon, som jeg da kaller for data.
Har noen kommentarer til denne måten å definere disse begrepene på?
-
@per-bratterud solide saker!
Kan du utdype hva du mener er merverdien i å avgrense definisjonen av data til å være "strukturert informasjon"?
Jeg mener at "organisert samling data" er en presis og anvendbar definisjon på datasett. Fra mitt perspektiv kommer mye av verdien her når data nettopp ikke begrenses til f. eks. tabeller i databaser, men også omfatter ustrukturert informasjon i nettopp "fritekst, dokumenter, e-poster" osv. (Og med offentlig sektors bruk av maler, er den neppe fullt så ustrukturert som det kan virke ved første øyekast.) Og at definisjonen er uavhengig av lagringsmedium og -format.
Jeg tenker på data som "de mønstrene mennesker med vilje lager i materie for å representere informasjon". (Noen tar den videre og sier at alle mønstre i materie er data. Årringene til et tre, for eksempel. Ikke tilvirket av menneskehender, men likevel et mønster som inneholder informasjon om hvor gammelt treet er. For ikke å snakke om DNA, som koder genomet til alle kjente organismer, både utdødde og nålevende.)
Definisjonen avhenger ikke av hvilken type materie som brukes. Men det er vår oppgave å velge det mediet som best dekker behovene. Trenger vi at informasjonen er bestandig over tid, velger vi et annet medium enn våt sand i fjæra til å representere den. Trenger vi at informasjonen kan representeres lynkjapt, er kanskje ikke steintavler det glupeste valget.
Definisjonen er ikke avhengig av hva slags mønster som velges. Men det er vår oppgave å velge det mønsteret som best dekker behovene. Skal det være lett å tolke informasjonen ut igjen for mennesker? Skal det være robust mot feil når det etableres eller tolkes? Legge til rette for flertydighet og tolkningsmuligheter, eller entydighet og stringens? Må mønsteret være kompakt og ta liten plass?
Og OK, så er det ikke så mange medier som er praktisk å bruke i dag. Vi ender fort med binære mønstre i et optisk eller magnetisk materiale, som så må gjennom ett eller flere lag med tolkning før det kan presenteres for et menneske, eller sågar for maskiner. Men mønsteret i hullkortene som Jacquard brukte til å kode instruksjoner til veven sin i 1804—er de noe annet enn data? (Lurer på hvordan han så på EIF.) Oppføringene i eldgamle folketellinger? Kileskriften i et nesten 4000 år gammelt klagebrev?
Som sagt mener jeg verdien i et databegrep som ikke er definert ut fra medium eller struktur oppstår fordi det lar oss bruke alle disse greiene som kilde til informasjon og kunnskap. Og mer konkret og hjemlig: den visker ut det nå unødvendige skillet mellom "datasett" og "dokumenter".
-
Hei @filip-hansen
Takk for svar. Det er fint å finne noen som deler interessen for tema. Felles forståelse er viktig, og for oss er det nøkkel til alt.
Så en liten generell kommentar.
Vi mennesker ser alltid etter mønster rundt oss for å strukturere vår forståelse av virkeligheten. Vi lager "data" ut av våre observasjoner i den grad det er mulig.
Og til eksemplene du viser til i din tekst er min påstand: Det er kun når vi analyserer, omformer og drar statistikk ut av det ustrukturerte at det blir data av det, altså noe som kan settes opp i tabeller og dermed representere mønstere som igjen gir forståelse, altså merverdi. Årringer er grunnlag for tabelldata, DNA er ekstremt strukturert kode. Og disse representasjonene er uten unntak det jeg kaller datasett.
PDFene i min etats arkivsystem er informasjon inntil noen skraper disse for ord og lager møsterdata og logiske statistiske analyser ut av mengden av naturlig språk inklusive tall og symboler i disse.
Så til forståelse av data som noe som kan settes opp i tabell med kolonner med definert innhold - helst fylt med det vi kaller verdilister/kodeverk. Disse kodeverkene er våre informasjonsmessige representasjoner: for språk er primærkodeverket våre lydbærende skrifttegn (tegnesett) og tallsymboler samt andre meningsbærende eller logiske symboler. Så er å er disse satt sammen til ord som kan være ett ords- eller flerordsbegreper - altså mening. Begge disse kan vi regne som kodeverk, og ved analyse setter vi disse opp i tabeller som gir oss innsikt av det ene eller andre slaget - vi har data. Og disse dataene kan sammenstilles med andre datasett som er satt opp med tilsvarende kriterier.
Så svaret mitt til ditt første spørsmål er at begrepet data forteller alle at det er snakk om strukturerte representasjoner av "virkeligheten", ikke bare våre intuitive observasjoner eller beskrivelser av disse med språk, lyd eller bilde. Og da gir begrepet merverdi i forhold til det bredere informasjon.