@per-bratterud solide saker!
Kan du utdype hva du mener er merverdien i å avgrense definisjonen av data til å være "strukturert informasjon"?
Jeg mener at "organisert samling data" er en presis og anvendbar definisjon på datasett. Fra mitt perspektiv kommer mye av verdien her når data nettopp ikke begrenses til f. eks. tabeller i databaser, men også omfatter ustrukturert informasjon i nettopp "fritekst, dokumenter, e-poster" osv. (Og med offentlig sektors bruk av maler, er den neppe fullt så ustrukturert som det kan virke ved første øyekast.) Og at definisjonen er uavhengig av lagringsmedium og -format.
Jeg tenker på data som "de mønstrene mennesker med vilje lager i materie for å representere informasjon". (Noen tar den videre og sier at alle mønstre i materie er data. Årringene til et tre, for eksempel. Ikke tilvirket av menneskehender, men likevel et mønster som inneholder informasjon om hvor gammelt treet er. For ikke å snakke om DNA, som koder genomet til alle kjente organismer, både utdødde og nålevende.)
Definisjonen avhenger ikke av hvilken type materie som brukes. Men det er vår oppgave å velge det mediet som best dekker behovene. Trenger vi at informasjonen er bestandig over tid, velger vi et annet medium enn våt sand i fjæra til å representere den. Trenger vi at informasjonen kan representeres lynkjapt, er kanskje ikke steintavler det glupeste valget.
Definisjonen er ikke avhengig av hva slags mønster som velges. Men det er vår oppgave å velge det mønsteret som best dekker behovene. Skal det være lett å tolke informasjonen ut igjen for mennesker? Skal det være robust mot feil når det etableres eller tolkes? Legge til rette for flertydighet og tolkningsmuligheter, eller entydighet og stringens? Må mønsteret være kompakt og ta liten plass?
Og OK, så er det ikke så mange medier som er praktisk å bruke i dag. Vi ender fort med binære mønstre i et optisk eller magnetisk materiale, som så må gjennom ett eller flere lag med tolkning før det kan presenteres for et menneske, eller sågar for maskiner. Men mønsteret i hullkortene som Jacquard brukte til å kode instruksjoner til veven sin i 1804—er de noe annet enn data? (Lurer på hvordan han så på EIF.) Oppføringene i eldgamle folketellinger? Kileskriften i et nesten 4000 år gammelt klagebrev?
Som sagt mener jeg verdien i et databegrep som ikke er definert ut fra medium eller struktur oppstår fordi det lar oss bruke alle disse greiene som kilde til informasjon og kunnskap. Og mer konkret og hjemlig: den visker ut det nå unødvendige skillet mellom "datasett" og "dokumenter".
(Og representasjonen er ikke det den representerer.)
