[Diskusjonstråd] Spesifikke retningslinjer for bruk av generativ kunstig intelligens i offentlig sektor

jens.andresen.osberg

Vi vurderer en del om spesifikke retningslinjer for bruk av generativ KI i vår veiledning for ansvarlig utvikling og bruk av kunstig intelligens i offentlig sektor. I likhet med resten av vår veiledning etterstreber vi konkrete råd. Under følger forslag til råd. Vi understreker at rådene fortsatt er på utkaststadiet.

Vi er kjent med at EU-kommisjonen har utarbeidet interne retningslinjer, samt at EU og USA skal lage et utkast til etiske retningslinjer for KI. Vi følger dette tett og oppdater retningslinjene deretter.

Gi oss gjerne tilbakemeldinger, forslag til endringer og forslag til andre mulige råd.

Generelle retningslinjer:

Risikovurdering: Før generativ KI tas i bruk i virksomheten, må det gjøres en grundig risikovurdering. Dette bør inkludere potensielle farer knyttet til misbruk, feilinformasjon, datalekkasjer, og effekten av KI-løsningen på virksomheten.
Riktig opplæring for brukere: Brukere av generativ KI bør ha tilstrekkelig opplæring og forståelse for å bruke teknologien ansvarlig og effektivt. Dette inkluderer kunnskap om risikoer, samt beste praksis for bruk.
Vær særlig varsom ved samhandling med innbyggere: I dag er vi i en tidlig fase med generativ KI. Hvis et generativt KI-verktøy skal brukes for samhandling mellom forvaltningen og innbyggerne, vær særlig grundig i risikovurderinger og juridiske vurderinger. Det bør alltid kjøres et pilotprosjekt. Videre vil det være viktig at innbyggeren forstår at det er KI de samhandler med.
Ikke bruk sensitiv informasjon i «prompts»: Personopplysninger, taushetsbelagt informasjon, gradert informasjon, rettighetsbelagt informasjon eller sikkerhetssensitiv informasjon skal ikke brukes til å gi instruksjoner til generative KI-verktøy. Som utgangspunkt må det legges til grunn at informasjonen i et «prompt» blir sendt til selskapet bak verktøyet og vil bli lagret og brukt til videre trening av den underliggende maskinlæringsmodellen. Unntak gjelder dersom du har tilstrekkelig rettslige grunnlag for å behandle denne informasjonen til dette formålet. Det aktuelle selskapets vilkår og personvernerklæring vil kunne si noe mer nøyaktig om hvordan informasjonen behandles.

Særlig om generering av tekst med verktøy slik som ChatGPT, Microsoft Bing Chat og Google Bard:

Bruk på eksisterende tekst kan være greit: offentlig sektor bruker mye tid på å behandle tekst. Dette er de store språkmodellene særlig gode på. Bruk de gjerne til å korte ned, lage sammendrag, kulepunkter eller lignende av eksisterende tekst. Et eksempel på dette er å kopiere inn en tekst som er tung å lese og deretter spørre en stor språkmodell om å gjøre den til klarspråk. Husk imidlertid at teksten ikke må inneholde sensitiv informasjon, som pekt på i punkt over.
Vær varsom ved bruk som oppslagsverk: store språkmodeller er trent på en enorm mengde tekst. Dette har gitt dem oversikt over strukturer i språk. Treningsdataen inneholder imidlertid også mye faktainformasjon som språkmodellen kan uttrykke. Faktainformasjonen er sånn sett «en bonus», for fokuset for de store språkmodellene er strukturer i språk. Modellene er ikke optimalisert for å gi helt presis faktainformasjon, selv om resultatene tidvis kan være svært imponerende. Bruk modellene derfor med stor varsomhet ved bruk som oppslagsverk. Til dette kommer også at flere språkmodeller ikke har faktainformasjon som er nyere enn for tidspunktet for trening av modellen.
Husk at svarene ikke nødvendigvis er tilpasset våre verdier: Store språkmodeller og grensesnittene for å interagere med disse (eksempelvis ChatGPT) vil være tilpasset og reflektere verdiene til menneskene som har utviklet disse modellene og verktøyene. Det er ikke gitt at disse verdiene samsvarer med verdiene vi har i vårt samfunn og dette kan reflekteres i svaret.
Bruk ytterligere verktøy som kan identifisere plagiat: Det finnes flere verktøy som kan bidra til å vurdere om tekstmaterialet som er produsert av en stor språkmodell kan være plagiat. Eksempelvis har enkelte skrivebehandlingsverktøy en «redaktør-funksjon» som kan bidra til å vurdere om tekstmaterialet er plagiert.
Kvalitetssikre alltid innhold fra store språkmodeller: I tillegg til å påse at materialet ikke er plagiert, bør du alltid lese over og kvalitetssikre. Det er du som til slutt er avsender av teksten og skal stå for innholdet.

Særlig om generering av bilder med modeller som Midjourney og Dall-E:

Tekst som input er mindre problematisk enn bilder som input: Flere bildegenereringsverktøy kan benytte både tekst og bilde som input. Eksempelvis tilbyr flere verktøy muligheten for å laste opp et bilde og be om variasjoner av dette. Det er mindre problematisk å bruke tekst som input enn et bilde som input. Selv om det kan tenkes unntak, vil et «tekstpromt» som utgangspunkt ikke være immaterialrettslig beskyttet materiale. For bruk av bilder bør imidlertid utgangspunktet være det motsatte, nemlig at det er beskyttet materialet, med mindre det er åpent tilgjengelig.
Sørg for at du har rett til å bruke et bilde som input: Det behøver ikke å være problematisk å bruke et bilde som input så lenge du har rettighetene til bildet du benytter. Rettighetene må for det første omfatte å laste opp materialet til serverne til den respektive generative tjenesten. Avhengig av vilkårene til den respektive generative tjenesten, kan dette bety at bildet blir lagret et sted og/eller benyttet til ytterligere trene den underliggende maskinlæringsmodellen. For det andre må rettighetene omfatte retten til å bearbeide materialet. Sistnevnte reguleres eksempelvis av åndsverkslovens § 6.
Rettighetene til det genererte bildet: Situasjonen rundt rettigheter til genererte bilder er usikker. På den ene siden bør det være fritt frem å lage noe nytt med inspirasjon fra tidligere materiale. Alt kunst bygger jo i større eller mindre grad på tidligere kunst. På den andre siden vil inspirasjonen på et tidspunkt være så stor at det blir som å «snylte» på opprinnelig rettighetshaver. Det pågår store søksmål som vil bidra til å belyse problemstillingen i tiden fremover. På nåværende tidspunkt bør offentlige virksomheter som benytter KI-generert materiale være bevisst at rettighetssituasjonen er usikker.
Opplys om at bildene er generert: La mottakeren av bildene forstå at bildene er generert ved hjelp av kunstig intelligens. Dette er særlig viktig der bildene er realistiske, ettersom realistiske bilder kan gi uttrykk for en forståelse av verden, og dermed kan gi bekymring eller kan påvirke meninger på manipulerende måte.
Husk universell utforming: Dersom KI-genererte bilder benyttes på en nettside, må du, som ved alle andre bilder huske å bruke alt-tekst for å sikre at materialet er tilgjengelig for alle. Dersom det er generert basert på en tekstpromt, vil dette promtet gi et godt utgangspunkt for alt-tekst.

Særlig om generering av kode med verktøy som GitHub Copilot og ChatGPT:

«Promting» kan være annerledes ved KI-assistert utvikling: KI-verktøy som er bygget inn i en IDE eller andre typer text editors har potensialet til å kontinuerlig overvåke koden som skrives. Dette krever en større oppmerksomhet enn for verktøy som ChatGPT. I sistnevnte verktøy vil du ha kontroll på når du promter verktøyet.
Husk at sensitiv informasjon ikke må brukes som «promts»: Som for generativ KI generelt, bør ikke sensitiv informasjon brukes i promts. Med sensitiv informasjon mener vi blant annet personopplysninger, taushetsbelagt informasjon, informasjon du ikke har tilstrekkelig rettigheter til og gradert informasjon. For utviklere vil sensitiv informasjon også kunne omfatte ting som API-nøkler og annen sikkerhetsinformasjon.
Ha et bevisst forhold til hvilken stor språkmodell som benyttes: Det er stor forskjell på hvor bra de ulike store språkmodellene presterer ved kode-generering.
Skriv i pull «requesten» at du har brukt KI-assistert kodegenerering: La den som skal gjennomgå koden få vite at den er skrevet med KI-assistert kodegenerering. Dette kan bidra til større oppmerksomhet. Opplys også om hvilken språkmodell som er benyttet.
Ha et bevisst forhold til at det brukes kodegenerering: KI-assistert kodegenerering behøver ikke å være problematisk, men sørg for at utviklerne har rutiner og opplæring for hvordan verktøyene skal brukes. Det kan være flere sikkerhetsrisikoer. Forskning fra Stanford har vist at utviklere som skriver kode med KI-assistert kodegenerering skriver mindre sikker kode. Den viser også at utviklere som har støttet seg på slike verktøy har større tro på at koden som er skrevet er sikker. Samtidig viser den at utviklere som bruker KI-verktøy på en kritisk måte produserer kode med færre sårbarheter.

EDIT:

Slått sammen punktene om "Si hvem du er" og "Kjør alltid et pilotprosjekt" under "Generelle retningslinjer" til punktet "Vær særlig varsom ved samhandling med innbyggere".
Lagt til punktet "Husk at svarene ikke nødvendigvis er tilpasset våre verdier" under "Særlig om generering av tekst"

? Frakoblet

Innspill til de to første punktene i tilknytning til generering av bilder med modeller som Midjourney og Dall-E, og er basert på min erfaring siden august 2022 med tjenesten Midjourney, der jeg per i dag har generert cirka 12 000 bilder.

Etter min mening tar ikke retningslinjene inn over seg hvordan slike typer tjenester fungerer generelt, og spesielt hvordan man kan anvende ulike former for visuelle verk som input til å skape nye bilder.

Dersom jeg velger å gi Midjourney et bilde som utgangspunkt for det jeg skal skape, er jeg nøye på at en slik praksis ikke bryter med Åndsverkslovens §3, dvs å fremstille et eksemplar av verket og gjøre dette tilgjengelig for allmennheten. Bildet brukes kun for å gi en modell et nytt visuelt materiale som den kan klassifisere i henhold til millioner av parametre. Modellen er trent på milliarder av billedmateriale som den har sett og analysert, og får kontinuerlig ny input gjennom alt nytt bildemateriale som skapes gjennom modellen.

§6 sier at "Opphavsrett er ikke til hinder for at det skapes nye og selvstendige verk gjennom å benytte eksisterende verk", og det er dette som skjer gjennom modeller som Midjourney.

Slike tjenester er utviklet for å skape nye bilder med utgangspunkt i tekst og bilde og evt annen input (det er nærliggende å forestille seg at modellene etter hvert kan bruke lyd, det å sanse stedlig tilstedeværelse, animasjon og video etc som input) for å generere visuelt materiale. Tjenestene er med andre ord ikke utviklet for å framstille nye eksemplarer av eksisterende enkeltverk og gjøre disse tilgjengelig for allmennheten.

Punkt 3 og 4 er viktige problemstillinger å presisere.

? Frakoblet

Veldig fint å se at Digdir er ute med konkrete råd på dette feltet. Jeg svarer på oppfordringen om å gi tilbakemelding med følgende:

Et perspektiv som fort glemmes, men som jeg tenker hører hjemme blant disse rådene - kanskje som et tidlig sjekkpunkt, er hensynet til de ansatte som tar i bruk GKI som arbeidsverktøy. Hva slags risiko utsettes den ansatte for ved bruk av verktøyet? Arbeidsgiver har et ansvar her. Det kan vel sies at et slikt perspektiv kan tas inn i en generell risikovurdering som er nevnt i første punkt, og at det har en side til punkt to om riktig opplæring, men jeg tenker at dette hensynet er konkret og viktig nok til å stå alene.

Først og fremst vil det være en vurdering av hvordan verktøyet behandler de ansattes personopplysninger. Dette jo ikke spesifikt for GKI, men kanskje særlig viktig med tanke på de muligheter en GKI har til å analysere og generere opplysninger om brukerne sine. Muligheter som vi gjerne ikke har anledning til å få innblikk i. Personopplysninger i denne sammenhengen kan være for eksempel påloggingsinformasjon, monitorering av bruk (bruksmetrikker), sikkerhetslogger og analyse av hvordan noen ordlegger seg i sine "prompts/ledetekster" og profileringer ut fra dette.

Råd i denne sammenheng kan kanskje knytte seg til hvordan en virksomhet kan gå frem for å vurdere disse situasjonene. For det som vil være likt vurderinger etter GDPR holder det med en påminnelse. I tillegg kan trekkes frem eventuelle særlige momenter for GKI. Råd kan også dreie seg om hvordan man kan bruke de forskjellige GKI-verktøyene på en trygg måte - med brukeren selv som perspektiv.

jens.andresen.osberg

@thomas-bjoernskau

Takk for en god tilbakemelding! Det kan være at henvisningen til åndsverksloven ikke er helt god, så den skal vi vurdere. Samtidig har jeg følgende betraktninger om å laste opp et bilde til en generativ tjeneste:

Opplastingen av bildet til en tjeneste som Dall-E og Midjourney vil presumptivt medføre at bildet blir brukt for ytterligere trening av den underliggende maskinlæringsmodellen. Jeg antar at dette innebærer at bildet brukes direkte for videre trening og/eller lagres i en bildesamling slik at dette kan benyttes til trening senere. (Jeg skriver her presumptivt ettersom vilkårene til den aktuelle tjenesten trolig kan belyse dette nærmere for den konkrete tjenesten)
Ved at bilde kan brukes til å videre utvikle en slik tjeneste, vil jo selskapet som står bak KI-tjenesten "kapitalisere" på bildet til den opprinnelige rettighetshaveren. Jeg tenker som utgangspunkt rettighetshaveren har noen verneverdige interesser i denne sammenhengen, men her er jeg helt klart åpen for flere synspunkter.

Jeg forsøker meg på en hypotetisk sammenliknbar situasjon med mennesker:

La oss si at person A med fotografisk hukommelse går på en utstilling på et galleri med bilder fra kunstner B. Deretter begynner person A å lage variasjoner av det hen nettopp så på utstillingen. Personen A får gevinster av dette, enten i form av direkte salg eller at denne personen gjør seg opp et navn som selvstendig kunstner. Tenker dette kan være nokså sammenliknbart, og spørsmålet er da i hvilken person B (kunstneren) har noen verneverdig interesser?

Hva tenker du om disse synspunktene og eksempelet?

Jeg har også spesifikt henvendt meg til personer i nettverket vårt som er eksperter på immaterialrett og håper de pitcher inn her.

jens.andresen.osberg

@marius-roe-navik

Takk for god tilbakemelding, Marius! Dette kan være noe vi må se på videre. Jeg har følgende tanker:

Er dette en "inkonsekvent frykt" for GKI?: Du skriver selv at dette jo ikke er et spørsmål spesifikt for GKI. Basert på min forståelse av store språkmodeller, har ikke de noe kapasitet til å analysere brukeren av KI-verktøyet. For den underliggende språkmodellen er det interessante strukturene i språket i "promptet". Det avgjørende må være hvilke type mekanismer som er bygget inn i grensesnittet for den store språkmodellen (eks. ChatGPT), og her er det ikke noe annerledes enn for andre tjenester. Er vi for eksempel like skeptiske til oversettingsverktøy?
Prioritering og rekkefølge: Fra vårt ståsted må første prioritet være å sikre at offentlig ansatte bruker generativ KI på en måte som ivaretar innbyggernes rettigheter. Det er naturligvis også viktig å sikre at vi ivaretar de ansattes rettigheter, men ettersom dette spørsmålet er noe mer usikkert (særlig mht. om dette er en spesifikk problemstilling for GKI) tenker jeg at vi uansett kan komme ut med retningslinjer som i alle fall ivaretar innbyggerne. Og så får vi videre diskutere problemstillingen med ansatte som tar i bruk GKI.

Så oppsummert tenker jeg at:

Hvis dette ikke er et spesifikt spørsmål for GKI, så trenger det ikke å inngå i disse retningslinjene.
Hvis min forståelse er feil, slik at det ansattes opplysninger stiller seg annerledes for GKI, så bør dette adresseres i disse retningslinjene. Og i såfall ønsker jeg den diskusjonen velkommen videre samtidig som vi etterhvert publiserer første iterasjon av rådene.

Nysgjerrig på hva du tenker om dette og hvorvidt min forståelse stemmer.

jens.andresen.osberg

Nå har vi løftet rådene for generativ kunstig intelligens inn i veiledningen på nettsiden vår: https://www.digdir.no/kunstig-intelligens/bruk-av-generativ-kunstig-intelligens-i-offentlig-sektor/4670

Rådene er fortsatt i "åpen beta" og vi ønsker innspill! Kommenter gjerne her i Datalandsbyen om det er noe dere savner eller om dere ser noe som kan bli bedre.

Tusen takk for alle innspill dere har gitt her så langt! De er tatt med og har medført flere justeringer på de aktuelle punktene.

? Frakoblet

Godt initiativ og et godt stykke arbeid fra Nasjonalt ressurssenter for deling og bruk av data! Har sendt inn mine innspill til veilederen per mail.

Jeg er ikke helt enig i @thomas-bjoernskau sine kommentarer om at det kategorisk skapes nye og selvstendige verk ved bruk av Midjourney og Dall-E. Utgangspunktet etter åndsverkslovens § 6 første ledd er at den som bearbeider opphavsrettslig beskyttet materiale (f.eks. tekst- eller bilde basert på prompt i Midjourney) har opphavsretten til et eventuelt nytt bearbeidet verk. Det pågår imidlertid en diskusjon i de juridiske miljøene internasjonalt om hvorvidt det kan erverves opphavsrett til nye AI skapte bilder eller om slike bilder går inn i det "public domain", ettersom det er AI en som står for den skapende innsatsen, ikke et menneske. Forutsetter man at det er menneske som blir opphavspersonen til det nye bildet (nytt bearbeidet verk eller nytt selvstendig verk), krever bruk av det bearbeidede verk fremdeles samtykke fra opphavsmannen til det opprinnelige verket.

Mens § 6 første ledd regulerer bearbeidelse presiserer § 6 annet ledd at:

"Opphavsrett er ikke til hinder for at det skapes nye og selvstendige verk gjennom å benytte eksisterende verk. Opphavsretten til det nye verket er i så fall ikke avhengig av opphavsretten til originalverket."

Annet ledd presiserer at § 6 første ledd ikke er et forbud mot at du bruker opphavsrettslig verk for å produsere nye selvstendige verk. Dette er noe annet enn kategorien bearbeidede verk. Per i dag er det uavklart om input i form av bruk av opphavsrettsligbeskyttet materiale er i strid med eneretten til opphavspersonen. Begrunnelsen for dette er tredelt:

Det er uklart om verk produsert av en generativ AI oppfyller kravene til verkshøyde og er kan utgjøre et "bearbeidet verk" eller ""selvstendig verk. Dersom det ikke er det så kan ikke en benytte seg av åvl. § 6 for å utvikle nye verk.
Dersom det nye verket anses som en bearbeidelse vil bruk av verket kreve samtykke fra den opprinnelige opphavspersonen.
Uavhengig av nr.1 og nr.2 kan det å benytte opphavsrettslig beskyttet materiale til å produsere egne verk rammes av markedsføringsloven § 25. Etter bestemmelsen er det forbudt å foreta handlinger som strider mot god forretningsskikk næringsdrivende imellom. Ifølge Høyesterett vil dette typisk kunne være handlinger som kan minne om "snylting" på en annens persons innsats.

Oppsummert mener jeg at det bør utvises varsomhet med å bruke opphavsrettsbeskyttet materiale til å produsere egne verk uten samtykke fra opphavspersonen.

jens.andresen.osberg

@hermonmelles Tusen takk for god og grundig tilbakemelding, Hermon!

Forstår jeg deg rett, understreker tilbakemeldingen din kompleksiteten og usikkerheten rundt rettighetssituasjonen til både inputen og outputen, men i hovedsak outputen.

Vi har også fått et annet innspill (i en annen kanal) om at vi i vår fremstilling bør fokusere på rettighetene til det genererte materialet/outputen (både tekst, bilder og kode mm.) og hvordan dette blir brukt. Bakgrunnen for dette er følgende:

Fokus på "outputen" treffer de aktuelle rettighetene bedre: Det er ingen tvil om at det er usikkerhet knyttet til trening av de store maskinlæringsmodellene med immaterielt vernet materiale. Her er det mange viktige spørsmål og diskusjoner. De synes imidlertid ikke å treffe norske virksomheter i så stor grad, all den tid disse modellene trenes av utenlandske teknologiselskaper. For norske virksomheter er det outputen som i praksis får betydning, og da skal ikke vi bruke for mye tid på detaljspørsmål knyttet til inputen.
Det er en praktisk nyttig tilnærming: Det er lite sannsynlig at virksomheter vil klare å kontrollere rettighetssituasjonen til inputen. En ansatt vil eksempelvis kunne bruke tekst i ChatGPT e.l. som har opphavsrettslig vern og det vil være vanskelig for en virksomhet å kontrollere dette. Virksomheten bør i stedet ha tydelige retningslinjer for hvordan det genererte materialet benyttes. I dette ligger at virksomheten må sikre at det genererte materialet ikke er plagiat. På denne måten blir tilnærmingen litt det samme som uten generativ KI. I dag vil jo en ansatt fritt kunne lese og la seg inspirere av opphavsrettslig beskyttet materiale, så fremt dette ikke plagieres eller på en annen måte benyttes i strid med immaterielle rettigheter. Jo mer praktisk nyttig vår veiledning, jo større er sannsynligheten for at vi får regelverksetterlevelse i praksis. Og det er jo helt klart målet.

Slik jeg forstår deg, er dine tilbakemeldinger forenelig med dette innspillet vi har fått. Du peker på at det er bruken av det bearbeidede verket etter åndsverkslovens § 6 som kan forutsette samtykke, og ikke selve bearbeidelsen. Det er altså en konkret vurdering av om det genererte materialet og hvorvidt kravene til verkshøyde tilsier "bearbeidet verk" eller "selvstendig verk". Også etter markedsføringslovens § 25 vil vel dette bero på en konkret vurdering hvor en ser på det genererte materialet opp mot det opprinnelige materialet. Vi vil altså kunne ta med dine innspill i arbeidet fremover hvor vi særlig ser på "outputen".

Gi meg gjerne tilbakemelding dersom jeg har misforstått noe i innspillet ditt.

TLDR; Vi tenker fremover å fokusere på outputen. I en veiledning som dette vil det blant annet kunne være aktuelt å peke på tiltak/rutiner osv. for å bidra til å sikre at det genererte materialet ikke er plagiat eller på en annen måte brukes i strid med immaterielle rettigheter.

gorm.braarvig

Skulle man skille "agenter" og "KI"?

Min opplevelse er at EU i hovedsak fokuserer på "agenter"; "autonome systemer som handler basert på KI". Mister man noe når bare "utstyret" reguleres, og ikke metoden?

Agenter: https://www.gatesnotes.com/AI-agents

KI: alle mulige algoritmer som kan alt fra å vurdere handlinger og gi råd, til å ta handling og være den styrende delen av agenter.

Man kan vanskelig tenke seg agenter uten KI, men man kan lett tenke seg KI uten agenter, med tanke på hvor begrenset GDPR har vørt ift å bremse uønsket dataøkonomi, skulle man her være litt mer ambisiøs, og ta problemet ved roten?!

? Frakoblet

Hei,
På arbeidsplassen min diskuterer vi dette med bruk av AI til tekst til både statisk innhald og nyheitssaker. I den forbindelse lurer vi på om de har gjort nokre vurderingar rundt retningslinjer/standard for merking av AI-generert innhald?

Ein anna diskusjon som har dukka opp er at om ein skal markere tekst som er generert via f.eks. ChatGPT, skal ein då også markere tekst som er omsett via Google Translate?

Eg tenkjer at det er eit ganske stor skilnad mellom generativ AI med prompting, og tenester som Google Translate som ikkje genererer tekst, men er nysgjerrig på om det er andre synspunkt der ute.

jens.andresen.osberg

@maritbre Hei! Denne skulle du naturligvis fått svar på for veldig, veldig lenge siden. Så her er det all grunn til å beklage fra vår side.

Vi kjenner ikke til at det finnes helt generelle retningslinjer for merking av KI-generert tekst. I KI-forordningens artikkel 50 stilles det krav til åpenhet for at brukeren av et KI-system må kunne forstå at de samhandler med et KI-system. I tilknytning til denne vil det nok komme standarder eller praksis for hvordan man merker KI-generert innhold.

På et generelt grunnlag er dette med merking likevel krevende. En aktør kan oppgi at det er KI-generert, men det finnes ingen garanti for at denne informasjonen følger innholdet dersom det brukes videre i andre sammenhenger. På lengre sikt trenger man en annen tilnærming til denne problematikken. Vi kjenner til to ulike tilnærminger:

Automatisert deteksjon av KI-materiale: Dette innebærer bruk av en KI-modell trent til å identifisere KI-generert materiale. Vi registrerer at det finnes ulike selskaper som tilbyr slike løsninger. Det er imidlertid utfordringer knyttet til nøyaktigheten av modellene, og hvordan de kan påvirke ulike grupper på en uheldig måte. I tillegg krever endringer i de store generative KI-systemer at deteksjonsverktøyene kontinuerlig oppdateres for å holde tritt. Til dette kommer også mulige teknikker for å omgå slike systemer. Dette kan du lese mer om hos Faktisk her: Kan vi stole på KI-detektorer?
Vannmerking: Dette innebærer at det legges inn et usynlig vannmerke i det KI-genererte innholdet ved å påvirke sannsynlighetsfordelingen i genereringen av innholdet slik at det kan identifiseres senere. Denne artikkelen fra forskere ved universitetet i Maryland går inn på dette og jeg ser den er mye sitert: A Watermark for Large Language Models Artikkelen forklares ganske godt i denne videoen fra Universitetet i Nottingham: Ch(e)at GPT? - Computerphile
Vi ser at Google Deepmind har kommet nokså langt med en slik tilnærming med sin Synth-ID som gjelder for flere modaliteter, inkludert bilder. Ser at dette arbeidet også henviser til artikkelen nevnt fra forskerne ved universitetet i Maryland.
Selv om vannmerking høres ut som en god løsning, er det også noen utfordringer. Vannmerkingen må implementeres i de generative KI-modellene. Dette krever at alle leverandører av følger standarden, noe som skaper håndhevelses-utfordringer. For eksempel: Hvordan sikrer man at alle implementerer vannmerking, og hvordan gjør man dette med open-source-modeller?

I dagens situasjon er det altså en del usikkerhet rundt merking av KI-innhold. I påvente av noen tekniske løsninger må vi da basere oss på en variant hvor vi med «good faith» opplyser om hva som er KI-generert. Spørsmålet da blir imidlertid når vi mener at vi bør opplyse om dette.

Tekst: Vi har ikke gitt et generelt råd for merking av KI-generert tekst. Dette skyldes at vi er usikre på om et slikt generelt råd har noen verdi. Vi tror behovet for åpenhet varierer mellom ulike områder og kontekster. For eksempel har vi inntrykket av at visse grupper, slik som journalister og mediehus, har interne retningslinjer for hvordan dette skal gjøres. Vi tenker også at for enkelte offentlige virksomheter i visse sammenhenger vil det være viktig å opplyse om at innholdet er generert av KI. Fordi mer og mer tekst vil være helt eller delvis bearbeidet med et KI-verktøy, tror vi ikke det er så mye poeng å gi et generelt råd om dette, og så kan det heller være opp til de spesifikke områdene og kontekstene å vurdere dette.
Kode: I den forrige utgaven av veiledningen fra 2023 ga vi et råd om å opplyse dersom kode var KI-generert. På dette tidspunktet var bruk av verktøy for KI-kodegenerering nokså nytt. Dette rådet er nå fjernet fordi det har blitt veldig vanlig og det mange som har innarbeidet dette i arbeidsflyten, eller som arbeider med det nå. På samme måte som med tekst, og kanskje i en enda større grad, er det usikkert hvor mye nytte brukerne har av å vite at kode er KI-generert.
Bilder: For bilder har vi valgt å beholde rådet om merking. I tråd med tankene bak artikkel 50 i KI-forordningen, er det viktig at ingen blir forledet av innhold fra offentlige myndigheter. Med bilder fra en offentlig myndighet, er konteksten av å gi informasjon som offentlig myndighet i seg selv viktig. Derfor har dette verdi, selv om bildet kan bli flyttet og gjenbrukt uten at forbeholdet blir med videre.