[Diskusjonstråd] Spesifikke retningslinjer for bruk av generativ kunstig intelligens i offentlig sektor

? Frakoblet

Innspill til de to første punktene i tilknytning til generering av bilder med modeller som Midjourney og Dall-E, og er basert på min erfaring siden august 2022 med tjenesten Midjourney, der jeg per i dag har generert cirka 12 000 bilder.

Etter min mening tar ikke retningslinjene inn over seg hvordan slike typer tjenester fungerer generelt, og spesielt hvordan man kan anvende ulike former for visuelle verk som input til å skape nye bilder.

Dersom jeg velger å gi Midjourney et bilde som utgangspunkt for det jeg skal skape, er jeg nøye på at en slik praksis ikke bryter med Åndsverkslovens §3, dvs å fremstille et eksemplar av verket og gjøre dette tilgjengelig for allmennheten. Bildet brukes kun for å gi en modell et nytt visuelt materiale som den kan klassifisere i henhold til millioner av parametre. Modellen er trent på milliarder av billedmateriale som den har sett og analysert, og får kontinuerlig ny input gjennom alt nytt bildemateriale som skapes gjennom modellen.

§6 sier at "Opphavsrett er ikke til hinder for at det skapes nye og selvstendige verk gjennom å benytte eksisterende verk", og det er dette som skjer gjennom modeller som Midjourney.

Slike tjenester er utviklet for å skape nye bilder med utgangspunkt i tekst og bilde og evt annen input (det er nærliggende å forestille seg at modellene etter hvert kan bruke lyd, det å sanse stedlig tilstedeværelse, animasjon og video etc som input) for å generere visuelt materiale. Tjenestene er med andre ord ikke utviklet for å framstille nye eksemplarer av eksisterende enkeltverk og gjøre disse tilgjengelig for allmennheten.

Punkt 3 og 4 er viktige problemstillinger å presisere.

? Frakoblet

Veldig fint å se at Digdir er ute med konkrete råd på dette feltet. Jeg svarer på oppfordringen om å gi tilbakemelding med følgende:

Et perspektiv som fort glemmes, men som jeg tenker hører hjemme blant disse rådene - kanskje som et tidlig sjekkpunkt, er hensynet til de ansatte som tar i bruk GKI som arbeidsverktøy. Hva slags risiko utsettes den ansatte for ved bruk av verktøyet? Arbeidsgiver har et ansvar her. Det kan vel sies at et slikt perspektiv kan tas inn i en generell risikovurdering som er nevnt i første punkt, og at det har en side til punkt to om riktig opplæring, men jeg tenker at dette hensynet er konkret og viktig nok til å stå alene.

Først og fremst vil det være en vurdering av hvordan verktøyet behandler de ansattes personopplysninger. Dette jo ikke spesifikt for GKI, men kanskje særlig viktig med tanke på de muligheter en GKI har til å analysere og generere opplysninger om brukerne sine. Muligheter som vi gjerne ikke har anledning til å få innblikk i. Personopplysninger i denne sammenhengen kan være for eksempel påloggingsinformasjon, monitorering av bruk (bruksmetrikker), sikkerhetslogger og analyse av hvordan noen ordlegger seg i sine "prompts/ledetekster" og profileringer ut fra dette.

Råd i denne sammenheng kan kanskje knytte seg til hvordan en virksomhet kan gå frem for å vurdere disse situasjonene. For det som vil være likt vurderinger etter GDPR holder det med en påminnelse. I tillegg kan trekkes frem eventuelle særlige momenter for GKI. Råd kan også dreie seg om hvordan man kan bruke de forskjellige GKI-verktøyene på en trygg måte - med brukeren selv som perspektiv.

jens.andresen.osberg

@thomas-bjoernskau

Takk for en god tilbakemelding! Det kan være at henvisningen til åndsverksloven ikke er helt god, så den skal vi vurdere. Samtidig har jeg følgende betraktninger om å laste opp et bilde til en generativ tjeneste:

Opplastingen av bildet til en tjeneste som Dall-E og Midjourney vil presumptivt medføre at bildet blir brukt for ytterligere trening av den underliggende maskinlæringsmodellen. Jeg antar at dette innebærer at bildet brukes direkte for videre trening og/eller lagres i en bildesamling slik at dette kan benyttes til trening senere. (Jeg skriver her presumptivt ettersom vilkårene til den aktuelle tjenesten trolig kan belyse dette nærmere for den konkrete tjenesten)
Ved at bilde kan brukes til å videre utvikle en slik tjeneste, vil jo selskapet som står bak KI-tjenesten "kapitalisere" på bildet til den opprinnelige rettighetshaveren. Jeg tenker som utgangspunkt rettighetshaveren har noen verneverdige interesser i denne sammenhengen, men her er jeg helt klart åpen for flere synspunkter.

Jeg forsøker meg på en hypotetisk sammenliknbar situasjon med mennesker:

La oss si at person A med fotografisk hukommelse går på en utstilling på et galleri med bilder fra kunstner B. Deretter begynner person A å lage variasjoner av det hen nettopp så på utstillingen. Personen A får gevinster av dette, enten i form av direkte salg eller at denne personen gjør seg opp et navn som selvstendig kunstner. Tenker dette kan være nokså sammenliknbart, og spørsmålet er da i hvilken person B (kunstneren) har noen verneverdig interesser?

Hva tenker du om disse synspunktene og eksempelet?

Jeg har også spesifikt henvendt meg til personer i nettverket vårt som er eksperter på immaterialrett og håper de pitcher inn her.

jens.andresen.osberg

@marius-roe-navik

Takk for god tilbakemelding, Marius! Dette kan være noe vi må se på videre. Jeg har følgende tanker:

Er dette en "inkonsekvent frykt" for GKI?: Du skriver selv at dette jo ikke er et spørsmål spesifikt for GKI. Basert på min forståelse av store språkmodeller, har ikke de noe kapasitet til å analysere brukeren av KI-verktøyet. For den underliggende språkmodellen er det interessante strukturene i språket i "promptet". Det avgjørende må være hvilke type mekanismer som er bygget inn i grensesnittet for den store språkmodellen (eks. ChatGPT), og her er det ikke noe annerledes enn for andre tjenester. Er vi for eksempel like skeptiske til oversettingsverktøy?
Prioritering og rekkefølge: Fra vårt ståsted må første prioritet være å sikre at offentlig ansatte bruker generativ KI på en måte som ivaretar innbyggernes rettigheter. Det er naturligvis også viktig å sikre at vi ivaretar de ansattes rettigheter, men ettersom dette spørsmålet er noe mer usikkert (særlig mht. om dette er en spesifikk problemstilling for GKI) tenker jeg at vi uansett kan komme ut med retningslinjer som i alle fall ivaretar innbyggerne. Og så får vi videre diskutere problemstillingen med ansatte som tar i bruk GKI.

Så oppsummert tenker jeg at:

Hvis dette ikke er et spesifikt spørsmål for GKI, så trenger det ikke å inngå i disse retningslinjene.
Hvis min forståelse er feil, slik at det ansattes opplysninger stiller seg annerledes for GKI, så bør dette adresseres i disse retningslinjene. Og i såfall ønsker jeg den diskusjonen velkommen videre samtidig som vi etterhvert publiserer første iterasjon av rådene.

Nysgjerrig på hva du tenker om dette og hvorvidt min forståelse stemmer.

jens.andresen.osberg

Nå har vi løftet rådene for generativ kunstig intelligens inn i veiledningen på nettsiden vår: https://www.digdir.no/kunstig-intelligens/bruk-av-generativ-kunstig-intelligens-i-offentlig-sektor/4670

Rådene er fortsatt i "åpen beta" og vi ønsker innspill! Kommenter gjerne her i Datalandsbyen om det er noe dere savner eller om dere ser noe som kan bli bedre.

Tusen takk for alle innspill dere har gitt her så langt! De er tatt med og har medført flere justeringer på de aktuelle punktene.

? Frakoblet

Godt initiativ og et godt stykke arbeid fra Nasjonalt ressurssenter for deling og bruk av data! Har sendt inn mine innspill til veilederen per mail.

Jeg er ikke helt enig i @thomas-bjoernskau sine kommentarer om at det kategorisk skapes nye og selvstendige verk ved bruk av Midjourney og Dall-E. Utgangspunktet etter åndsverkslovens § 6 første ledd er at den som bearbeider opphavsrettslig beskyttet materiale (f.eks. tekst- eller bilde basert på prompt i Midjourney) har opphavsretten til et eventuelt nytt bearbeidet verk. Det pågår imidlertid en diskusjon i de juridiske miljøene internasjonalt om hvorvidt det kan erverves opphavsrett til nye AI skapte bilder eller om slike bilder går inn i det "public domain", ettersom det er AI en som står for den skapende innsatsen, ikke et menneske. Forutsetter man at det er menneske som blir opphavspersonen til det nye bildet (nytt bearbeidet verk eller nytt selvstendig verk), krever bruk av det bearbeidede verk fremdeles samtykke fra opphavsmannen til det opprinnelige verket.

Mens § 6 første ledd regulerer bearbeidelse presiserer § 6 annet ledd at:

"Opphavsrett er ikke til hinder for at det skapes nye og selvstendige verk gjennom å benytte eksisterende verk. Opphavsretten til det nye verket er i så fall ikke avhengig av opphavsretten til originalverket."

Annet ledd presiserer at § 6 første ledd ikke er et forbud mot at du bruker opphavsrettslig verk for å produsere nye selvstendige verk. Dette er noe annet enn kategorien bearbeidede verk. Per i dag er det uavklart om input i form av bruk av opphavsrettsligbeskyttet materiale er i strid med eneretten til opphavspersonen. Begrunnelsen for dette er tredelt:

Det er uklart om verk produsert av en generativ AI oppfyller kravene til verkshøyde og er kan utgjøre et "bearbeidet verk" eller ""selvstendig verk. Dersom det ikke er det så kan ikke en benytte seg av åvl. § 6 for å utvikle nye verk.
Dersom det nye verket anses som en bearbeidelse vil bruk av verket kreve samtykke fra den opprinnelige opphavspersonen.
Uavhengig av nr.1 og nr.2 kan det å benytte opphavsrettslig beskyttet materiale til å produsere egne verk rammes av markedsføringsloven § 25. Etter bestemmelsen er det forbudt å foreta handlinger som strider mot god forretningsskikk næringsdrivende imellom. Ifølge Høyesterett vil dette typisk kunne være handlinger som kan minne om "snylting" på en annens persons innsats.

Oppsummert mener jeg at det bør utvises varsomhet med å bruke opphavsrettsbeskyttet materiale til å produsere egne verk uten samtykke fra opphavspersonen.

jens.andresen.osberg

@hermonmelles Tusen takk for god og grundig tilbakemelding, Hermon!

Forstår jeg deg rett, understreker tilbakemeldingen din kompleksiteten og usikkerheten rundt rettighetssituasjonen til både inputen og outputen, men i hovedsak outputen.

Vi har også fått et annet innspill (i en annen kanal) om at vi i vår fremstilling bør fokusere på rettighetene til det genererte materialet/outputen (både tekst, bilder og kode mm.) og hvordan dette blir brukt. Bakgrunnen for dette er følgende:

Fokus på "outputen" treffer de aktuelle rettighetene bedre: Det er ingen tvil om at det er usikkerhet knyttet til trening av de store maskinlæringsmodellene med immaterielt vernet materiale. Her er det mange viktige spørsmål og diskusjoner. De synes imidlertid ikke å treffe norske virksomheter i så stor grad, all den tid disse modellene trenes av utenlandske teknologiselskaper. For norske virksomheter er det outputen som i praksis får betydning, og da skal ikke vi bruke for mye tid på detaljspørsmål knyttet til inputen.
Det er en praktisk nyttig tilnærming: Det er lite sannsynlig at virksomheter vil klare å kontrollere rettighetssituasjonen til inputen. En ansatt vil eksempelvis kunne bruke tekst i ChatGPT e.l. som har opphavsrettslig vern og det vil være vanskelig for en virksomhet å kontrollere dette. Virksomheten bør i stedet ha tydelige retningslinjer for hvordan det genererte materialet benyttes. I dette ligger at virksomheten må sikre at det genererte materialet ikke er plagiat. På denne måten blir tilnærmingen litt det samme som uten generativ KI. I dag vil jo en ansatt fritt kunne lese og la seg inspirere av opphavsrettslig beskyttet materiale, så fremt dette ikke plagieres eller på en annen måte benyttes i strid med immaterielle rettigheter. Jo mer praktisk nyttig vår veiledning, jo større er sannsynligheten for at vi får regelverksetterlevelse i praksis. Og det er jo helt klart målet.

Slik jeg forstår deg, er dine tilbakemeldinger forenelig med dette innspillet vi har fått. Du peker på at det er bruken av det bearbeidede verket etter åndsverkslovens § 6 som kan forutsette samtykke, og ikke selve bearbeidelsen. Det er altså en konkret vurdering av om det genererte materialet og hvorvidt kravene til verkshøyde tilsier "bearbeidet verk" eller "selvstendig verk". Også etter markedsføringslovens § 25 vil vel dette bero på en konkret vurdering hvor en ser på det genererte materialet opp mot det opprinnelige materialet. Vi vil altså kunne ta med dine innspill i arbeidet fremover hvor vi særlig ser på "outputen".

Gi meg gjerne tilbakemelding dersom jeg har misforstått noe i innspillet ditt.

TLDR; Vi tenker fremover å fokusere på outputen. I en veiledning som dette vil det blant annet kunne være aktuelt å peke på tiltak/rutiner osv. for å bidra til å sikre at det genererte materialet ikke er plagiat eller på en annen måte brukes i strid med immaterielle rettigheter.

gorm.braarvig

Skulle man skille "agenter" og "KI"?

Min opplevelse er at EU i hovedsak fokuserer på "agenter"; "autonome systemer som handler basert på KI". Mister man noe når bare "utstyret" reguleres, og ikke metoden?

Agenter: https://www.gatesnotes.com/AI-agents

KI: alle mulige algoritmer som kan alt fra å vurdere handlinger og gi råd, til å ta handling og være den styrende delen av agenter.

Man kan vanskelig tenke seg agenter uten KI, men man kan lett tenke seg KI uten agenter, med tanke på hvor begrenset GDPR har vørt ift å bremse uønsket dataøkonomi, skulle man her være litt mer ambisiøs, og ta problemet ved roten?!

? Frakoblet

Hei,
På arbeidsplassen min diskuterer vi dette med bruk av AI til tekst til både statisk innhald og nyheitssaker. I den forbindelse lurer vi på om de har gjort nokre vurderingar rundt retningslinjer/standard for merking av AI-generert innhald?

Ein anna diskusjon som har dukka opp er at om ein skal markere tekst som er generert via f.eks. ChatGPT, skal ein då også markere tekst som er omsett via Google Translate?

Eg tenkjer at det er eit ganske stor skilnad mellom generativ AI med prompting, og tenester som Google Translate som ikkje genererer tekst, men er nysgjerrig på om det er andre synspunkt der ute.

jens.andresen.osberg

@maritbre Hei! Denne skulle du naturligvis fått svar på for veldig, veldig lenge siden. Så her er det all grunn til å beklage fra vår side.

Vi kjenner ikke til at det finnes helt generelle retningslinjer for merking av KI-generert tekst. I KI-forordningens artikkel 50 stilles det krav til åpenhet for at brukeren av et KI-system må kunne forstå at de samhandler med et KI-system. I tilknytning til denne vil det nok komme standarder eller praksis for hvordan man merker KI-generert innhold.

På et generelt grunnlag er dette med merking likevel krevende. En aktør kan oppgi at det er KI-generert, men det finnes ingen garanti for at denne informasjonen følger innholdet dersom det brukes videre i andre sammenhenger. På lengre sikt trenger man en annen tilnærming til denne problematikken. Vi kjenner til to ulike tilnærminger:

Automatisert deteksjon av KI-materiale: Dette innebærer bruk av en KI-modell trent til å identifisere KI-generert materiale. Vi registrerer at det finnes ulike selskaper som tilbyr slike løsninger. Det er imidlertid utfordringer knyttet til nøyaktigheten av modellene, og hvordan de kan påvirke ulike grupper på en uheldig måte. I tillegg krever endringer i de store generative KI-systemer at deteksjonsverktøyene kontinuerlig oppdateres for å holde tritt. Til dette kommer også mulige teknikker for å omgå slike systemer. Dette kan du lese mer om hos Faktisk her: Kan vi stole på KI-detektorer?
Vannmerking: Dette innebærer at det legges inn et usynlig vannmerke i det KI-genererte innholdet ved å påvirke sannsynlighetsfordelingen i genereringen av innholdet slik at det kan identifiseres senere. Denne artikkelen fra forskere ved universitetet i Maryland går inn på dette og jeg ser den er mye sitert: A Watermark for Large Language Models Artikkelen forklares ganske godt i denne videoen fra Universitetet i Nottingham: Ch(e)at GPT? - Computerphile
Vi ser at Google Deepmind har kommet nokså langt med en slik tilnærming med sin Synth-ID som gjelder for flere modaliteter, inkludert bilder. Ser at dette arbeidet også henviser til artikkelen nevnt fra forskerne ved universitetet i Maryland.
Selv om vannmerking høres ut som en god løsning, er det også noen utfordringer. Vannmerkingen må implementeres i de generative KI-modellene. Dette krever at alle leverandører av følger standarden, noe som skaper håndhevelses-utfordringer. For eksempel: Hvordan sikrer man at alle implementerer vannmerking, og hvordan gjør man dette med open-source-modeller?

I dagens situasjon er det altså en del usikkerhet rundt merking av KI-innhold. I påvente av noen tekniske løsninger må vi da basere oss på en variant hvor vi med «good faith» opplyser om hva som er KI-generert. Spørsmålet da blir imidlertid når vi mener at vi bør opplyse om dette.

Tekst: Vi har ikke gitt et generelt råd for merking av KI-generert tekst. Dette skyldes at vi er usikre på om et slikt generelt råd har noen verdi. Vi tror behovet for åpenhet varierer mellom ulike områder og kontekster. For eksempel har vi inntrykket av at visse grupper, slik som journalister og mediehus, har interne retningslinjer for hvordan dette skal gjøres. Vi tenker også at for enkelte offentlige virksomheter i visse sammenhenger vil det være viktig å opplyse om at innholdet er generert av KI. Fordi mer og mer tekst vil være helt eller delvis bearbeidet med et KI-verktøy, tror vi ikke det er så mye poeng å gi et generelt råd om dette, og så kan det heller være opp til de spesifikke områdene og kontekstene å vurdere dette.
Kode: I den forrige utgaven av veiledningen fra 2023 ga vi et råd om å opplyse dersom kode var KI-generert. På dette tidspunktet var bruk av verktøy for KI-kodegenerering nokså nytt. Dette rådet er nå fjernet fordi det har blitt veldig vanlig og det mange som har innarbeidet dette i arbeidsflyten, eller som arbeider med det nå. På samme måte som med tekst, og kanskje i en enda større grad, er det usikkert hvor mye nytte brukerne har av å vite at kode er KI-generert.
Bilder: For bilder har vi valgt å beholde rådet om merking. I tråd med tankene bak artikkel 50 i KI-forordningen, er det viktig at ingen blir forledet av innhold fra offentlige myndigheter. Med bilder fra en offentlig myndighet, er konteksten av å gi informasjon som offentlig myndighet i seg selv viktig. Derfor har dette verdi, selv om bildet kan bli flyttet og gjenbrukt uten at forbeholdet blir med videre.