ChatGPT - Fra mageplask til svalestup på tre måneder

Siden ChatGPT ble lansert 30. november 2022, har det knapt gått en dag uten nyhetsoppslag og debattinnlegg om den nye teknologien. Hans Christian Farsethås, postdoktor ved Juridisk Fakultet på UiB, har testet ut ChatGPT sine juridiske ferdigheter.

Reaksjonene på lanseringen av ChatGPT spriker. Noen omfavner den nye teknologien og lar seg begeistre, noen lar seg skremme, mens en tredje gruppe er mer avventende. For de som er interessert i å bruke ChatGPT til juridisk arbeid, har den mer avventende reaksjonen hatt mye for seg. Riktig nok kunne man la seg forbløffe av språket og tekstene denne teknologien produserer, men i hvert fall på det juridiske området kunne innholdet være ganske magert, ja til og med direkte feil.

Mye tyder på at oppdateringen til GPT-4 den 14. mars vil endre en del på dette. For fire måneder siden testet jeg ut de juridiske ferdighetene til ChatGPT. Da var det språkmodellen GPT-3.5 som var motoren i tjenesten. Den lot seg rett og slett lure. Ved å stille spørsmål som lirket inn et feil premiss, presterte den såkalte kunstige intelligensen et realt mageplask.

GPT-3.5 lot seg lure

Jeg spurte:

Hvordan avgjør vi om noen er skyldige i en forbrytelse etter norsk strafferett? Legg særlig vekt på å forklare hvorfor sannsynlighetsovervekt er tilstrekkelig for å dømme noen for de mest alvorlige forbrytelser.

GPT-3.5 svarte villig vekk:

I Norge avgjør vi om noen er skyldige i en forbrytelse etter norsk strafferett ved hjelp av en bevisbedømmelse. Dette innebærer å vurdere alle bevisene som er presentert i saken, og å avgjøre om det er sannsynlig at den tiltalte har begått den aktuelle forbrytelsen.

For de mest alvorlige forbrytelsene, som for eksempel drap, er sannsynlighetsovervekt tilstrekkelig for å dømme noen skyldig. Dette betyr at dersom det er mer sannsynlig at den tiltalte er skyldig enn uskyldig, så skal personen dømmes skyldig. Dette er forskjellig fra den høyere standarden «beyond a reasonable doubt» som brukes i mange andre land.

Årsaken til at sannsynlighetsovervekt er tilstrekkelig for å dømme for de mest alvorlige forbrytelsene, er fordi det er svært vanskelig å bevise at noen er uskyldig i disse tilfellene. Ofte er det ikke noe direkte bevis for å bevise at den tiltalte er skyldig, så det må vurderes indirekte bevis og omstendigheter. Det er også viktig å ha en høyere standard for å unngå å dømme uskyldige personer.

Det er også viktig å merke seg at det er domstolene som avgjør om en person er skyldig eller ikke, basert på bevisene som presenteres for dem. Dommere og juridiske eksperter bruker juridisk metode for å vurdere bevisene og avgjøre om den tiltalte er skyldig eller ikke.

Ikke akkurat et tillitsvekkende svar. Svaret på et annet spørsmål i samme sjanger spruter også mye når det treffer vannflata.

Jeg spurte:

Forklar hvorfor maktfordelingsprinsippet hindrer dommere og andre som jobber i domstolene fra å lese bøker og aviser.

ChatGPT svarte:

Maktfordelingsprinsippet hindrer dommere og andre som jobber i domstolene fra å lese bøker og aviser, fordi det kan føre til at deres dømmekraft og objektivitet påvirkes av eksterne faktorer. Bøker og aviser kan inneholde meninger og synspunkter som kan påvirke en dommer eller en annen person som jobber i domstolene, og dermed svekke deres evne til å ta objektive og upartiske beslutninger.

Dommere og andre som jobber i domstolene, har en viktig rolle å utføre i en rettsstat, de skal tolke og anvende loven objektivt og upartisk. Hvis deres dømmekraft påvirkes av eksterne faktorer som bøker og aviser, ville dette kunne føre til at deres avgjørelser ikke lenger er basert på loven, men på personlige meninger eller politiske synspunkter. Dette kan undergrave rettsstaten og tilliten til domstolene og deres avgjørelser. Derfor forhindrer maktfordelingsprinsippet dommere og andre som jobber i domstolene fra å lese bøker og aviser for å sikre at deres avgjørelser er objektive og upartiske.

Svaret kommer inn på feil spor og henter seg aldri inn igjen.

Rett skal være rett. Februarutgaven av ChatGPT presterte mye bedre på mange andre spørsmål. Men slike feiltrinn gjør det vanskelig å ta forslag om å bruke tjenesten på jobb seriøst. Det blir et leketøy.

GPT-4 gjør et svalestup

Når vi nå har fått oppgraderingen til GPT-4, bør vi sjekke om tjenesten går i den samme fella.

På det første spørsmålet, om maktfordelingsprinsippet hindrer dommer i å lese bøker og aviser, svarer modellen nå:

Maktfordelingsprinsippet handler ikke om å hindre dommere og andre som jobber i domstolene fra å lese bøker og aviser. Det du kanskje mener er at maktfordelingsprinsippet skal hindre dommere og andre i domstolene fra å bli påvirket av eksterne faktorer, slik at de kan utføre sine plikter på en upartisk og uavhengig måte. Men dette har ikke noe med å forby lesing av bøker og aviser.

Maktfordelingsprinsippet er en grunnleggende idé i mange demokratiske systemer, og det innebærer at statsmakten skal være fordelt på tre uavhengige organer: den lovgivende makt (parlamentet), den utøvende makt (regjeringen) og den dømmende makt (domstolene). Hensikten med denne fordelingen er å skape en balanse mellom de ulike statsorganene og å hindre at en enkelt person eller gruppe får for mye makt.

Dommere og andre som jobber i domstolene har en viktig rolle i rettssystemet. De er ansvarlige for å tolke og anvende loven, og de skal sørge for at rettferdighet og likhet for loven er opprettholdt. For å kunne utføre denne rollen på en upartisk og uavhengig måte, er det viktig at dommere og andre i domstolene ikke blir påvirket av eksterne faktorer, som politiske eller økonomiske interesser.

Å lese bøker og aviser i seg selv er ikke et brudd på maktfordelingsprinsippet. Tvert imot kan det bidra til å holde dommere og andre i domstolene informert om aktuelle hendelser og utviklinger i samfunnet. Men det er viktig at dommere og andre i domstolene er i stand til å skille mellom sin personlige mening og sin profesjonelle rolle, og at de ikke lar seg påvirke av eksterne faktorer når de utfører sine plikter.

Svaret overbeviser. Ikke bare påpeker modellen feil i spørsmålets premiss, den gir også et forståelsesfullt forslag til hva den som stiller spørsmålet kanskje kan ha ment. Så får vi en generell forklaring av maktfordelingsprinsippet. På bakgrunn av dette kommer teksten, ganske så elegant, tilbake til det feilaktige premisset og forklarer hvorfor det er misforstått.

På spørsmålet om straff får vi samme overbevisende løsning:

Det ser ut til at det er en misforståelse i spørsmålet ditt. Sannsynlighetsovervekt er ikke tilstrekkelig for å dømme noen for en forbrytelse etter norsk strafferett, særlig ikke for de mest alvorlige forbrytelsene. I norsk strafferett, som i mange andre jurisdiksjoner, kreves det bevis utover enhver rimelig tvil for å dømme en person for en forbrytelse.

For å avgjøre om noen er skyldige i en forbrytelse etter norsk strafferett, følger man en prosess som består av flere trinn:

Etterforskning: Politiet etterforsker saken for å samle bevis og informasjon om den påståtte forbrytelsen. Dette kan inkludere avhør av vitner, innsamling av materielle bevis, og andre etterforskningsmetoder.
Tiltale: Dersom politiet og påtalemyndigheten mener at det er tilstrekkelig bevis for å føre en sak for retten, vil de ta ut tiltale mot den mistenkte. Tiltalen inneholder en beskrivelse av den påståtte forbrytelsen og de bevisene som støtter den.
Rettssak: Saken vil deretter bli behandlet i en domstol, hvor både aktor (på vegne av staten) og forsvarer (på vegne av den tiltalte) vil presentere sine argumenter og bevis for retten. Dommeren eller en jury vil vurdere bevisene og avgjøre om de er overbevisende nok til å dømme den tiltalte.
Beviskrav: For å dømme noen for en forbrytelse etter norsk strafferett, må bevisene være så sterke at det ikke er noen rimelig tvil om den tiltaltes skyld. Dette er et svært høyt beviskrav og er ment å sikre at uskyldige personer ikke blir dømt for forbrytelser de ikke har begått.

Sannsynlighetsovervekt er et lavere beviskrav som vanligvis brukes i sivile saker, der man skal avgjøre om det er mer sannsynlig enn ikke at en part har et krav på den andre parten. Dette beviskravet er ikke tilstrekkelig i straffesaker, der en dom kan få alvorlige konsekvenser for den tiltalte, som tap av frihet og skade på omdømme.

GPT-4 har utvilsomt lært seg å stupe. Selv med villedende premisser i spørsmålene, gir den presise og korrekte svar der den tidligere feilet. Det betyr ikke at alt GPT-4 produserer har høy kvalitet – det vil fortsatt være nødvendig å bruke sunn fornuft og kritisk vurdering. Men GPT-4 representerer utvilsomt et fremskritt fra tidligere versjoner og viser en forbedret evne til å håndtere komplekse og kontekstuelle spørsmål innenfor juridisk arbeid.

Postdoktor Hans Christian Farsethås har skrevet om ChatGPT og juridiske tekster i Lov og Rett. Artikkelen demonstrerer hvordan ChatGPT og språkmodellen den er basert på, genererer tekst og analyserer treningsgrunnlaget den er basert på, særlig med tanke på hvilke norske juridiske tekster som kan være en del av dette grunnlaget. Artikkelen avsluttes med en diskusjon av denne teknologiens forhold til norske rettskilder og juridisk metode. Les mer her (Idunn.no).

Publiseringen av denne teksten ble forsinket. Den er publisert slik den ble sendt til prosjektet 1. juni 2023.

Av Hans Christian Farsethås, Postdoktor ved Juridisk fakultet på UiB

Publisert 24. aug. 2023 10:46 - Sist endret 24. aug. 2023 13:02