Rapport

Bygg Selv eller GPT-4?

En komparativ evaluering av GPT-4 Turbo og Analyse & Tal og TrygFondens A&ttack-modeller på fem parametre

Med rapporten Bygg-Selv eller GPT-4? bidrar vi med konkret kunnskap om fordeler og ulemper ved å bruke ulike AI-baserte teknologier til klassifiseringsoppgaver av tekst, og foreslår et metodisk rammeverk for evaluering av AI-modellers resultater.

Undersøkelsen gir svar på om det lønner seg å investere i spesialbygde, «supervised» algoritmer som A&ttack, eller om de bør pensjoneres til fordel for den promptbaserte «sveitsiske lommekniven» GPT-4.

Undersøkelsen er en komparativ evaluering av våre egne klassifikasjonsmodeller A&ttack 1 og A&ttack 2.5 og den mest omtalte kommersielle AI-en på markedet, GPT-4. Brukstilfellet er identifikasjon av språklige angrep i den offentlige debatten på Facebook.

Modellene evalueres komparativt på fem parametere:
1. Ytelse – Hvor nøyaktige er modellenes resultater sammenlignet med menneskelige vurderinger?
2. Rettferdighet – Er det skjevheter i modellenes resultater?
3. Stabilitet – Hvor pålitelige er resultatene over tid?
4. Pris – Hva koster det å bruke teknologiene?
5. Strømforbruk – Hvor høyt er strømforbruket til modellene?

I tillegg tester og evaluerer vi GPT-4s annoteringspotensial:

6. Annoteringspotensial – Hva er GPT-4s mulighet for å erstatte eller supplere menneskelige annotatører i prosessen med å generere treningsdata?

Basert på evalueringen konkluderer vi at det på nåværende tidspunkt ikke vil være hensiktsmessig å bruke GPT-4 som klassifiseringsverktøy for kartlegging av angrep i den offentlige debatten på Facebook i en dansk kontekst.

A&ttack 2.5 slår GPT-4 på målstreken når det gjelder ytelse. Likevel er GPT-4s resultater markant mindre rettferdige, basert på den gjennomsnittlige parvise forskjellen i klassifiseringen for 19 beskyttede grupper. GPT-4 har også utfordringer med stabiliteten; selv over en kort periode på tre dager endrer modellen sine klassifikasjoner av 10 % av vårt testdatasett. Samtidig vil det være tre ganger dyrere å klassifisere debatten med GPT-4 enn å gjenopplære A&ttack-modellen, og CO₂-utslippet ved å bruke GPT-4 til å klassifisere angrep i den offentlige debatten vil være 150 ganger større enn med A&ttack 2.5. Vi vil ikke utelukke å bruke GPT-4 til å annotere treningsdata, men strategien vil kreve ytterligere tester som på nåværende tidspunkt bryter med OpenAIs bruksvilkår.

TrygFonden og Analyse & Tal står bak undersøkelsen, som er en metodisk tilleggsundersøkelse til vår analyse av angrep og hat i den offentlige debatten på Facebook i Danmark.

Last ned rapporten

Udgivelsesdato

1. desember 2024