Hvorfor tallfeste sikkerhetspolitiske prediksjoner?

Eksperters prediksjoner påvirker beslutningstageres og befolkningens forventinger om viktige politiske spørsmål, som hvordan krigen i Ukraina vil utvikle seg videre. Samtidig vet vi lite om hvor godt disse ekspertene egentlig treffer på spørsmålene de uttaler seg om. Hvor mange eksperter var det egentlig som predikerte en russisk invasjon i 2022? Hvor godt har de truffet senere i krigen? Hvordan kan vi vite hvem vi bør stole mest på?

Årsaken til at vi vet så lite om eksperters treffsikkerhet, er at de som oftest bruker vage, språklige begreper som «trolig» og «mulig» når de beskriver hvor sannsynlig de tror noe er. Dette gjør det vanskelig å måle treffsikkerheten i ettertid fordi begrepene kan tolkes slik at man fikk rett uansett utfall.

Tidligere studier har forsøkt å måle eksperters treffsikkerhet gjennom spørreundersøkelser der de tvinges til å tallfeste prediksjonene sine. Disse studiene har vist at eksperter sliter med å slå tilfeldig gjetning: Ekspertene hadde truffet like godt om de bare hadde tippet 50/50 på alle spørsmål med to mulige utfall. Samtidig er det ikke slik eksperter vanligvis uttaler seg om fremtiden på. Det er heller ikke slik prediksjoner normalt formuleres i etterretningsmiljøer, der det brukes sannsynlighetsuttrykk som tilsvarer bestemte intervaller av tallfestede sannsynligheter. I de årlige trusselvurderingene til Etterretningstjenesten og Politiets sikkerhetstjeneste (PST) skilles det for eksempel mellom «mulig» (40–60 prosent) og «sannsynlig» (60–90 prosent).

I en nylig FFI-rapport har vi derfor forsøkt å måle treffsikkerheten til norske eksperters prediksjoner om krigen i Ukraina basert på måten de selv har formulert seg på. Er det mulig å måle treffsikkerhet basert på vanlige språklige sannsynlighetsvurderinger?

Hvordan måle treffsikkerhet?

I rapporten har vi bygget på forskning om hvordan mennesker forstår ord og uttrykk som beskriver sannsynlighet. Denne forskningen viser at mennesker oppfatter sannsynlighetsuttrykk som «mulig» og «trolig» svært ulikt. En norsk studie fra 2020 bekrefter at dette også gjelder for norske etterretningsbrukere: Det er lav konsensus om 9 av 18 norske sannsynlighetsuttrykk. Selv om det er stor variasjon i hvordan mange sannsynlighetsuttrykk forstås, viser litteraturen samtidig at det stort sett er enighet om hvilke ord som betyr under 40 prosent eller over 60 prosent sannsynlighet. Dette gjør at vi kan skille mellom minst tre grader med sannsynlighet: Under 40 prosent, rundt 50 prosent og over 60 prosent. Tabellen under viser eksempler på norske sannsynlighetsuttrykk innenfor hver kategori.

Under 40 prosent

Rundt 50 prosent

Over 60 prosent

«Meget lite sannsynlig»

«Svært tvilsomt»

«Nesten umulig»

«Ikke sannsynlig»

«Usannsynlig»

«Tvilsomt»

«Lite sannsynlig»

«Mulig»

«Like sannsynlig som usannsynlig»

«Det er indikasjoner på»

«Visse forhold peker i retning av»

«Meget sannsynlig»

«Vi er overbevist om»

«Stor grad av sikkerhet»

«Sannsynlig»

«Betydelig grad av sikkerhet»

«Vi fester stor tillit til»

«Vi tror at»

Kategoriseringen av sannsynlighetsuttrykk. Basert på funn fra Halvorsen (2020).

Ved å kategorisere sannsynlighetsuttrykk på denne måten kan vi måle hvor ofte personer har pekt på riktig utfall som det mest sannsynlige. Hvis et utfall beskrives med ord som tilsvarer over 60 prosent sannsynlighet, og det faktisk skjer, regnes dette som et «treff». For eksempel uttalte en ekspert i februar at han «tror [Russland] vil annektere Donetsk og Luhansk». Ettersom Russland annekterte områdene i september 2022, regnes denne prediksjonen som treff. Hvis det derimot brukes ord som tilsvarer under 40 prosent sannsynlighet, men hendelsen likevel skjer, regnes dette som en «bom». Der det brukes utrykk som tilsvarer «rundt 50 prosent», regner vi dette som et «halvt treff», uansett utfall. På denne måten kan vi måle enkeltpersoners treffprosent – det vil si andelen treff delt på det totale antallet prediksjoner som gjøres.

Hvor godt har norske eksperter truffet om Ukraina?

Vi identifiserte de ti mest siterte norske ekspertene på spørsmål om krigen i Ukraina basert på antall treff i norske mediearkiv (se tabell under). Deretter gikk vi manuelt gjennom alle ekspertenes uttalelser i perioden juli 2021 til juni 2023. Vi kartla totalt 173 prediksjoner – det vil si uttalelser om fremtidige utfall som inkluderte en sannsynlighetsvurdering.

I snitt traff ekspertene på 81 prosent av prediksjonene de gjorde. Faktisk hadde alle ekspertene en treffprosent mellom rundt 70 og 100 prosent. Det tyder på at eksperter er betydelig bedre til å predikere enn det tidligere studier skulle tilsi. Det er imidlertid usikkert hvor imponerende denne treffprosenten er. Som vi diskuterer nærmere i rapporten, er det god grunn til å anta at den høye treffprosenten skyldes at ekspertene stort sett har predikert utfall med iboende lav sannsynlighet, for eksempel hvorvidt Russland vil angripe NATO, eller om Russland vil bruke atomvåpen. Hvis vi hadde predikert «ingen endring» fra dagens situasjon på alle de samme spørsmålene som ekspertene, hadde vi truffet omtrent like ofte (80 prosent).

Selv om den gjennomsnittlige treffprosenten er høy, er det likevel variasjon i hvor godt ekspertene har truffet på ulike temaer. Den laveste treffprosenten var på spørsmål om Russland ville gjennomføre en fullskalainvasjon, og hvordan denne ville arte seg (48 prosent). Det at mange eksperter ikke forutså fullskalainvasjonen fikk stor oppmerksomhet i media og skapte debatt om enkelteksperters troverdighet. Vi finner imidlertid ingen sammenheng mellom hvor godt eller dårlig enkelteksperter traff på spørsmål om invasjonen, og hvordan de har truffet på senere prediksjoner om den videre utviklingen. Vi bør med andre ord unngå å trekke slutninger om eksperters prediksjonsevne basert på enkeltprediksjoner.

Navn	Søketreff	Prediksjoner
Julie Wilhelmsen (NUPI)	383	11
Tormod Heier (FHS)	376	13
Tor Bukkvoll (FFI)	305	20
Jakub M. Godzimirski (NUPI)	297	18
Tom Røseth (FHS)	289	40
Palle Ydstebø (FHS)	261	11
Geir Hågen Karlsen (FHS)	229	13
Karsten Friis (NUPI)	211	29
Karen-Anna Eggen (IFS)	155	10
Cecilie Hellestveit (NAIL)	149	8

De ti mest nevnte eksperter i norske medier i forbindelse med krigen i Ukraina, juni 2021–juni 2023. Basert på mediearkivet Atekst.

Gode grunner til å tallfeste prediksjoner

Funnene våre belyser spørsmål rundt tallfesting av sannsynlighetsvurderinger som lenge har vært diskutert i etterretnings- og forskningsmiljøer. På den ene siden viser vi at det er mulig å måle eksperters treffsikkerhet, selv om de kun bruker sannsynlighetsord. Samme metode kan brukes til å måle etterretningstjenestenes prediksjoner. På den annen side illustrerer studien også begrensningene ved bruk av kun språklige sannsynlighetsuttrykk.

For det første, uten tallfestede sannsynlighetsvurderinger, mister vi muligheter til å identifisere hvilke individer som er spesielt gode (eller dårlige) til predikere. Selv om det er mulig å telle antall treff og bom basert på sannsynlighetsord, er det ikke mulig å vite nøyaktig hvor presist de har truffet eller bommet hver gang. Den gjennomsnittlige treffprosenten skjuler antageligvis betydelige forskjeller i hvor sannsynlig enkelteksperter vurderte det samme utfallet. For beslutningstagere kan det være stor forskjell på hvorvidt en ekspert mener det er 60 prosent eller 90 prosent sannsynlig med en russisk invasjon. Basert på tidligere forskning sponset av amerikansk etterretning og tilsvarende studier gjennomført av FFI er det grunn til å anta at noen av ekspertene i utvalget vårt er systematisk bedre til å oppgi høyere sannsynligheter til hendelser som inntreffer – ikke bare på enkeltspørsmål, men over tid.

For det andre kan tallfestede sannsynlighetsvurderinger gi informasjon om hvor mye vi kan stole på prediksjonene som gjøres. Kalibrering handler om evnen til å tildele sannsynligheter på en måte som samsvarer med hendelsenes faktiske frekvens. Dersom hendelsene som en ekspert anslår å være 80 prosent sannsynlige, inntreffer 80 prosent av tiden, har vi større grunn til å stole på denne ekspertens prediksjoner enn en annen ekspert som også oppgir sannsynligheter på 80 prosent, men som bare treffer 50 prosent av gangene. En stabil evne til å hevde at noe er like sannsynlig som usannsynlig, og treffe halvparten av gangene, gir ingen beslutningsstøtte. Det vi ønsker, er personer og miljøer som konsistent oppgir høy sannsynlighet til riktig utfall, og som treffer like ofte som de tror de gjør. I dag tallfestes imidlertid sannsynligheter svært sjelden, hverken i ekspert- eller etterretningsmiljøer. Det gjør det svært vanskelig å vite hvor presist det treffes, hvor mye vi kan stole på prediksjonene som gjøres, og hvem i miljøene som treffer bedre enn andre.

For det tredje kan tallfestede prediksjoner bidra til å synliggjøre ulike sannsynlighetsvurderinger som ikke nødvendigvis vil komme frem ved bruk av sannsynlighetsord. Dersom to analytikere vurderer samme utfall som henholdsvis 60 og 90 prosent sannsynlig (som begge vil beskrives som «sannsynlig» i dagens doktriner), kan avviket gi grunnlag for diskusjon, og ikke minst perspektiv- og informasjonsutveksling, som kan forbedre analyser og prediksjoner.

En siste fordel med tallfesting er at det skaper et insentiv for forbedring. Statistiker Nate Silver viser overbevisende at prediksjoner forbedres når treffsikkerhet måles, og enkeltpersoner eller -grupper ansvarliggjøres for det de hevder. Tallfestingen tvinger oss også til å tenke mer sannsynlighetsbasert, som tidligere studier har vist at øker treffsikkerheten vår.

Få gode argumenter igjen mot tallfesting

En vanlig innvending mot tallfesting er at det formidler en falsk presisjon: Tallfesting skaper et uberettiget inntrykk av hvor sikre prediksjonene er, mens flertydige (udefinerte) sannsynlighetsuttrykk viser at vurderingen er beheftet med en iboende usikkerhet.

Det er imidlertid tre svakheter ved dette argumentet. For det første, vage sannsynlighetsbegreper øker faren for at senderen og mottakeren har ulik forståelse av begrepet og dermed misforstår hverandre. Slike misforståelser kan få store konsekvenser: I forkant av USAs feilslåtte Bay of Pigs-invasjon i 1961 vurderte Joint Chiefs of Staff (JCS) at angrepet hadde «a fair chance of […] success». President John F. Kennedy og andre beslutningstakere tolket dette som at det var god grunn til å anta at operasjonen ville lykkes. JSC hadde derimot egentlig ment at sannsynligheten var «not too good».

For det andre kan tallfesting også gi uttrykk for iboende usikkerhet. Desto nærmere 50 prosent man tallfester, desto mer usikkerhet gis det uttrykk for (når det er to mulige utfall).

For det tredje er kostnaden ved ikke å tallfeste svært høy over tid. Hver prediksjon er en mulighet til å teste antagelsene våre om virkeligheten – å holde en liten del av kartet opp mot terrenget. Når vi bruker flertydige sannsynlighetsuttrykk, blir kartet utydelig, og vi går glipp av muligheten til å lære av og forbedre prediksjonene våre. For både eksperter og etterretningsmiljøer kan det bety at vi bommer mer enn nødvendig eller fortsetter å bruke metoder som egentlig ikke fungerer, uten å være klar over det.

Alt dette betyr ikke at enhver prediksjon som kommuniseres, må tallfestes. I arbeidet som ligger bak analysene, er det imidlertid få gode grunner igjen til ikke å tallfeste sannsynlighetsvurderinger som uansett gjøres.