Fra lek til alvor: Kan turneringer brukes til å forutsi krig?

Noen eksperter fikk mer rett enn andre på spørsmålet om hvorvidt Russland ville invadere Ukraina. Jeg tror imidlertid det finnes en egen gruppe personer som kunne ha truffet enda bedre, hvis vi hadde brukt dem sammen med ekspertene. I denne artikkelen vil jeg foreslå hvordan turneringer, som kun er lek og moro, kan brukes til å forutsi de mest alvorlige hendelsene i internasjonal politikk – krig.

Dette er den siste i en serie på tre artikler som presenterer resultater fra FFIs prediksjonsturnering (2017–2020). Hensikten med turneringen var å undersøke hvor godt det er mulig å forutsi utviklinger av relevans for norsk sikkerhet og hva som kjennetegner personene som treffer best. Alle de foreløpige resultatene er beskrevet i en ny FFI-rapport. Her oppsummeres utvalgte funn.

Den første artikkelen om resultatene fra FFIs prediksjonsturnering viste hvor vanskelig det er å forutsi sikkerhetspolitiske hendelser generelt. Den andre artikkelen oppsummerte hva som kjennetegner deltagerne som traff bedre enn andre.

I denne tredje artikkelen vil jeg fokusere på deltagerne som traff best, fordi de gir grunnlag for optimisme om mulighetene til å forutsi bedre neste gang det kan bli krig.

Jeg vil vise hvordan vi gjennom enkle og morsomme turneringer kan oppnå en mye høyere treffsikkerhet i etterretningsanalyser og forsvarsplanleggingen enn om vi kun baserer oss på eksperter. Eksperter er fortsatt de viktigste personene – også i prediksjonssammenheng – men ikke til å predikere.

Det er nødvendig å skille tydeligere mellom det å kartlegge hva som kan skje i fremtiden og det å predikere hva som vil gjøre det. Vi bør ha en ambisjon om både å kartlegge og predikere best mulig, men dette er to oppgaver som krever ulike egenskaper. For å predikere best mulig må vi la eksperter få hjelp fra andre som treffer bedre enn dem selv.

Norske superforecastere

Av alle tidligere funn innenfor prediksjon av internasjonal politikk er det mest optimistiske at det finnes en type personer som er mye bedre enn andre til å forutsi sikkerhetspolitiske hendelser, som hvorvidt Russland vil invadere Ukraina.

Dette var det mest kjente funnet i forskningsprosjektet Good Judgment Project (GJP), som er den eneste tilsvarende turneringen som har blitt gjennomført tidligere.[i] Her fant forskerne en gruppe deltagere som de kalte «superforecastere», fordi de traff langt bedre enn resten av deltagerne gjennom hele turneringen. De traff også 30 % bedre enn amerikanske etterretningsanalytikere med tilgang på gradert informasjon.[ii]

Det er derfor en god nyhet at det også i FFIs turnering finnes en gruppe norske superforecastere, som bestod av de 60 beste deltagerne. I tråd med de tidligere beskrevne funnene om den begrensede betydningen av ekspertise for treffsikkerheten, er det kun 25 av superforecasterne som hadde arbeidet med forsvars- og sikkerhetspolitiske spørsmål tidligere. De fleste var altså ikke «eksperter», men var generelt høyt utdannete personer med varierte faglige bakgrunner.

Superforecasterne scorer også litt høyere på alle de individuelle egenskapene som henger sammen med bedre treffsikkerhet generelt: De er litt mer intelligente, kunnskapsrike og åpne for at de kan ta feil. De leter etter mer informasjon fra ulike kilder og tenker mer «statistisk» når de predikerer. De stoler mindre på sin egen magefølelse og går ikke for det første som slår dem som mest sannsynlig.

FFIs superforecastere er faktisk slående like GJPs, som bekrefter at personer som treffer best deler en bestemt «profil» i form av bakgrunn, arvelige egenskaper og bestemte måter å tenke på.

Men, hvor godt treffer superforecastere i praksis? Treffer de godt nok til at vi bør tillegge prediksjonene deres vekt i forbindelse med etterretningsanalyser og forsvarsplanlegging?

Svarene på disse spørsmålene avhenger av hvordan treffsikkerhet måles.

1 . Høyere sannsynlighet til riktig svar

I FFIs turnering ble treffsikkerheten i utgangspunktet målt ut fra deltagernes evne til å oppgi høye sannsynligheter til utfall som skjer og lave til dem som ikke skjer.[iii] For eksempel anses du som mer treffsikker hvis du mente at det var 90 % sikkert at Russland ville angripe Ukraina enn om du hadde hevdet at det var 60 % sannsynlig.

Dette er også treffsikkerhetsmålet som er brukt til å identifisere superforecasterne i første omgang. I snitt scorer superforecasterne 30 % høyere enn resten av deltagerne på denne evnen til å skille sannsynlighetene til ulike utfall.

Det finnes andre måter å måle treffsikkerhet på, som kan være vel så relevante å se på.

2. Treffer på fire av fem spørsmål

En annen måte er treffprosent, som er det vi normalt assosierer med treffsikkerhet.[iv] Dette handler kun om evnen til å peke på riktig utfall (skjer det eller ikke?). Også her er superforecasterne best.

På spørsmål med to mulige utfall, som hvorvidt Russland vil invadere Ukraina eller ikke, var den gjennomsnittlige treffprosenten i turneringen 68 %, mens superforecasternes var 83 %. Det betyr at superforecasterne traff på mer enn 12 av 15 spørsmål, mens resten av deltagerne traff på 10 av 15.[v]

3. Prediksjoner til å stole på

Et siste treffsikkerhetsmål er kalibrering – og her er superforecasterne helt suverene.[vi]

Kalibrering høres komplisert ut, men handler ganske enkelt om hvor sikker du er i dine prediksjoner sammenlignet med hvor ofte du faktisk treffer. Hvis du i snitt oppgir 70 % sannsynlighet for det du tror er riktig svar og du treffer 70 % av tiden på disse spørsmålene, er du perfekt kalibrert.

Vi har imidlertid en tendens til å være sikrere enn vi har grunn til. Du sier kanskje gjerne at du er 90 % sikker på at du kommer tidsnok, men gjør du egentlig det ni av ti ganger?

Deltagerne i FFIs turnering er intet unntak. I snitt oppga deltagerne en 83 % sannsynlighet for det utfallet de trodde var riktig, men traff kun 68 % av gangene. Avstanden mellom disse to tallene gir noe psykologene kaller en «overkonfidens», som i dette tilfellet er på hele 15 %. Ekspertene er ikke bedre, med en overkonfidens på 14 %, som er på nivå med lite treffsikre eksperter i andre studier.[vii]

Til sammenligning var superforecasternes perfekt kalibrerte. Dette skyldtes ikke at de var mer forsiktig, men at de traff oftere. I snitt oppga de en 82 % sannsynlighet for svarene de trodde var riktig og traff på 83 % av dem.

Ikke bare treffer superforecasterne bedre, men vi kan altså feste mer lit til prediksjonene deres også.

Og ja – superforecasterne treffer også best, uansett treffsikkerhetsmål, på spørsmålene med de mest overraskende utfallene og på spørsmålene med de potensielt mest alvorlige konsekvensene, som hvorvidt det vil bryte ut krig.

Hvor går forholdet til Russland?

Prediksjonsturneringer er kun lek og moro, der du samler hundrevis av personer som bare bruker et par minutter på å predikere mange forskjellige spørsmål som de både har og ikke har kompetanse på. Likevel er det altså mulig å bruke dem som verktøy til å identifisere en gruppe personer, hvis prediksjoner treffer svært godt på spørsmål av reell betydning for norsk sikkerhet.

Alle spørsmålene tok nemlig utgangspunkt i temaer som vi faktisk analyserer ved FFI i forbindelse med Forsvarets langtidsplanlegging.

Ta f.eks. disse seks spørsmålene om ulike aspekter ved Norges forhold til Russland:

Vil ett eller flere russiske militære fly krenke norsk luftrom innen 2019?
Vil minst ett fly eller fartøy bli fysisk skadet i en hendelse i Østersjøregionen som involverer russiske og nordiske/Nato-lands militære styrker i 2018?
Vil Russlands ambassadør til Norge bli «kalt inn på teppet» i løpet av 2018?
Vil ett eller flere russiske marinefartøy (fregatt eller større) seile inn i fiskevernsonen rundt Svalbard i 2018 eller 2019?
Vil USA beskylde Russland for farlig opptreden med militære styrker i en konkret hendelse i nordområdene i 2020?
Vil den russiske grunnloven endres før 2021, slik at Putin kan fortsette i en lederrolle etter siste presidentperiode?

Knuser områdeekspertene

Hvis du nå tenker at disse spørsmålene må ha vært lette å forutsi, er du nok etterpåklok.

Alle spørsmålene ble stilt på bakgrunn av nylige hendelser. Russiske fly hadde nylig simulert angrep på Norge og fløyet svært nært svenske fly og amerikanske marinefartøy i Østersjøen. Det var også mange spekulasjoner om hva som ville skje i Russland etter at Putin ville gå av som president, fordi han – inntil grunnloven faktisk ble endret i 2020 – ikke hadde lov til å fortsette etter 2024.

På disse seks spørsmålene var treffprosenten til ekspertene med Russland-kompetanse 61 %. Dette er kun litt bedre enn om de bare hadde gjettet på de samme spørsmålene (50 %) – og viser nok en gang at det er vanskelig å forutsi konkrete hendelser i internasjonal politikk, selv for eksperter.

Treffsikkerheten til superforecasternes treffprosent var derimot hele 87 %. De var heller ikke forsiktige i sine prediksjoner, men oppga på forhånd en 76 % sannsynlighet for de utfallene som faktisk viste seg å stemme. Superforecasterne kunne også ha vært enda sikrere i sine prediksjoner, mens Russland-ekspertene hadde en svært overdreven tro på egen prediksjonsevne.[viii]

Eksperter fremdeles de mest avgjørende

Den suverene treffsikkerheten til superforecastere i FFIs turnering kan naturligvis skape tvil om verdien av eksperter i prediksjonssammenheng. Det er imidlertid ikke et spørsmål om enten eller.

Det er nemlig umulig å finne superforecastere uten ekspertene. Uten forsvars- og sikkerhetspolitiske eksperter, spesielt på Russland, hadde jeg ikke visst hvilke spørsmål som var relevante å stille i turneringen. Jeg hadde heller ikke klart å formulere spesifikke nok spørsmål til at det i ettertid ville være mulig å slå fast hva som ble riktig svar, som er en avgjørende forutsetning for i det hele tatt å kunne måle treffsikkerheten etterpå.

Å finne og formulere de riktige spørsmålene er noe helt annet og krever helt andre egenskaper enn det å forutsi dem. Men, begge deler er altså nødvendige for å oppnå relevant treffsikkerhet.

Kartlegging det viktigste i forsvarsplanlegging

Treffsikkerhet er heller ikke det viktigste. Det er nemlig helt umulig å forutsi det mest avgjørende spørsmålet av alle i forsvarsplanleggingen, nemlig: Hvordan den neste krigen vil se ut?

Det hjelper lite å være god til å forutsi krig generelt, hvis en tar feil den ene gangen det handler om krig i Norge – eller i Ukraina som jeg selv bommet på. Suksesskriteriet i forsvarsplanleggingen er derfor å bomme så lite at det er mulig å tilpasse seg når krigen eventuelt kommer.

Det er nettopp derfor forsvarsplanleggingsmiljøer, som mitt eget ved FFI, gjennomfører langsiktige fremtidsstudier som forsøker å kartlegge helt overordnede spørsmål, som: «Hvor går verden?».

Erfaringen fra slike studier er at de treffer på generelle trender, som at det vil komme en økonomisk maktforskyvning til Asia. De bommer imidlertid ofte på konkrete utfall, som hvilke bestemte land som vil vokse mest eller minst – helt i tråd med det turneringsresultatene viser.

Prediksjon er uunngåelig, spesielt for småstater

For småstater som Norge er det imidlertid nettopp de konkrete utviklingene som kan bety mest.

I motsetning til det amerikanske forsvaret, skal ikke det norske kunne utkjempe et par regionale kriger samtidig. Det største utfordringen i norsk forsvarsplanlegging anses å være forsvar av Norge (særlig i nord) mot ett bestemt naboland (Russland) med støtte fra allierte (spesielt USA). Som småstat har vi ikke bare færre muligheter til å påvirke utviklingen i våre omgivelser, men også mer begrensede ressurser som gjør at vi må prioritere hvilke trusler vi skal basere forsvarsplanleggingen på. Det kan derfor være ekstra viktig for småstater å være gode til å forutsi konkrete utviklinger, både på kort og lang sikt.

Ved FFI bruker vi scenarioer for å kartlegge trusler som Forsvaret muligens kan stå overfor de neste 20 årene. Hva som er «mulig» avhenger imidlertid av våre antagelser om fremtiden. Scenarioporteføljen oppdateres derfor også jevnlig for å fange opp nye utviklingstrekk som kan påvirke dette mulighetsrommet. Tidligere eksempler er cyberoperasjoner og bruk av irregulære styrker, som har gjort at situasjoner som tidligere ikke ble ansett som mulige, nå blir det.

Hva som faller innenfor og utenfor scenarioporteføljen må derfor baseres på delvis sannsynlighetsbaserte subjektive vurderinger av hva som er sannsynlig «nok» til at Forsvaret må ta høyde for det.

Det finnes imidlertid noen spørsmål om krig som er predikerbare og andre som ikke er det.

La meg derfor runde av med to eksempler på prediksjoner som er spesielt viktige i lys av Russlands invasjon av Ukraina.

Vil Russland invadere Norge?

Dagens scenarioportefølje inkluderer ikke et angrep på Norge à la invasjonen Russland nettopp har gjennomført mot Ukraina. Begrunnelsen er at «et større, oppbygget invasjonsangrep kan avskrekkes gjennom alliansens samlede militære evne». I stedet anses det mest alvorlige, realistiske scenarioet å være «et overraskende angrep, med minimale synlige angrepsforberedelser, hvor de strategiske målene kan oppnås før tellende allierte styrker kan påvirke utfallet».[ix]

Begge disse vurderingene er basert på sannsynlighetsvurderinger om fremtidige forhold som ingen kan være helt sikre på – altså prediksjoner. Selv om superforecastere kunne forutsett at Norge blir angrepet, handler disse prediksjonene om hvordan krigen vil se ut.

Hvordan fremtidige angrep kan se ut er også det mest avgjørende i forsvarsplanleggingen, men all erfaring tilsier at dette er forhold som er helt umulig å forutsi presist nok – selv ikke for parten som selv starter krigen, som Russlands «spesialoperasjon» er det siste eksempelet på.

Prediksjoner av en bestemt fremtidig krigs karakter er også umulig å etterprøve før det er for sent til å legge om forsvarsplanleggingen. Vi må likevel basere planlegging på noe – og da er kartlegging av mulighetsrommet en hensiktsmessig måte å sørge for at vi bommer minst mulig.

Hvor går det russiske regimet?

En annen type prediksjon, som det også er umulig å komme utenom i norsk forsvarsplanlegging, er hva slags Russland Norge vil måtte forholde seg.

Selv om det alltid har vært ulike tolkninger av det russiske regimets målsettinger, har de fleste innlegg i de siste års forsvarsdebatt tatt utgangspunkt i et russisk regime som er mer eller mindre likt dagens. Dette er ikke overraskende. Studier har vist at vi normalt appliserer vår forståelse av dagens situasjon direkte på spørsmål om fremtiden.[x] Det vi oppfatter som «mulig» i et 15–25 års perspektiv vil derfor alltid påvirkes av det vi tror i dag.

En videreføring av dagens russiske regime er imidlertid en høyst usikker prediksjon – og var det lenge før president Putin valgte å angripe Ukraina. Putin har allerede passert gjennomsnittlig levealder for russiske menn (68 år). Hvis han stiller til gjenvalg i 2024, vil han ved utgangen av neste periode være 77 år. Selv Putin varer ikke evig. Innenfor et vanlig forsvarsplanleggingsperspektiv på 20 år er det mest sannsynlig at Norge vil måtte forholde seg til et annet Russland enn Putins.

Uavhengig av hvorvidt Putins operasjonen i Ukraina vil fremskynde et regimeskifte eller ikke, bør invasjonen være en påminnelse om hvordan våre antagelser om det russiske regimet påvirker hva vi tror er (u)mulig at landet kan tenkes å bruke militærmakt for å oppnå.

Til forskjell fra spørsmålet om hvordan et bestemt fremtidig angrep på Norge vil se ut, er fremtiden til det russiske regimet nettopp den typen antagelser som kan brytes ned i konkrete, predikerbare spørsmål som superforecasterne er gode til å forutsi: Vil Putin sitte ut inneværende presidentperiode? Vil Putin stille til gjenvalg i 2024? Vil det skje et kuppforsøk før den tid?

Alle disse spørsmålene ble stilt i FFIs turnering og vil være mulig å slå fast svaret på om noen år. Da vil superforecasterne mest sannsynlig ha truffet bedre enn de fleste andre.

Leke oss til bedre treffsikkerhet

Jeg mener derfor at vi bør ha en ambisjon om å treffe best mulig på det som kan predikeres, nettopp for å bomme minst mulig på spørsmålene som kun kan kartlegges. Selv om det er umulig å forutsi hvordan et angrep på Norge vil se ut, er det mulig å forutsi de mest sannsynlige utfallene av konkrete utviklinger som vi uansett gjør antagelser om i forsvarsplanleggingen.

Et første steg er å skille tydeligere mellom kartlegging av hva som kan skje og prediksjon av hva som vil skje når vi skal analysere spørsmål om fremtidig krig. I dag gjøres ofte begge deler av de samme forskerne, analytikerne og offiserene, men alt tyder på at dette er to forskjellige oppgaver som krever ulike evner.

Ingen er bedre egnet enn eksperter til å kartlegge hvor Russland kan gå. Denne evnen til kartlegging er også den viktigste i både forsvarsplanlegging og etterretning. Når vi derimot beveger oss over til den spesifikke oppgaven med å vurdere sannsynlighetene for hvilken retning landet faktisk vil gå i, er det superforecasternes egenskaper og tilnærminger som er de mest relevante.

Det går selvfølgelig an å være både ekspert og superforecaster, men de færreste superforecastere er eksperter og de færreste eksperter er superforecastere. I stedet kan vi bruke superforecastere til å etterprøve prediksjonene som i dag gjøres innenfor små og ofte lukkede fagmiljøer med kun eksperter rekruttert med utgangspunkt i helt andre kriterier enn det som kreves for prediksjon.

[i] Mellers, B. mfl. (2015), ‘Identifying and Cultivating Superforecasters as a Method of Improving Probabilistic Predictions’, Perspectives on Psychological Science, 10:3, ss. 267–281.

[ii] Tetlock, P. E., Mellers, B. A. og Scobilic, J. P. (2017), ‘Bringing probability judgments into policy debates via forecasting tournaments’, Science, 355:6324, ss. 481–483.

[iii] Denne evnen ble beregnet ved hjelp av Brier-score, som er et av de vanligste scoringssystemene for å måle treffsikkerheten til sannsynlighetsbaserte prediksjoner. For mer om hvordan dette treffsikkerhetsmålet ble beregnet på ulike typer spørsmål, se https://prediksjonsturnering.ffi.no/2017/09/15/hvordan-males-prediksjonsevnen/.

[iv] Treffprosenten ble beregnet ved å måle andelen spørsmål der deltagerne oppgav høyest sannsynlighet til det riktige svaret.

[v] Deltagernes og superforecasternes treffprosent er betydelig lavere på spørsmål med flere enn to svaralternativer, men for enkelthets skyld er disse ikke inkludert her.

[vi] Kalibrering ble beregnet ved å sammenligne de gjennomsnittlige sannsynlighetsestimatene deltagerne oppgav på det de trodde var riktig svar (konfidens) med hvor ofte de faktisk traff (treffprosent). Hvis en deltagers snittprediksjon på antatt riktig svar er 70 % og treffprosenten på de samme spørsmålene også er 70 %, er deltageren perfekt kalibrert. Hvis snittprediksjonen er lavere enn treffprosenten er han underkonfident, mens hvis snittprediksjonen er høyere enn treffprosenten er han overkonfident.

[vii] I den mest kjente tidligere studien av politiske eksperters treffsikkerhet (Expert Political Judgment) var overkonfidensen 12 %. For en oppsummering av disse ekspertenes kalibrering, se Moore, Don A. mfl. (2017), ‘Confidence Calibration in a Multiyear Geopolitical Forecasting Competition’, Management Science, 63:11, ss. 3552–3565.

[viii] Mens superforecasterne hadde en underkonfidens på 6 % hadde ekspertene med Russland-kompetanse en overkonfidens på 20 % på samme spørsmål.

[ix] Johansen, Iver (2021), ‘Scenarioklasser for forsvarsplanlegging – revisjon av FFIs scenariogrunnlag’, FFI-rapport 21/01788 (Kjeller: FFI), s. 42.

[x] Dette skyldes en kognitiv bias som heter scope insensitivity. Relevansen i prediksjonssammenheng er nærmere beskrevet i Mellers mfl. (2015), ‘Identifying and Cultivating Superforecasters’, ss. 273–276.