Evaluering av nasjonale prøver som system

Nordisk institutt for studier av innovasjon, forskning og utdanning, NIFU, har på oppdrag fra Utdanningsdirektoratet evaluert nasjonale prøver som system. I dette faktaarket presenterer vi noen hovedfunn.

Faktaark 2013:14. Evaluering av nasjonale prøver som system (pdf)

Dette faktaarket presenterer noen hovedfunn fra prosjektet Evaluering av nasjonale prøver som system. Faktaarket er basert på en NIFU-rapport med samme navn, som forelå i april 2013. Vi gjengir kort noen av funnene når det gjelder rektorer og læreres erfaringer med nasjonale prøver, og forskernes funn med hensyn til prøvenes funksjon. Videre legger vi særlig vekt på forskernes analyse og synspunkter når det gjelder grunnlaget for offentliggjøring av resultater på nasjonale prøver for den enkelte skole og for kommuner.

Om evalueringen

NIFU, Nordisk institutt for studier av innovasjon, forskning og utdanning, har på oppdrag fra Utdanningsdirektoratet evaluert nasjonale prøver som system. Hensikten var å skape et solid kunnskapsgrunnlag for å videreutvikle administreringen og selve gjennomføringen av prøvene. Evalueringen tar ikke for seg det faktiske innholdet i eller kvaliteten på prøvene, men ser blant annet på informasjonsflyt og veiledning på tvers av nivåer i systemet, påmelding og forberedelser til prøvene, forvaltning av fritaksregler og etterarbeid og oppfølging. Evalueringen gjør rede for:

«... nasjonal og lokal praksis og holdninger til prøvene slik dette fremkommer gjennom data fra skoleeiere, skoleledere, lærere, elever og foresatte, og vurderer hvorvidt praksis er i tråd med regelverk og veiledninger for prøvene» (NIFU 4/13, s. 7).

Evalueringen bygger på et stort kvantitativt og kvalitativt datamateriale. Det er benyttet statistikk fra Skoleporten, spørreundersøkelser, intervju med skoleledere, lærere, elever og foreldre, observasjoner av gjennomføring av prøvene, samt studier av sentrale styrings- og veiledningsdokumenter.

Fakta – nasjonale prøver:

Nasjonale prøver ble gjennomført første gang i 2004 (obligatorisk fra 2005). Etter en evaluering og justering har prøvene siden 2007 vært avholdt i lesing, regning og engelsk for elever på 5. og 8. trinn. Fra 2010 har elever på 9. trinn gjennomført den samme prøven i lesing og regning som elever på 8. trinn.

Prøvene skal kartlegge i hvilken grad elevenes ferdigheter er i samsvar med målene i læreplanen, og er ment brukt av skoler og skoleeiere som grunnlag for kvalitetsutvikling i opplæringen. Nasjonale prøver er en del av Nasjonalt system for vurdering av kvalitet i grunnopplæringen (NKVS).

Noen synspunkt og erfaringer fra rektorer og lærere

De fleste skolelederne gir uttrykk for at de nasjonale prøvene har gitt dem et godt redskap til å utvikle skolen. Lærerne er mer nølende til dette. De fleste lærere mener prøvene ikke gir kunnskap om elevene som de ikke har fra før, eller at andre kartleggingsprøver gir mer konkrete tilbakemeldinger med hensyn til å utvikle elevenes læring og læringsresultater. Lærere på store skoler hvor ledelsen og lærerne arbeider kollektivt med forberedelser og bruk av resultater, ser større nytte enn lærere som opplever å være alene om gjennomføring og etterarbeid. Det er primært lærerne som avgjør hvor mye tid som skal brukes til forberedelser, og kun et mindretall av lærerne på mellomtrinnet oppgir at annen undervisning blir lagt til side for å forberede elevene til prøvene. Generelt er øving til prøver mer vanlig på 5. trinn enn på ungdomstrinnet. Forskerne finner også at fritaksreglene praktiseres ulikt.

Kort om prøvenes funksjon

Evalueringen tyder på at prøvenes funksjon som skolepolitisk styringsverktøy står forholdsvis sterkt på skoleledernivå, men litt svakere på skoleeiernivå og i liten grad blant lærerne. Prøvene skal både være et kontrollinstrument og et pedagogisk verktøy, men forskerne finner at prøvesystemet gir større uttelling for ledelsen enn for grunnplanet, og at det også er best tilpasset de store og ressursrike skolene og kommunene. De små vil oftere oppleve at kontrollfunksjonen dominerer, samtidig som det pedagogiske utbyttet er begrenset.

Offentliggjøring av prøveresultatene

Det er store forskjeller kommunene imellom når det gjelder hvorvidt resultatene på nasjonale prøver for enkeltskoler offentliggjøres. Dette er klart mest utbredt i Oslo og Akershus. På landsbasis er andelen som offentliggjør prøveresultater dobbelt så høy i de største kommunene som i de minste. Forskerne spør om dette kan skyldes at betenkeligheter med offentliggjøring er større i små kommuner, fordi usikkerheten med hensyn til resultatene her er størst.

Med utgangspunkt i den oppmerksomheten resultater fra nasjonale prøver har i media og i politiske dokumenter, ser forskerne nærmere på hvordan resultatene beregnes og presenteres på Utdanningsdirektoratet sitt nettsted Skoleporten. Bruk av aggregerte tall fra nasjonale prøver krever bevissthet om hvilken usikkerhet og eventuelle begrensninger de er forbundet med, heter det. I rapporten gis det derfor konkrete eksempler på beregninger og videre bearbeiding av resultatene.

Om bearbeiding av resultatene

Utgangspunktet for de aggregerte tallene er enkeltelevenes resultater på prøvene. Disse resultatene gis i form av et gitt antall poeng som reflekterer antallet riktige svar eleven får på prøven. Poengskalaen varierer mellom prøver og klassetrinn.

Når resultatene blir bearbeidet blir poengskalaene inndelt i mestringsnivåer, med tre nivåer for prøvene på 5. trinn og fem nivåer for prøvene på ungdomstrinnet. På Skoleporten finner man søylediagrammer som indikerer hvor stor andel av elevene som befinner seg på hvert nivå. Resultatene for den enkelte skole og kommune kan slik sammenliknes med hvordan elevene fordeler seg i forhold til den nasjonale normen. Det man ikke ser, er hvordan elevene fordeler seg innenfor det enkelte mestringsnivå.

Derimot beregnes det et gjennomsnittlig mestringsnivå ut fra hvordan elevene fordeler seg på de tre eller fem nivåene. Igjen kan skoler og kommuner sammenliknes med det nasjonale nivået. I tillegg til det gjennomsnittlige mestringsnivået rapporteres også standardavviket, som angir hvordan elevene fordeler seg rundt gjennomsnittet. Det som imidlertid ikke oppgis er antallet elever som tallene er beregnet på grunnlag av. Forskerne påpeker at det er vanlig praksis i forbindelse med statistikk, og som en tommelfingerregel kan en si at jo lavere antallet er, jo større er usikkerheten ved statistikken. Generelt vil gjennomsnittlige prøveresultater for store elevgrupper (eksempelvis for alle skoler i et fylke) vanligvis vise små endringer fra år til år, og avvikene fra landsgjennomsnittet vil gjerne være små. Samtidig kan en for samme fylke finne større endringer på selve fordelingen på mestringsnivåene, som like gjerne kan skyldes tilfeldigheter.

Statistisk usikkerhet

I NIFU-rapporten understrekes det at man må ta hensyn til den statistiske usikkerheten når man tolker tallene. På Skoleporten er ikke den såkalte feilmarginen oppgitt. Dermed framstår de aggregerte tallene som mer presise mål enn det de i realiteten er – med unntak av for noen ganske få og svært store skoler.

Feilmarginen bestemmes både av antall elever, og av hvordan de fordeler seg på mestringsnivåene. Jo større spredning i resultater og jo færre elever på de aktuelle klassetrinnene, jo større usikkerhet. For landsgjennomsnittet er dette uproblematisk, fordi elevgruppa da er svært stor. Det er når man sammenlikner med landsgjennomsnittet, at usikkerheten inntreffer. Elevgruppene er ofte svært små, og i tillegg bidrar forenklingen fra fingraderte poengskalaer til mestringsnivåer til å fortegne resultatet og øke den statistiske usikkerheten rundt gjennomsnittet. I mindre elevgrupper finner en gjerne mer ujevne fordelinger på et mestringsnivå, og faren er da at gjennomsnittet gir et direkte misvisende bilde. Selv om en på Skoleporten fraråder sammenlikning mellom skoler, er det i realiteten åpnet for dette, og da også for en rangering av skoler basert på et i mange tilfeller høyst usikkert grunnlag.

I rapporten gir man følgende eksempel: For å kunne se resultater på kommunenivå opp mot landsgjennomsnittet, og med 95 prosent sannsynlighet si at eventuelle forskjeller ikke skyldes tilfeldigheter, kreves det at kommunen minimum har 377 elever på 5. trinn. Dette gjelder kun 25 norske kommuner og ingen skoler. På Skoleporten kan resultatene også brytes ned på kjønn, men da øker usikkerheten ytterligere.

Forskerne ser videre på utviklingen over tid i en typisk norsk kommune, og problematiserer hvordan tilsynelatende store svingninger i resultater kan forklares. For uansett om tallene er statistisk holdbare, vil en måtte fortolke og kontekstualisere med hensyn til hva endringer i positiv eller negativ retning kan skyldes. Her vet vi at eksempelvis både elevgrunnlaget, skolenes jobbing med prøvene, lærerkrefter mv. vil spille inn.

Forskerne skriver:

«Nasjonale prøver som kvalitetsmål i skolen svekkes også idet elevenes prøveresultater forenkles på veien fra faktiske testskårer til gjennomsnittlige mestringsnivåer for klasser, skoler og kommuner. Disse gjennomsnittsverdiene tar ikke høyde for variasjonen innenfor mestringsnivåene og kan være direkte misvisende med faktiske prøveresultater. Dette kan gi seg svært uheldige utslag når grupper sammenlignes, for eksempel skoler innenfor samme kommune. Over 80 prosent av barneskolene har dessuten så få elever at sammenligning sjelden gir mening, fordi usikkerheten rundt resultatene er så stor. Den nytten de største skolene og kommunene kan ha av disse resultatene står ikke i forhold til den potensielle faren for å legge for stor vekt på usikre resultater som vil gjelde for flertallet av skoler og kommuner» (NIFU 4/13, s. 178).

En mulig løsning?

For å bøte på de statistiske svakhetene i dagens praksis, foreslår forskerne en alternativ presentasjon på Skoleporten. I kort innebærer det å presentere gjennomsnittet av opprinnelige prøveresultater, som er et mer presist mål enn gjennomsnittlig mestringsnivå, å oppgi feilmargin i stedet for (eller i tillegg til) standardavvik, og endelig å oppgi antallet elever som er grunnlaget for den enkelte beregning.

I skrivende stund gjenstår det å se hvorvidt forslaget fra forskerne blir tatt til følge. Det er også vanskelig å vurdere om en slik endring er tilstrekkelig mht. en mer kritisk og nyansert bruk av resultatene av nasjonale prøver i offentligheten. Uansett vil nasjonale prøver aldri kunne bli et nøyaktig mål for kvaliteten på den enkelte skole, og slik sett vil rangeringer basert på nasjonale prøver alltid være en forenkling av et svært sammensatt bilde.

Innholdet i denne publikasjonen er forankret i Utdanningsforbundets politikk og verdigrunnlag, men er ikke behandlet i Utdanningsforbundets politisk ansvarlige organer før den blir offentliggjort.

Kilder

Ledere Tester og kartlegging Grunnskole