Ga naar de inhoud

HET BEPALEN VAN OVERSTERFTE

geplaatst 16- 9 - 2023; update 18-12 - 2023

INLEIDING

Per definitie moet oversterfte worden geschat: de sterfte zoals die zich heeft voorgedaan wordt vergeleken met een situatie die zich niet heeft voorgedaan, maar die wel redelijkerwijs verwacht had kunnen worden. De verwachte waarde voor de sterfte is de uitkomst van een rekenmodel, en achter ieder model schuilen aannames. Zolang die aannames expliciet worden gemaakt kan de lezer zelf beoordelen of hij ze redelijk vindt of niet. Als hij deze aannames deelt kan hij zich ook achter de uitkomst scharen.

In dit essay geef ik een andere methode om de verwachte sterfte te schatten. De resultaten wijken aanzienlijk af van de schattingen van het CBS.

Bij deze beschouwing horen reeksen cijfers ter onderbouwing. Om de tekst niet onnodig te belasten staan de berekeningen in een Excel-file op een losse pagina.

 

1     OVERSTERFTE zoals berekend door het CBS

Op haar site geeft het CBS uitleg over de wijze waarop zij de verwachte sterfte berekent.

Bij de link voor de FAQ  staat een uitleg over de gebruikte methode. Het is verhelderend om zin voor zin te lezen wat hier precies staat:

Het verwachte aantal overledenen wanneer er geen coronapandemie was geweest, is geschat op basis van de waargenomen sterfte in 2015 tot en met 2019.

Het CBS berekent dus niet het verwachte aantal sterfgevallen voor een jaar, maar het verwachte aantal overlijdens voor dat jaar als er geen coronapandemie was geweest. Zij gebruikt daartoe niet de sterftecijfers over de direct voorgaande jaren, maar de cijfers uit een eerdere periode, namelijk de periode 2015 tot en met 2019.

Eerst wordt voor elk jaar de sterfte per week bepaald. Vervolgens wordt per week een gemiddelde van de sterfte in die week en de zes omliggende weken bepaald.

Er wordt een voorspelling gedaan op week-basis: men berekent hoeveel sterfgevallen er in een bepaalde week worden verwacht. Daartoe wordt voor ieder jaar die week (zeg: week 33) gemiddeld met de zes omliggende weken. Die gemiddelden worden samen met de uitkomsten van de andere jaren weer gemiddeld tot een verwachting. Dit is op zich een normale procedure. Als er in week 33 iets afwijkends gebeurt dat invloed heeft op de sterfte - bijvoorbeeld een hittegolf - dan zorgt deze werkwijze ervoor dat er voor een volgend jaar in week 33 geen piek in de verwachte sterfte optreedt. Middelen is dus een methode om uitschieters in de metingen wat te spreiden. Merk op dat gegevens over de leeftijd van de overledenen niet in de berekening worden betrokken.

Deze gemiddelde sterfte per week levert een benadering van de verwachte wekelijkse sterfte, er is namelijk nog geen rekening gehouden met de trendmatige vergrijzing van de bevolking. Daarom is de sterfte per week nog herschaald naar de verwachte totale sterfte voor het jaar.

Het schalingsproces wordt niet verder toegelicht. Maar juist in de herschaling zit de bevolkingsopbouw. Als de bevolking met 2 % groeit, houdt dat niet in dat er voor iedere leeftijd ook 2 % meer individuen zijn. Bepaalde leeftijdscategorieën zullen meer toenemen, en andere zullen wellicht zelfs afnemen. Zonder nadere verantwoording kunnen de resultaten uit de vorige stap niet zomaar worden geschaald. Dit kan leiden tot een systematische vertekening.


Voor 2020 is de verwachte sterfte 153 402, voor 2021 is deze 154 887, voor 2022 is deze 155 493 en voor 2023 is deze 156 666. Het aantal voor 2020 is ontleend aan de Kernprognose 2019-2060, het aantal voor 2021 aan de Bevolkingsprognose 2020-2070 (exclusief de aanname van extra sterfgevallen door de coronapandemie), het aantal voor 2022 aan de Kernprognose 2021-2070 (exclusief de aanname van extra sterfgevallen door de coronapandemie) en het aantal voor 2023 aan de Kernprognose 2022-2070 (exclusief de aanname van extra sterfgevallen door de coronapandemie). [noot 1]

De voorgaande berekening op week-basis wordt niet gebruikt om de sterfte op jaarbasis te voorspellen. In die zin was het hele voorgaande verhaal helemaal niet nodig. De verwachte sterfte op jaarbasis komt uit een andere berekening, die gemaakt is in het kader van een kernprognose. Die verwachting ligt dus op voorhand vast, en volgt niet uit de eerder besproken weekcijfers.

In de genoemde bronnen staat wat die aannames zijn: voor 2021 worden er bovenop de standaard berekening 3000 extra doden verwacht t.g.v. corona. In 2022 worden er nog 1000 extra doden verwacht. In 2023 wordt de standaard berekening weer gevolgd. In de coronajaren worden de sterftecijfers vanaf 2020 niet betrokken in de prognose. In plaats daarvan blijft men zich oriënteren op de periode 2015-2019.

Eigenlijk geeft het CBS dus 2 prognoses. Een reële prognose met corona en een fictieve prognose zonder corona. De prognose zonder corona volgt het standaardmodel van het CBS, met dien verstande dat de sterftecijfers van de coronajaren terzijde worden geschoven. De prognose met corona is volgt het model, maar kent een ad-hoc aanpassing.

De marges rond de verwachte sterfte zijn geschat op basis van de waargenomen spreiding in de sterfte per week in dezelfde vijf jaar. Deze methode is met terugwerkende kracht toegepast op de verwachte sterfte vanaf week 1 in 2020.

Nu zijn we dus weer terug bij de weekcijfers. Blijkbaar worden de weekcijfers geschaald naar de – al vooraf vastliggende – jaarcijfers voor de verwachte sterfte. Rondom het verwachte (week-) sterftecijfer ligt er een zekere marge. Die marge wordt bepaald aan de hand van de jaren 2015-2019. De impliciete aanname is, dat die marge niet wezenlijk wordt beïnvloed door epidemie, en niet wordt beïnvloed door de veranderende bevolkingsopbouw.

Vanaf het begin van de corona-epidemie is de methode om tot een voorspelling voor de weekcijfers met hun marges te komen (met terugwerkende kracht) aangepast. Op zich is dit te billijken, omdat de sterfte in de eerste corona-golf uit het voorjaar van 2020 zo’n extreme waarde aanneemt, dat zij voor de navolgende jaren de verwachte sterfte in maart/april te sterk kan vertekenen.

 

Tot zover mijn commentaar op de werkwijze van het CBS om tot een voorspelling van de jaarlijkse sterfte te komen.

In dit essay probeer ik modellen te beoordelen. Het model zelf zegt niets over oorzaken van over- of ondersterfte, ook niet bij corona. We kunnen op een bepaald moment constateren dat er een verschil is tussen de voorspelling van het model en de waargenomen werkelijkheid. Daarvoor zijn verschillende verklaringen mogelijk. Eén daarvan is, dat er in de werkelijkheid iets aan de hand is waar het model geen rekening mee had kunnen houden. Iets als een epidemie. Een andere mogelijkheid is, dat er iets mis is met het model. In het overgrote deel van de gevallen zullen allebei een rol spelen.

In het vervolg negeer ik daarom de stelling dat de gepresenteerde verwachting voor sterfte (en de daarmee samenhangende onder- of oversterfte) gaat over een wereld zonder corona: dit zijn de voorspellingen die het model genereert - punt. Het enige grote verschil met het model zoals dat standaard wordt gehanteerd is, dat de sterftecijfers van de coronajaren 2020 en 2021 niet worden meegenomen in de berekening van de verwachte sterfte. Als deze jaren zouden worden meegenomen, zou dat leiden te een hogere verwachting, en dus een lagere oversterfte.

De data die het CBS over oversterfte normaliter publiceert beginnen pas op 2015. Op basis van een overzicht van de eerdere bevolkingsprognoses, is die reeks uit te breiden tot aan 2013.

In de tabel en het grafiekje zijn de onder-/oversterfte cijfers weergegeven zoals het CBS die heeft berekend:

oversterfte 2013-2022 CBS

 

2     BEREKENING van de VERWACHTE STERFTE

In het onderstaande zal ik, op basis van cijferreeksen van het CBS, een andere methode gebruiken om te bepalen hoeveel doden we in een jaar redelijkerwijs kunnen verwachten. Daarbij gebruik ik (een variant van) de methode die het CBS zelf ook gebruikt voor haar eigen kernprognoses. Het bureau beschrijft haar werkwijze als volgt:

De prognose beschrijft de verwachte ontwikkeling van de Nederlandse bevolking in de toekomst. Dit wordt berekend met het cohort-componentmodel. Dat is een simulatiemodel waarbij de bevolking aan het eind van het jaar wordt bepaald door geboorte, sterfte, migratie en veroudering te verrekenen met de bevolking aan het begin van het jaar.

Waar het accent bij de normale oversterftecijfers van het CBS ligt op het wekelijks monitoren van de totale bevolking, kies ik net als het CBS doet voor zijn kernprognoses voor een methode die uitspraken doet over de periode van een heel jaar, maar dan wel voor alle individuele cohorten. Met een cohort wordt in deze tekst bedoeld: alle mensen met hetzelfde geboortejaar.

Startpunt voor de berekening is steeds de bevolking op 1 januari van een gegeven jaar, opgesplitst naar de verschillende leeftijden. Deze gegevens zijn bij het CBS te vinden. Daarnaast publiceert het CBS sterftecijfers per cohort. Dus het aantal 40-jarigen op 1 januari van een willekeurig jaar is bekend, alsmede het aantal mensen dat aan het eind van het jaar is overleden, waarvoor geldt dat ze op 31 december 41 zouden zijn geweest. Om de invloed van extreme waarden te beperken, middel ik de cijfers over de voorgaande 3 jaar.

Met de bovenstaande gegevens kom ik voor elk cohort tot een verwachting van de sterfte in het komende jaar. Stel, ik wil weten hoeveel sterfte ik in 2013 verwacht onder de 40-jarigen. In de jaren 2010 t/m 2012 zijn er 704 mensen gestorven die dat jaar 41 konden worden, op een totaal van 779068 40-jarigen op 1 januari (alle jaren opgeteld). De waarschijnlijkheid dat een 40-jarige overlijdt is dan (704/779068 =) 0,000903644. Om de verwachte sterfte voor 2013 te bepalen vermenigvuldig ik dit met het aantal 40-jarigen op 1 januari 2013. Dat komt uit op (0,000903644 x 237477 =) 215,946. De gemeten sterfte in dat jaar bedraagt in dit cohort 203.

Door dit voor alle leeftijdscohorten te doen is er een voorspelling te doen over het totaal aantal sterfgevallen in een komend jaar. Het verschil tussen de voorspelling en de gemeten sterfte is de over-/ of ondersterfte.

Deze werkwijze leidt tot een eerste model, een model waarin geen verdere aanpassingen of correcties zijn aangebracht:

oversterfte_ongecorrigeerd

Uit de gebruikte data blijkt dat van jaar op jaar de kans om het volgende jaar levend te bereiken toeneemt. In 2000 had een man van 50 jaar een kans van 0,003614 om dat jaar te overlijden. In 2020 was dat 0,002246. Die kans is in 20 jaar dus bijna gehalveerd. Ter illustratie is in de onderstaande grafiek de sterftekans (mannen) voor de leeftijden 20 - 90 jaar gegeven voor de jaren 2000 (blauw), 2010 (turquoise), 2015 (groen), 2019 (geel) en 2022 (rood). Voor de leesbaarheid is op de verticale as een log-schaal gebruikt. [noot 3] 

afbeelding_2023-12-17_162535749

Een voorspelling wordt over het algemeen beter als daarbij wordt gecorrigeerd voor bekende tendensen. De wijze waarop het CBS corrigeert is nergens toegelicht. In een recent artikel presenteren Steigstra et al. een alternatief voor het rekenmodel van het CBS. Zij geven daarbij toegang tot de gebruikte excel-bestanden, en daardoor is goed te volgen hoe ze corrigeren voor de boven gesignaleerde tendens. [noot 2]

Bij deze correctie door Steigstra wordt er gebruik gemaakt van een lineaire regressie voor de sterftekans. Bij een lineaire regressie neemt de sterftekans ieder jaar af met een vaste waarde. De sterftekans is berekend voor ieder cohort apart, zowel voor mannen als voor vrouwen.

Langs deze weg komt hij tot een voorspelling van sterfte, en dus ook tot conclusies omtrent oversterfte.  Er zijn alleen berekeningen gemaakt voor de periode 2018-2022. In die periode is de voorspelde oversterfte 1000 tot 2000 kleiner dan bij het CBS.

De uitkomsten in een grafiek weergegeven:

oversterfte Steigstra

Steigstra volgt hierbij overigens de keuze van het CBS, om de sterftecijfers van 2020 en later niet te betrekken bij de voorspelling.

Mij overtuigt de redenering omtrent de regressielijn niet. Als ik kijk naar de afname van de sterftekans vanaf 2000, dan valt het op dat er in het begin veel vooruitgang wordt geboekt, maar dat vanaf 2013 er nog nauwelijks verbetering lijkt op te treden. Dit is goed te zien in de eerdere grafiek: de lijn voor 2010 ligt helemaal onder de lijn van 2000 - hier is dus veel vooruitgang geboekt. Maar de lijnen van 2015, 2019 en 2022 blijven steeds bij elkaar in de buurt. Van een een duidelijke vooruitgang is geen sprake meer. Het lijkt me dan ook veel te optimistisch om ieder jaar een even grote absolute verbetering in te boeken. Als ik kijk naar de jaren 2013 - 2019, dan wordt er voor de gehele mannelijke bevolking een verbetering gerealiseerd met een factor 0,90403 - in 7 jaar. Dat komt neer op een factor 0,98583 per jaar. Voor de vrouwelijke helft van de bevolking zijn die waarden  0,995352 en 0,999335. We moeten tot de conclusie komen dat die jaarlijkse gezondheidswinst, al voor corona, bij de vrouwen al vrijwel tot stilstand was gekomen, en bij de mannen nog maar marginaal was.

Steigstra onderbouwt zijn keuze met grafieken voor de cumulatieve sterftekans voor 45 -60 jarigen en voor 65 - 80 jarigen. Ik heb dezelfde grafieken gemaakt, maar nu op basis van de gecorrigeerde data. Waar Steigstra een lineaire trendlijn toevoegt, voeg ik een logaritmische trendlijn toe, over de gehele periode. Ook uit deze grafieken blijkt dat de gezondheidswinst voornamelijk voor 2010 wordt behaald. De vrouwen van 65 - 80 gaan er vanaf 2013 zelfs enigszins op achteruit.

afbeelding_2023-12-10_131029996

Voor de factor waarmee de sterftekans wordt gecorrigeerd is het van belang dat het overgrote deel van de sterfte plaatsvindt in de groep 65 +, de groep waar de sterftekans nauwelijks meer verandert na 2013.

In de navolgende grafiek voor de oversterfte wordt verondersteld dat de eerder genoemde factoren voor mannen en voor vrouwen ieder jaar hetzelfde zijn - ook in de jaren na 2019. Wellicht is het mogelijk om een genuanceerder model te maken waarbij deze factor geleidelijk afneemt. Ik verwacht niet dat dat heel veel zal uitmaken, aangezien de factor bijna 1 is. Nb. de sterfte van 2020 en 2021 zijn op de gebruikelijke manier betrokken in de berekening van de verwachte sterfte. Anders dan bij het CBS en bij Steigstra et al. zijn ze niet uit de dataset verwijderd.

oversterfte, gecorrigeerd

3     VERGELIJKING VAN DE MODELLEN

  • Kallibratie van het model

Het eerste wat opvalt is, dat het CBS standaard een veel lagere  sterfte verwacht, lager dan in mijn model en lager dan de waarde die achteraf wordt gemeten. Daardoor komt het CBS vaak tot de conclusie komt dat er sprake is van oversterfte. Over de gehele periode 2013 – 2022 komt het tot een opgetelde oversterfte van 50.414. De verwachte sterfte ligt bij het CBS gemiddeld 5041 te laag, op basis van de afgelopen 10 jaar. Dat is een afwijking van ongeveer 3,27 procent.

Ik kom over de periode 2013 – 2022 tot een opgetelde oversterfte van 12.634. De verwachte sterfte ligt bij mijn model gemiddeld 1263 te laag, op basis van de afgelopen 10 jaar. Dat is een afwijking van ongeveer 0,8 procent.

De marges bij het CBS lopen van een ondersterfte van 4300 (-2,79 %) tot een oversterfte van 16085 (+10,44 %). De totale ruimte voor marge is daarmee 13,23 %. In mijn model lopen de marges van een ondersterfte van 5756 (-3,96 %) tot een oversterfte van 10277 (+6,67 %) - een ruimte van 10,63 %. De marges bij het CBS liggen meer asymmetrisch dan die van mij. Ook dat is een indicatie dat het model van het CBS niet goed is gekallibreerd.

Zowel wat betreft de gemiddelde afwijking, als wat betreft de marges doet mijn model een betere voorspelling voor het aantal mensen dat in het komende jaar zal overlijden.

Voor de coronajaren (vanaf 2020) wordt het lastig om het model van het CBS met het mijne te vergelijken. Dat is omdat vanaf 2021 het CBS geen voorspelling doet voor de werkelijkheid zoals die valt waar te nemen, maar een voorspelling voor een fictieve werkelijkheid, nl. eentje waarin er geen corona was.

Om toch een vergelijking mogelijk te maken, heb ik ook gemodelleerd wat het CBS modelleert. Dat wil zeggen dat ik de sterfte van 2020 en 2021 niet betrek in mijn berekening. Er wordt enkel voorgebouwd op de sterftecijfers van 2019 en eerder. E.e.a. leidt tot de volgende tabel met grafiek:

afbeelding_2023-12-10_140049740

Wat hier vooral wordt gedemonstreerd is het effect van het uitsluiten van de sterftecijfers uit de coronajaren. Normaliter leidt een jaar met oversterfte tot een hogere sterfteverwachting in het navolgende jaar. In deze grafiek - net als bij het CBS en bij Steigstra - gebeurt dat niet. E.e.a. wordt nog versterkt door het feit dat 2019 een jaar met ondersterfte was. Dit draagt er ook aan bij dat de verwachte sterfte laag wordt ingeschat. Het verschil tussen het wel of niet meenemen van de sterftecijfers 2020, 2021 maakt (binnen mijn model) een verschil van (31.903 - 18.113 =) 13.790. Dit is dus echt een belangrijk verschil. In de rekenwijze van het CBS is het verschil wellicht nog groter.

Vermeldenswaard is het 'zelfcorrigerend' gedrag van voorspellingen op basis van het voortschrijdend gemiddelde. Als er een onverwacht hoog aantal 60-jarigen sterft leidt dit in het volgende jaar tot een verhoogde sterfkans voor 60-jarigen. Maar cohorten worden nooit 'los' getroffen: als er veel 60-jarigen sterven, sterven er waarschijnlijk ook behoorlijk wat 59-jarigen. Dat leidt ertoe dat het volgende jaar begint met een kleiner cohort aan 60-jarigen. Aangezien de verwachting bestaat uit het product van die twee - de sterftekans x grootte van het cohort - wordt het effect van de vergrote sterftekans beperkt. Er is dus eigenlijk geen reden om bepaalde jaren met overmatige sterfte uit te sluiten van de berekening: het model corrigeert zichzelf.[noot 4]

 

4     VOORSPELLINGEN

Achteraf voorspellen maakt doorgaans niet zoveel indruk. Echter: de drie modellen (CBS, Steigstra en mijn model) doen allemaal een concrete voorspelling voor het aantal overlijdens in 2023. De voorspellingen luiden:

CBS: 163.456 StatLine - Kerncijfers van diverse bevolkingsprognoses en waarneming (cbs.nl)

Steigstra: M: 72.889 [MaleBaseline, col AF opgeteld] + F: 76.797 [FemaleBaseline, col AF opgeteld] = 149.686 [noot 5]

Mijn model: Male: 87.988;  Female: 87.851; [Samenvatting M&F, H13, I13.] Totaal: 175.839

Op het moment van schrijven zijn de voorlopige weekcijfers gepubliceerd t/m week 47. Tot nu toe staat het aantal overledenen op 150.611. Dat ligt iets boven het aantal dat in 2022 was gestorven t/m week 47. In 2022 stierven er in het totaal 170.112 mensen. De verwachting is dan ook dat 2023 iets hoger dan dat zal eindigen.

 

5     INTERPRETATIE

Modellen zijn leuk, maar wat we echt willen weten is: hoeveel bedroeg de oversterfte ten gevolge van corona?

Er zitten nogal wat haken en ogen aan deze vraag. Ten eerste is het onmogelijk te bepalen hoeveel (extra) doden er zijn gevallen ten gevolge van corona, en hoeveel ten gevolge van corona-maatregelen. Zonder aanvullende gegevens zijn die twee niet te scheiden. Ten tweede weten we niet wat er gebeurd zou zijn als corona niet was uitgebroken. Misschien was er dan wel een enorme griep-epidemie geweest. Wie de vraag naar oversterfte ten gevolge van corona stelt wil de werkelijkheid zoals die zich wel heeft voorgedaan (met corona) vergelijken met een werkelijkheid die zich niet heeft voorgedaan (zonder corona). In wezen is ieder antwoord daarom betekenisloos. Maar deze redenering ontwijkt de vraag.

Dus bij dezen: mijn beste schatting.

Als ik de oversterfte uit mijn eigen model van 2020 en 2021 optel kom ik tot een schatting van rond de 17.000. Daarbij kan ik geen verschil maken tussen slachtoffers van het virus en slachtoffers van de coronamaatregelen. Wat in elk geval opvalt is dat er in 2021 nog steeds veel corona-doden te betreuren zijn, terwijl vrijwel de hele bevolking zich heeft laten vaccineren. Dit leidt tot het vermoeden dat deze en andere maatregelen weinig effectief waren.

Ter vergelijking: op wereldschaal leidde COVID tot een sterfte van 0,09%. [noot 6] Geprojecteerd op het Nederland van 2020 zouden we dan ook 15.667 doden verwachten. Aangezien Nederland een enigszins vergrijsde bevolking heeft, is 17.000 slachtoffers redelijk in overeenstemming met die verwachting. De stelling dat alle maatregelen enig effect zouden hebben gesorteerd wordt door deze cijfers niet onderbouwd. De stelling dat de coronamaatregelen tot grote hoeveelheden slachtoffers (op de korte termijn) hebben geleid, wordt er evenmin door onderbouwd.

Deze vergelijking tussen sterfte in Nederland en sterfte op wereldschaal sterkt mij in de stelling dat de oversterfte van het CBS een statistisch artefact betreft: als het CBS gelijk heeft zijn er in 2020 en 2021 tezamen zo'n 31.000 mensen gestorven aan COVID, nog eens gevolgd door een onverklaarde oversterfte in 2022 van zo'n 15.000. In dat geval hebben we in Nederland iets heel erg raars gedaan...

Ik zou graag betoogd hebben dat de enorme oversterfte moest worden toegeschreven aan de coronamaatregelen, de vaccinaties, de uitgestelde zorg of nog iets anders. Met die overtuiging ben ik ook aan dit stuk begonnen. De cijfers laten echter een ander verhaal zien: er is sprake van oversterfte in 2020 en 2021, en die valt binnen de normale marges van een dergelijke epidemie. Het gaat dan om een oversterfte van 17.000. De rest van de ('onverklaarde') oversterfte is het gevolg van de manier waarop het CBS haar verwachting had berekend. De oversterfte zoals ik die bereken geeft geen aanleiding om te denken dat de kwaliteit van de zorg is achteruitgegaan, of dat de algemene volksgezondheid is aangetast. Vanaf 2015 blijft de baseline (de verwachte sterftekans per leeftijdscohort) behoorlijk stabiel. De sterfte van 2022 wijkt niet af van dit patroon en naar het zich laat aanzien die van 2023 ook niet. Eigenlijk is er dus niet zoveel bijzonders aan de hand. Een nogal prozaïsche en bijna banale conclusie, maar dat is nou eenmaal wat eruit komt. Het lijkt er nog het meest op dat het CBS door zijn wijze van berekenen (en van presenteren) de aard en omvang van de epidemie heeft willen aanzetten, bijvoorbeeld om het publiek te bewegen tot een coöperatieve opstelling t.a.v. de coronamaatregelen. Wat er op dit vlak wel of niet gebeurd is, en in welke mate hier sprake is van opzet, valt aan de hand van de cijfers niet te reconstrueren.

Punt van aandacht is nog wel dat verschillende statistici hebben opgemerkt dat er sprake is van verhoogde sterfte direct na een prikronde. In het licht van de bovenstaande berekening zou daar opnieuw naar gekeken moeten worden.

 

6     CONCLUSIE

De voorspellingen van het model van het CBS schieten tekort: met dezelfde gegevens zijn betere voorspellingen te doen. Dat geldt niet alleen voor de coronajaren - ook in de voorgaande periode verwacht het CBS structureel een te lage sterfte, waardoor het al snel concludeert dat er sprake is van oversterfte. Het CBS concludeert dat er in de jaren 2020 - 2022 sprake is van een totale oversterfte van iets meer dan 45.000, terwijl ik een oversterfte zie van ongeveer 18.000. Mijns inziens is de enorme oversterfte van het CBS een statistisch artefact. Deels ligt dit aan de ad-hoc ingreep om de sterfte van 2020 en 2021 niet mee te nemen in de berekening. Dit effect wordt nog versterkt omdat 2019 een jaar was met ondersterfte, waardoor de verwachte sterfte voor alle jaren daarna te laag uitvalt. Deels ligt dit aan de wijze waarop wordt gecorrigeerd voor vergrijzing en/of de verandering in de kwaliteit van de medische zorg. Naar alle waarschijnlijkheid wordt bij het CBS, net als bij Steigstra, de jaarlijkse toename in de levensverwachting te hoog ingeschat. Het jammere (en zorgelijke) is, dat het CBS geen inzicht geeft in haar berekeningen en afwegingen hieromtrent.

Steigstra ontwikkelt een alternatief model, en geeft daarbij wel volledig inzage in de wijze van berekenen. Dit stelt mij in staat om kanttekeningen te plaatsen bij zijn keuzes. Ik denk dat de keuze voor 'leeftijd bij overlijden' in plaats van 'leeftijd die bereikt zou zijn op 31 december' een ongelukkige keuze is, gegeven de wijze van berekenen. Ik denk dat het niet terecht is om - net als het CBS - de sterftecijfers uit de jaren 2020 en 2021 uit de berekening te weren. Ik denk dat de lineaire regressie die hij toepast geen recht doet aan de onderliggende werkelijkheid. Het is jammer dat niet alle cijfers correct zijn gekopieerd van het CBS. Dit vertekent zijn uitkomsten. Het gevolg is dat zijn voorspelling voor het aantal overledenen in 2023 vrijwel zeker te laag zal blijken.

Meer algemeen valt het op dat relatief kleine ingrepen in het model kunnen leiden tot enorme verschillen in de uitkomsten. Het verdient daarom m.i. aanbeveling om altijd ook een versie van 'ruwe data' mee te leveren, waardoor inzichtelijk kan worden wat alle latere correcties met die ruwe data doen.

 

 noot 1

De eerst genoemde kernprognoses is hier te downloaden Kernprognose 2019-2060: 19 miljoen inwoners in 2039 (cbs.nl). Het genoemde sterftecijfer voor 2020 wordt in de tekst niet genoemd, noch wordt er een berekening voor gegeven. Dit cijfer lijkt voort te komen uit een berekening van de toegenomen levensverwachting (p 11).

De bevolkingsprognose 2021-270 is hier te bekijken. Bevolkingsprognose 2020-2070: (cbs.nl)

In deze kernprognose bouwt men voort op de eerdere versie, maar men compenseert voor corona (hoofdstuk 4): voor 2020 verwacht men 10.000 extra sterfgevallen, voor 2021 verwacht men er 3000, voor 2022 verwacht men er 1000. Deze aanpassingen neemt het CBS dus niet mee in haar gepresenteerde oversterfte cijfers. Zij blijft uitgaan van de verwachting van het aantal sterfgevallen als er geen corona was geweest.

Hier wordt ook vermeld dat de sterftecijfers over 2020 niet worden betrokken in de prognose (4.1.1.):

De modeluitkomsten van de sterftekansen voor Nederland worden bij de Bevolkingsprognose 2020–2070 geëxtrapoleerd vanaf het gemiddelde niveau in 2018 en 2019. Vanwege de hogere sterfte door corona in 2020 wordt deze keer niet geijkt aan de raming van 2020. Deze wijkt immers af van de langetermijntrend en wordt daarom niet gebruikt in het model om de langetermijntrend te bepalen.

De kernprognose 2022-2070 is hier te vinden. Kernprognose 2022–2070: Door oorlog meer migranten naar Nederland (cbs.nl).

Hier is het CBS duidelijker (3.2.1):

Vanwege de hogere sterfte door COVID-19 in 2020 en in 2021 worden de sterftecijfers van 2020 en 2021 niet gebruikt in het model om de langetermijntrend te bepalen.

De verwachtingen uit de verschillende prognoses zijn – diep verscholen bij het CBS hier te vinden.  

noot 2

Zie: Een analyse van de oversterfte op basis van leeftijd en geslacht; de mogelijke rol van Covid-19, uitgestelde zorg en vaccins (virusvaria.nl)

noot 3

Voor deze grafiek is gebruik gemaakt van de data uit het artikel van Steigstra. Hij berekent de verwachte sterfte op basis van een individueel jaar, niet op het gemiddelde over een aantal jaren.

De onderliggende data zijn gecorrigeerd. Het betreft:

(1) Het verschil tussen 'leeftijd bij overlijden' versus 'leeftijd die op 31 december bereikt zou zijn'. Steigstra gebruikt de eerste reeks cijfers, ik gebruik de andere. Dit omdat steeds de vergelijking gaat tussen het aantal x-jarigen op 1 januari en het aantal personen uit die groep die dat jaar gestorven zijn. Van alle personen die op 1 januari x-jaar oud waren, is bekend dat ze op 31 december (x+1) jaar oud zouden zijn geweest. Dit maakt vergelijking mogelijk. Omgekeerd: het aantal x-jarigen dat overlijdt geeft geen volledige informatie over het cohort waartoe iemand behoort. Dat hangt immers af van de vraag of iemand voor of na zijn verjaardag in dat jaar is gestorven.

(2)  Correcties in de manier waarop de data van het CBS m.b.t. de omvang van populatie zijn overgenomen. Het betreft de sheets MalCnts en FemCnts, columns I t/m AJ. In de jaren 1995 - 2022 komen de cijfers die Steigstra gebruikt niet overeen met de cijfers van het CBS. Dit is o.a. te zien aan de halvering van het aantal 0-jarigen van 1994 op 1995 en de verdubbeling van 2021 op 2022. Het is niet mogelijk om te reconstrueren waar het verschil vandaan komt, maar ik gebruik de cijfers van het CBS.

Wijzigingen in de data zijn aangegeven met een kleur. De aangepaste data zijn te vinden op mijn eerdergenoemde bijbehorende Excel-pagina. Originele data zijn te vinden bij het artikel van Steigstra et al.

noot 4

Het negeren van data is alleen verantwoord in zeer bijzondere omstandigheden. Het is aan de orde als er iets incidenteels gebeurt waardoor iedere voorspelling op voorhand teniet wordt gedaan. Als er bijvoorbeeld een ongeluk met een kerncentrale gebeurt waarbij 10 % van de Nederlandse bevolking overlijdt, dan hebben alle eerdere voorspellingen over sterfte geen zin meer, en een dergelijke gebeurtenis zal zich in de nabije toekomst naar alle waarschijnlijkheid niet herhalen. In zo'n geval is het zinnig om die incidentele sterfte te negeren. De voorspellingen van het model worden slechter als men die cijfers bij de prognoses voor de navolgende jaren zou betrekken.

Bij Covid is iets dergelijks helemaal niet aan de hand. Het is een wat grotere variant van wat we kennen als een winter-griep epidemie. Het model is daarop berekend. In 2014 was er bij het CBS een ondersterfte van 4300, het jaar daarop was er een oversterfte van 5394. Hierin werd geen aanleiding gezien om de cijfers te negeren. Nergens is ook grens aangegeven waarbij de data zo uitzonderlijk zijn, dat ze buiten haakjes mogen worden geplaatst.

Zoals boven gedemonstreerd worden de voorspellingen van het model beter als deze cijfers niet worden genegeerd. Alleen dat al zou aanleiding moeten zijn om deze ingreep niet te doen.

Er is dus geen goede reden om de sterfte van deze jaren buiten haakjes te zetten. Dat is een ad-hoc ingreep, waar de betrouwbaarheid en de voorspellende waarde van een dergelijk model niet mee gediend zijn.

 

noot 5

Na correctie van de data komt de verwachte sterfte voor 2023 hoger uit. Mannen: 77.346; Vrouwen: 80.813. M+F = 158.159. Een verschil van ongeveer 8.500. Hieruit blijkt dat het incorrect invoeren van de data grote gevolgen heeft voor de conclusies die worden getrokken.

 

noot 6

Zie daarvoor Infographic: The History of Pandemics, by Death Toll (visualcapitalist.com)