oversterfte als statistisch artefact

OVERSTERFTE ALS STATISTISCH ARTEFACT

geplaatst 24- 12 - 2023; laatst bewerkt 1 - 2 - 2014

1 Inleiding

Als we de interpretatie van de sterftecijfers van het CBS volgen, was er in de jaren 2020 t/m 2022 sprake van een oversterfte van 45.000 mensen. 31.000 Daarvan in de twee coronajaren, 14.000 in het jaar dat daarop volgde. [1]
Deze cijfers zijn ronduit bizar: kijken we op wereldschaal naar het aantal COVID-slachtoffers, dan is 0,09 procent van de bevolking aan dit virus overleden. [2] Geprojecteerd op Nederland zou dat gaan om zo’n 16.000 mensen. Als er dan sprake is van een totale oversterfte van 45.000 moet er in Nederland iets heel raars zijn gebeurd. Heeft het Nederlands beleid gezorgd voor het dubbele aantal doden? Dat klinkt toch onwaarschijnlijk. En voor de oversterfte die erop volgt wordt geen enkele verklaring geboden. Het lag niet aan corona, maar waaraan dan wel?

Over- of ondersterfte is het verschil tussen een voorspelling en de werkelijkheid zoals die zich naderhand heeft voorgedaan. Als er een groot verschil ontstaat tussen de voorspelling en de werkelijkheid, dan zijn er twee mogelijkheden: 1) er is iets bijzonders aan de hand, of 2) er was iets mis met de voorspelling.

In dit artikel zal ik aannemelijk maken dat er iets mis was (en is) met de voorspellingen van het CBS.

Daarnaast zal ik laten zien dat, sinds de coronajaren, de sterfte in Nederland niet is teruggekeerd op het niveau dat verwacht mocht worden op grond van de jaren voorafgaand aan corona. Met enige reserve kunnen we dit interpreteren als onverklaarde oversterfte. Die oversterfte is dan wel aanzienlijk kleiner dan de oversterfte die het CBS ons voorhoudt.

Bij deze beschouwing horen reeksen cijfers ter onderbouwing. Om de tekst niet onnodig te belasten staan de berekeningen in een Excel-file op een losse pagina.

2 De voorspellingen van het CBS

Het CBS geeft summiere een uitleg over de wijze waarop het zijn voorspellingen doet. De verwachte ontwikkeling van de bevolking wordt berekend met het cohort-componentmodel. Dit is een simulatiemodel waarbij de bevolking aan het eind van het jaar wordt bepaald door geboorte, sterfte, migratie en veroudering te verrekenen met de bevolking aan het begin van het jaar. [3]. De jaarlijkse verwachte sterfte wordt gepubliceerd in de kernprognoses en de bevolkingsprognoses.
De voorspellingen voor 2021 en volgend zijn echter op een afwijkende manier gemaakt. De sterftecijfers van de corona-jaren 2020 en 2021 worden niet bij de berekening betrokken. In plaats daarvan blijft men zich oriënteren op de gemiddelde sterftekansen van 2018 en 2019. [4]
Op basis van zijn voorspellingen kwam het CBS over de afgelopen 11 jaar tot de volgende conclusies m.b.t. oversterfte:

3 Een alternatief model

Met de cijfers die het CBS publiceert is het mogelijk om een alternatief model te ontwikkelen om voorspellingen te doen over de sterfte in een komend jaar. De werkwijze daarbij wordt op een aparte pagina uiteengezet. Kort gezegd: voor een aantal opeenvolgende jaren wordt voor iedere leeftijd in kaart gebracht wat de kans is om te overlijden op die leeftijd. Over een aantal van deze 'baselines' wordt de trend bepaald, en die trend wordt gebruikt om een voorspelling te doen voor de navolgende jaren. De vooronderstelling daarbij is, dat de trend zich in de toekomst zal voortzetten. Ik kom tot de volgende resultaten:

Het bovenstaande baseert zich op de absolute getallen van populatie en sterfte. Als ik overga op relatieve getallen, de sterfte per 100.000 inwoners, verschijnt hetzelfde beeld: ondersterfte in 2014, en 2019, grote oversterfte in 2020, afnemend tot sterfte rond de trendlijn in 2022. De trend is continu stijgend vanaf 2010, maar die stijging maakt uit van een trend over een wat langere tijd. Kijken we naar de periode van 2000, dan zien we een keurige parabool. Door de lange aanloop wordt de vergelijking van deze parabool niet sterk beïnvloed door de jaren 2020 - 2023.

Deze grafiek is belangrijk als vergelijkingsmateriaal, omdat dit puur beschrijvend is. We verwachten dat de jaren met een hoge relatieve sterfte samenvallen met de jaren met grote oversterfte. Deze cijfers ondersteunen de gedachte dat er in 2023 weer sprake is van ondersterfte, in tegenstelling tot wat het CBS stelt.

4 Vergelijking van de twee modellen

In zijn algemeenheid doet mijn model de betere voorspelling: het verschil tussen de voorspelling en de werkelijkheid is voor de meeste jaren kleiner.

Het meest opvallende verschil zit in de voorspelling voor de jaren 2021 – 2022. De reden daarvoor is niet moeilijk te vinden: het CBS schuift de sterftecijfers van 2020 en 2021 terzijde, en het baseert zijn voorspelling voor die jaren enkel op data van voor de corona-uitbraak.
In mijn model worden die sterftecijfers op de normale manier gebruikt. Als ik (net als het CBS) deze cijfers buiten beschouwing zou laten kwam ik ook tot een veel hogere oversterfte in 2021 en 2022. Daarover later meer.

Het buiten beschouwing laten van data is een draconische ingreep, die enkel in bijzondere omstandigheden gedaan kan worden. De reden om tot deze ingreep over te gaan is de verwachting dat het wel gebruiken van deze data tot een slechtere voorspelling leidt dan wanneer deze data niet worden gebruikt. [5]

De meest voorkomende reden om data terzijde te schuiven is dat er duidelijk iets mis is gegaan bij de meting. Als je bijvoorbeeld de gemiddelde tijd meet om een marathon te lopen, en voor één van de deelnemers komt eruit dat hij het hele parcours in 15 minuten heeft afgelegd, dan weet je zeker dat er ergens iets is misgegaan. Bij het beschrijven van die gemiddelde tijd doe je er dan goed aan om deze foute meting weg te gooien. Echter: bij de sterftecijfers van het CBS is er geen reden om te denken dat er iets mis gegaan is bij de meting. De waarden voor de grootte van de populatie en de gemeten sterfte worden niet betwist en zijn ook niet verdacht. Dit kan de reden dus niet zijn.

De andere reden om data terzijde te schuiven is: de extreme gebeurtenis. Stel dat er een ramp gebeurt waarbij 10 % van de Nederlandse bevolking overlijdt. Dan hebben alle eerdere voorspellingen met betrekking tot sterfte voor dat jaar geen zin meer – die zitten er heel ver naast. Het zou nu raar zijn om de sterftecijfers van het jaar met de ramp te gebruiken om voorspellingen mee te doen voor de navolgende jaren: een dergelijke gebeurtenis zal zich in de nabije toekomst naar alle waarschijnlijkheid niet herhalen. De voorspellingen worden dus slechter als men die sterftecijfers van het rampjaar bij de prognoses voor de navolgende jaren betrekt.
Maar: iets dergelijks is in het geval van COVID ook niet aan de hand. De oversterfte gaat in het ergste jaar volgens het CBS (2021) om 16.085 extra doden. Dat gaat om 0,092 % van de bevolking. Dat zit dus niet in de orde van grootte van een echt grote ramp zoals in het gegeven voorbeeld. Er is wat dat betreft dus niet genoeg reden om over te gaan tot het weggooien van de gemeten sterftecijfers. Sterker nog: de voorspellingen worden juist beter als de sterftecijfers van 2020 worden gebruikt om een voorspelling over 2021 te doen. Dit komt onder andere omdat de epidemie langer duurde dan 1 jaar. Maar ook de voorspellingen voor 2022 (en ook voor 2023) wordt aanzienlijk beter als de sterftecijfers op de gewone manier worden gebruikt en niet worden genegeerd. Als het doel is om een zo goed mogelijke voorspelling te doen, dan kunnen we deze cijfers dus beter behouden.

De ingreep om deze data uit de dataset te weren lijkt vooral een ad hoc ingreep. De ingreep wordt nergens gemotiveerd, er wordt eenvoudigweg gesteld:

Vanwege de hogere sterfte door COVID-19 in 2020 en in 2021 worden de sterftecijfers van 2020 en 2021 niet gebruikt in het model om de langetermijntrend te bepalen.

Het is niet gebruikelijk om data niet te gebruiken enkel omdat de waarden hoger zijn dan verwacht. Bovendien is nergens aangegeven wat de grenswaarde zou moeten zijn om hiertoe over te gaan. Dat maakt het een ad hoc ingreep.

Het lijkt erop dat het CBS vreesde dat haar model zonder deze ingreep onacceptabele of onrealistische uitkomsten zou geven. Ten onrechte. Een cohort-model corrigeert in zekere zin zichzelf. Als er een onverwacht hoog aantal 60-jarigen sterft, leidt dit in het volgende jaar tot een verhoogde sterftekans voor 60-jarigen. Maar jaar-cohorten worden nooit 'los' getroffen: als er veel 60-jarigen sterven, sterven er waarschijnlijk ook behoorlijk wat 59-jarigen. Dat leidt ertoe dat het volgende jaar begint met een kleiner aantal 60-jarigen. Aangezien de verwachte sterfte bestaat uit het product van die twee - de sterftekans x grootte van het cohort - wordt in absolute aantallen het effect van de vergrote sterftekans beperkt. De kans is groter maar het cohort is kleiner. Het gaat pas mis als je de sterftekans niet laat toenemen, maar wel verder rekent met een gekrompen cohort. In dat geval krijg je een te lage verwachting van de sterfte.

5 Tussenconclusie

Door de sterftecijfers van 2020 en 2021 (ook) niet te gebruiken bij het doen van voorspellingen op de korte termijn heeft het CBS zichzelf geen dienst bewezen. De voorspellingen zijn er aanzienlijk slechter door geworden. Als over/onder-sterfte wordt gedefinieerd als het verschil tussen de voorspelling en de werkelijkheid leidt dit ertoe dat het CBS een enorme oversterfte ziet, waar ze die niet zou zien als ze stug had doorgerekend met de getallen die ze had, ook nu die getallen wat hoger uitvallen dan gewoonlijk. Strikt genomen heeft het CBS ook geen voorspelling gedaan: ze heeft uitspraken gedaan over een fictieve werkelijkheid zonder corona.

Omdat de rekenwijze van het CBS niet exact te kopiëren is, kan ik enkel schatten waar de oversterfte zou zijn uitgekomen zonder deze ingreep. Dat zal voor de jaren 2020 t/m 2022 ergens liggen tussen de 30.000 en 37.000. Dat is nog altijd aanzienlijk en het is ook duidelijk meer dan de 16.000 die we (in retrospect) normaal zouden hebben gevonden. Maar het is ook aanzienlijk minder dan de 45.000 oversterfte die het CBS nu signaleert.

Volgen we het alternatieve model, zonder verdere ingreep, dan is er slechts een geringe onverklaarde oversterfte. De oversterfte over 2020 - 2022 bedraagt daar in totaal 21.000. Als we uitgaan van 16.000 sterfte aan de corona epidemie, dan blijft er nog 5.000 onverklaard over, maar dat zou nog kunnen vallen binnen de normale marges van onzekerheid.

6 Oversterfte

Er is ook een andere manier om naar oversterfte te kijken. We zouden verwachten dat de sterftecijfers na afloop van de epidemie zouden terugkeren op het niveau van 'het normale traject'. Het normale traject is dan de ontwikkeling dat de sterftekansen jaar op jaar voor de meeste leeftijdsgroepen afnemen. We verwachten dat de overlevingskansen tijdens de epidemie (voor bepaalde groepen) tijdelijk slechter worden, maar we verwachten ook dat de structurele verbetering die we al eerder hadden gesignaleerd zich gewoon doorzet, ook al is dat niet direct meer te zien door de epidemie. Een hogere sterfte in vergelijking met die verwachting is dan ook een soort 'oversterfte'. Bij het CBS en elders wordt dit benoemd als 'de oversterfte als er geen corona was geweest'. Dit is een beetje vreemd gesteld, want dat dit is geen kenbaar of meetbaar gegeven: die epidemie was er nou eenmaal, en hoe de werkelijkheid er zonder die epidemie had uitgezien zullen we nooit weten. Er was in de coronajaren bijvoorbeeld geen griepepidemie, en misschien was die er zonder corona weer wel geweest. Waarschijnlijk bedoelt het CBS gewoon: de mate waarin de gemeten sterfte afwijkt van de sterfte die verwacht mocht worden op grond van de jaren voorafgaand aan corona.

Voorzichtigheid is echter wel geboden als men bestaande ontwikkelingen probeert door te trekken naar de toekomst. Ten eerste is het niet zeker dat trends zich voortzetten. De afgelopen decennia nam de levensverwachting toe, maar dat kan niet eindeloos doorgaan en we hebben bijna het punt bereikt waar de jaarlijkse verbetering voor verschillende leeftijdscohorten nihil is, en wellicht slaat dat op enig moment zelfs om. Dat heeft grote gevolgen voor de sterfte die we verwachten. [6] Ten tweede wordt de onzekerheid groter naarmate de data waarop we onze trend bepalen verder achter ons liggen. Niemand zou voorspellingen willen doen enkel op grond van gegevens over de sterfte tussen 1970 en 1980. In het model dat ik gebruik worden steeds de 10 voorafgaande jaren gebruikt: 2015 wordt 'voorspeld' op grond van de jaren 2005 t/m 2014. Van dat patroon wordt afgeweken als we de tendens over de jaren 2010 t/m 2019 niet alleen inzetten voor 2020, maar ook voor 2021, 2022 en 2023. De onzekerheid wordt met het jaar groter. De 10 jaren van de referentieperiode gaan steeds verder in het verleden liggen, een verleden met structureel hogere sterftecijfers, maar ook met een sterkere tendens naar een verbetering van de levensverwachting.

Om bovenstaande redenen zou ik de oversterftecijfers die ik bereken interpreteren als de maximum oversterfte - de werkelijkheid ligt waarschijnlijk ergens tussen mijn twee varianten in.

Dit alles gezegd zijnde, leidt mijn model - bij extrapolatie op grond van de jaren 2010 - 2019 - tot de volgende conclusies omtrent oversterfte:

De (maximum) oversterfte in 2020 en 2021, tijdens de epidemie, bedraagt in totaal afgerond 24.000. Bij het CBS is dat 31.000.

De (maximum) oversterfte in 2022 en 2023, na de epidemie, bedraagt afgerond 17.000. Bij het CBS is dat 20.500. [7]

Alles overziend: de oversterfte in de coronajaren 2020 en 2021 bevindt zich ergens tussen de 19.000 en 24.000. De verwachting van de sterfte is in deze jaren nog redelijk betrouwbaar. De oversterfte die we in retrospect bij corona normaal zouden vinden ligt rond de 16.000. Laten we dit getal ruim nemen, en stellen dat we een oversterfte van 18.000 ook nog een 'normaal' aantal zouden vinden. Nederland is tenslotte behoorlijk vergrijsd, en de slachtoffers waren veelal 60+. De onverklaarde oversterfte voor deze twee jaren komt dan op 3.500 (+/- 1500). Omdat er in 2020 nog nauwelijks ter zake doende maatregelen waren getroffen is het redelijk om de oversterfte van 2020 geheel toe te schrijven aan corona. De onverklaarde oversterfte wordt daarmee geheel toegeschreven aan 2021.

De jaren 2022 en 2023 zijn anders dan de twee voorgaande jaren, in die zin dat de epidemie al vroeg in 2022 officieel voorbij was. Corona is vanaf dat moment geen verklaring meer voor grote oversterfte. Dat wil zeggen dat alle oversterfte nu in de categorie 'onverklaarde oversterfte' valt. Voor de jaren 2022 en 2023 zijn de uitspraken over verwachte sterfte veel onzekerder dan voor de voorgaande jaren. De varianten 'met' en 'zonder' corona lopen ook verder uiteen. Bij wijze van schatting middel ik de waarden, en daarbij zou ik een ruime marge aanhouden. Voor 2022 kom ik dan op een onverklaarde oversterfte van 5.600 (+/- 2000), en voor 2023 op 1.500 (+/- 2500).

Dit alles brengt de totale onverklaarde oversterfte 2020 - 2023 in de buurt van de 10.600 met een marge van plus of min 6000. Dat is nog altijd aanzienlijk, maar wel veel minder dan de (51.800 - 18.000 =) minimaal 34.000 waar het CBS uiteindelijk op uitkomt.

7 Andere methode van schatten

De bovenstaande uitkomst kent een grote onzekerheid omdat we op een basis van 10 jaar proberen te extrapoleren voor een periode van 4 jaar. Ik heb gekeken wat er zou gebeuren als ik dezelfde manier van extrapoleren zou toepassen met beginjaar 2015. Het blijkt dan dat de berekende waarde en de werkelijke waarde ieder jaar verder uit elkaar gaan lopen. Het verschil neemt ieder jaar met 2000 tot 3000 toe. Dat is ook wel begrijpelijk in het licht van de ontwikkeling die eerder is weergegeven, nl. het aantal sterfgevallen per 10.000 inwoners, door de jaren heen. Het blijkt dat er een omslagpunt zit tussen 2007 en 2012. Daarvoor neemt het aantal sterfgevallen af, daarna neemt het toe. Als we ons oriënteren op de periode 2006 - 2015 zit dat omslagmoment erin. Extrapoleren komt neer op voorborduren op de raaklijn aan deze grafiek, en juist rond het omslagpunt lopen de raaklijn en de grafiek het snelst uit elkaar.

Dit is aanleiding geweest om over een langere periode te kijken, waarbij we niet meer rekenen in individuele cohorten. Kijken we naar de fractie van de bevolking die jaarlijks overlijdt, dan zien we diezelfde ontwikkeling als bij de relatieve sterfte.

$sterfte als fractie pop$

De bovenstaande trendlijn is gebaseerd op de jaren 2000 - 2019. Het is een parabool. Deze kunnen we extrapoleren naar de jaren 2020 - 2023. De voorspelde sterfte is dan de grootte van de populatie in een jaar x de berekende fractie. Dit leidt naar de volgende voorspellingen over de jaren 2013 - 2023:

$over&onder obv fracties$

We zien dat er grote oversterfte is in 2020 - 2022, en dat in 2023 er sprake is van een lichte ondersterfte. De sterfte keert nu - zoals verwacht - terug op de lijn van de voorgaande 20 jaar. De totale oversterfte 2020 -2023 bedraagt 26.733. Rekenen we met 18.000 oversterfte die verklaard kan worden door corona, dan blijven we nog zitten met zo'n 8.500 onverklaarde oversterfte. Laten we 2023 buiten beschouwing (dat is tenslotte een normaal jaar, en een ondersterfte van 1100 past ruim binnen de marges van dit model, en mag dus een gewone ondersterfte heten), dan hebben we over 2020 t/m 2022 te maken met een onverklaarde oversterfte van 9.600. Dat ligt goed in de buurt van de eerdere uitkomst van 10.600 +/- 6000.

Afgerond komen beide benaderingswijzen tot dezelfde conclusie: de onverklaarde oversterfte bedraagt ongeveer 10.000. Dat is aanzienlijk minder dan de 34.000 + waar het CBS mee komt, en die door Steigstra c.s. ook worden onderschreven.

Deze wijze van modelleren doet ook een voorspelling voor 2024. De fractie van de totale bevolking die komt te overlijden bedraagt 0,00978592. Volgens voorlopige cijfers van het CBS bedroeg de Nederlandse bevolking 179.513.318. Samen voorspelt dit, dat er in 175.646 mensen zullen overlijden. De gemiddelde afwijking van de voorspelling bedraagt 2200. In meer dan 50% van de berekende jaren zit de voorspelling er minder dan 2200 naast. Ik verwacht dus dat er in 2024 tussen de 173.446 en 177.846 mensen zullen overlijden. Dat is aanzienlijk meer dan het CBS (169.500) en Steigstra (159.500) voorspellen.

8 Conclusies

Het CBS heeft een ad hoc ingreep gedaan, waardoor zijn voorspelling slechter zijn geworden. Het waren ook geen realistische voorspellingen, maar uitspraken over de fictieve werkelijkheid van een wereld zonder corona. Als gevolg daarvan rapporteert het CBS een oversterfte die aanzienlijk te hoog is.

Oversterfte is en blijft een inschatting, die afhankelijk is van de methode die wordt gebruikt om de verwachte sterfte te modelleren. Met verschillende methoden van schatten kom ik tot de conclusie dat als de sterfte t.g.v. corona ongeveer 16.000 - 18.000 bedraagt, daarmee de onverklaarde oversterfte uitkomt rond de 9.600. Verder lijkt de sterfte in Nederland terug te keren naar het niveau dat we op basis van de lange termijn ontwikkelingen (20 jaar) mogen verwachten. In 2023 is er sprake van een lichte ondersterfte (1100), en die laat zich goed begrijpen vanuit het idee dat oversterfte altijd gevolgd wordt door ondersterfte.

De onverklaarde oversterfte rechtvaardigt onderzoek, te meer daar er een mogelijke oorzaak te vinden is de vaccinaties. Immers: de oversterfte zette pas in op het moment dat de vaccinaties werden toegediend, en zette door toen de epidemie achter de rug was maar de vaccinaties nog altijd doorgingen. In 2023 neemt de vaccinatiebereidheid (en ook het aantal toegediende vaccinaties?) af, en tegelijkertijd neemt de oversterfte af. Dit is allemaal nog geen bewijs dat de vaccinaties de oorzaak zijn van de onverklaarde oversterfte, maar het is op zijn minst een aanwijzing die we serieus zouden moeten onderzoeken...

Noten

https://www.cbs.nl/nl-nl/longread/rapportages/2023/oversterfte-en-doodsoorzaken-in-2020-tot-en-met-2022?onepage=true Deze cijfers zijn niet helemaal in lijn met de voorspellingen en uitkomsten zoals die te vinden zijn op de site van het CBS: https://opendata.cbs.nl/#/CBS/nl/dataset/70737ned/table?dl=961B3 In dit stuk wordt verder enkel gebruik gemaakt van deze laatstgenoemde cijfers.
Zie daarvoor Infographic: The History of Pandemics, by Death Toll (visualcapitalist.com)
Zie: https://www.cbs.nl/nl-nl/nieuws/2023/28/oversterfte-in-juni/oversterfte-en-verwachte-sterfte De voorspellingen die hier worden genoemd wijken weer iets af van de voorspellingen genoemd in noot 1
Zie bijvoorbeeld De kernprognose 2022-2070 Kernprognose 2022–2070: Door oorlog meer migranten naar Nederland (cbs.nl).
Ik heb ook even aan chatGPT gevraagd hoe dat zit met het negeren van data. Vraag en antwoord luidden:

You

in statistics, what are the reasons tot discard data
ChatGPT

In statistics, there are several reasons to discard or exclude certain data points from analysis. However, it's essential to note that data should not be discarded arbitrarily or without careful consideration. Here are some common reasons for discarding data:

Outliers:

Outliers are data points that deviate significantly from the rest of the data. In some cases, outliers can distort the results of statistical analyses. Removing extreme outliers may be justified, but the decision should be made cautiously, and the reasons documented.

Errors or Data Entry Mistakes:

If there are errors in data entry or measurement, it may be necessary to discard or correct those data points. This can include typos, misreadings, or any other mistakes that could compromise the accuracy of the data.

Missing Data:

If certain data points are missing for a legitimate reason (e.g., equipment malfunction, participant dropout), there are various techniques to handle missing data. However, if the missing data are not missing completely at random, exclusion may be considered.

Violation of Assumptions:

Statistical analyses often make assumptions about the data. If these assumptions are violated, it might be appropriate to exclude certain data points. For example, normality assumptions in parametric tests or homoscedasticity in regression analysis.

Data Quality Issues:

If there are doubts about the quality or reliability of certain data points, it might be reasonable to exclude them. This could include data collected through uncalibrated instruments or under conditions that compromise the validity of the measurements.

Ethical or Legal Concerns:

If there are ethical or legal issues associated with certain data points, it may be necessary to discard them. This could include data collected without proper consent or in violation of privacy regulations.

Duplicate Data:

Duplicate entries might occur due to data collection errors, and in such cases, it is usually appropriate to remove the duplicates to avoid inflating the importance of specific observations.

Influence on Results:

If certain data points have an undue influence on the results of the analysis (e.g., due to a disproportionately large weight in a weighted average), careful consideration should be given to their inclusion.

It's crucial to approach the decision to discard data with transparency and to report any exclusions in research findings. Additionally, sensitivity analyses can be performed to assess the robustness of results to the inclusion or exclusion of specific data points. Always document and justify any decisions regarding data exclusion to ensure the integrity and reproducibility of statistical analyses.
Met name op het laatste onderdeel laat het CBS het afweten: er wordt geen verantwoording afgelegd, en er wordt achteraf niet gecontroleerd of de aannames achter deze ingreep correct zijn.
Er is hier extra reden voor voorzichtigheid. Het blijkt dat de tendens zoals berekend vrij sterk dalend was in de jaren van 2000 - 2009. Daarna (in 2010 - 2019) zijn de meeste tendensen slechts zwak dalend, en voor een aantal leeftijdscohorten zelfs stijgend. Dat geldt in 2019 bijvoorbeeld voor de vrouwen van 88 jaar en ouder. De gebruikte methode kent alleen stijgend of dalend, een omslag kan op deze manier niet worden gesignaleerd. Het is dus goed denkbaar dat na 2019 voor nog meer leeftijdscohorten de trend omslaat van dalend naar stijgend. Het effect daarvan is, dat de verwachte sterfte toeneemt, waardoor de oversterfte daalt. Om dit met zekerheid te bepalen zijn andere statistische technieken vereist.
Hier is echter wel sprake van een complicerende factor bij de interpretatie van de cijfers van het CBS. Voor 2023 maakt het CBS wel gebruik van de sterftecijfers van 2022 (alleen 2020 en 2021 worden genegeerd). Daardoor gaat de verwachte sterfte omhoog en de oversterfte omlaag. Dus: wat het CBS nu aan cijfers publiceert is een soort hybride model: het is gedeeltelijk wat de verwachting zou zijn zonder corona, en gedeeltelijk ook niet...