Meteen naar de inhoud

oversterfte in 2020


[geplaatst op 7-5-2021]
  1. INLEIDING

    Per definitie moet oversterfte worden geschat: de sterfte zoals die zich heeft voorgedaan wordt vergeleken met een situatie die zich niet heeft voorgedaan, maar redelijkerwijs verwacht had kunnen worden. De waarde voor de oversterfte is de uitkomst van een rekenmodel, en achter ieder model schuilen aannames. Zolang die aannames expliciet worden gemaakt kan de lezer zelf beoordelen of hij ze redelijk vindt of niet. Pas als hij deze aannames deelt kan hij zich ook achter de uitkomst scharen.
    In dit essay ontwikkel ik een methode om de verwachte sterfte te schatten. De resultaten wijken af van de schattingen van het CBS.

    Bij deze beschouwing horen reeksen cijfers ter onderbouwing. Om de tekst niet onnodig te belasten staat het Excel-file met verschillende bladen waarin de cijfers en berekeningen te vinden zijn op een losse pagina. In de tekst zal hiernaar worden verwezen.
  1. DE WAARDEN VOOR OVERSTERFTE zoals berekend door het CBS en het RIVM

    Het CBS komt met een grafiek en een tabel die enkel 2020 beschrijven, en daardoor geen directe relatie legt met voorgaande jaren. Het lichtblauwe interval markeert de sterfte die normaal geacht wordt."
    Hoe de verwachting tot stand gekomen is wordt in deze tekst niet verantwoord. Er is in deze grafiek sprake van een ‘interval van verwachting’ van 95%. [noot 1][noot 2]

    In een ander document wordt wel ingegaan op de wijze waarop de verwachte sterfte wordt berekend. Bij de link voor de FAQ staat het volgende:
    Hoe wordt de oversterfte berekend?
    Kijk bijvoorbeeld naar week 14 van 2020. Toen stierven er in totaal 5084 mensen. Om te weten of dat meer of minder is dan we zouden verwachten, kijken we naar de gemiddelde sterfte tussen 2015 en 2019 in de weken 11 tot en met 17. We kijken naar een langere periode om te voorkomen dat heel grote schommelingen in de sterfte, door griepgolven of extreme kou of hitte, te zwaar meewegen. In de jaren 2015 tot en met 2019 overleden in week 11 tot en met 17 gemiddeld 2954 mensen per week. Als we die, aan de hand van de prognose, corrigeren voor de meest waarschijnlijke ontwikkelingen in de bevolking en de sterfte, dan komt de verwachte sterfte voor week 14 van 2020 uit op 3024 overledenen. Met ruim 5 duizend overledenen was de sterfte in week 14 van 2020 dus hoger dan verwacht. We spreken dan van een oversterfte van 2060 (5084 min 3024).
    Uit het voorbeeld blijkt dat het over dezelfde berekening en dezelfde grafiek gaat als hierboven afgebeeld. [noot 3]
    De beschreven rekenwijze baseert zich op gemiddelde sterfte van de gehele bevolking, en corrigeert daarbij voor demografische ontwikkelingen. Wat de ‘correcties’ precies inhouden wordt niet verteld. Als bijvoorbeeld alleen wordt gecorrigeerd voor de groei van de bevolking, gaat men er impliciet van uit dat de relatieve grootte van alle leeftijdsgroepen gelijk blijft, en corrigeert men dus niet voor de vergrijzing. Zo zijn er meer correcties denkbaar, waarvan het niet duidelijk is of die wel of niet zijn doorgevoerd. Zonder nadere toelichting is de kwaliteit van deze verwachting dan ook niet goed te beoordelen.

    Het CBS heeft een welbepaald doel met zijn berekeningen: men wil op weekbasis weten of men onder of boven het gemiddelde van de afgelopen jaren zit. Dit doel is richtinggevend voor de werkwijze waarbij men uitgaat van de gemiddelde sterfcijfers in eerdere jaren.

    Het RIVM komt met een iets andere grafiek:
    De waarden die het RIVM hanteert zijn afgeleid van de waarden van het CBS, al is de precieze relatie niet duidelijk. Deze grafiek komt me enigszins verdacht voor, omdat er volgens het CBS in 2019 sprake is van ondersterfte, en dat is in de RIVM-grafiek niet te zien: de ondergrens wordt dat jaar één keer aangetikt, verder bevindt het merendeel van de waarden zich aan de bovenkant van wat het RIVM normaal acht. De totale sterfte in een jaar is de oppervlakte onder de grafiek in dat jaar. Zo gezien is er in 2019 volgens het RIVM eerder sprake van oversterfte. Bij het RIVM lijkt het aangegeven interval rondom de verwachting een vast percentage afwijking te zijn, maar welk percentage dat is wordt niet vermeld.

    Ten slotte heeft ook Maurice de Hond de cijfers van het CBS op 20 december 2020 in een blog besproken.
    Uitgaande van de bevindingen van het CBS (dat op dat moment nog een oversterfte noemt van 12.500; dit cijfer later naar boven bijgesteld naar 15.200), komt Maurice tot de conclusie dat dat cijfer ongeveer 1000 lager zou uitvallen als er andere keuzes gemaakt zouden worden voor demografische correcties.

  1. BEREKENING van de VERWACHTE STERFTE

    In het onderstaande zal ik, op basis van de cijferreeksen van het CBS, een andere methode ontwikkelen om te bepalen hoeveel doden we ieder jaar redelijkerwijs kunnen verwachten.
    Waar het accent bij het CBS ligt op het wekelijks monitoren van de totale bevolking, kies ik een methode die uitspraken doet over de periode van een heel jaar, maar dan wel voor alle individuele cohorten (mensen met hetzelfde geboortejaar). Immers: als er in een week relatief veel of juist weinig sterfte is, hoeft de afwijking niet over alle leeftijden gelijkelijk verdeeld te zijn. Sterker nog: het is bekend dat 65 tot 80-jarigen en zeker 80+’ers een groter risico lopen bij het betreffende virus.

    Startpunt voor de berekening is steeds de bevolking op 1 januari van een gegeven jaar. Deze gegevens zijn bij het CBS beschikbaar. De relevante gegevens voor mijn berekening zijn overgenomen in het bijgaande Excel-sheet, op het blad ‘data’. Het eerste doel is om steeds, op basis van de gegevens die beschikbaar zijn op 1 januari, een voorspelling te doen voor 1 januari van het volgende jaar.

    Berekend wordt de jaarlijkse mutatie per cohort. Dus: op 1 januari 2015 zijn er 262.968 inwoners met de leeftijd van 50 jaar. Tussen 1 januari 2015 en 1 januari 2016 worden de meeste daarvan 51 jaar, en een aantal komen er te overlijden. Hoeveel er komen te overlijden kunnen we schatten aan de hand van de voorgaande jaren. Net als het CBS kies ik niet voor enkel het voorgaande jaar, omdat er dat jaar een incidentele hittegolf of een ziekte-uitbraak kan hebben plaatsgevonden, die een onevenredige invloed zou hebben op de berekening. Ik kies voor een periode van de voorgaande 3 jaren. Ik tel het aantal 51-jarigen op 1 januari {2015, 2014, 2013} bij elkaar op, en dat deel ik door het totaal aantal 50-jarigen op 1 januari {2014, 2013, 2012}. Dat zijn alle 50-jarigen die in de afgelopen drie jaar ook de 51 gehaald hebben. Dit getal (in het voorbeeld: 0,996815) zegt dat gemiddeld 99,6815 % van de 50-jarigen uit voorgaande jaren ook in het navolgende jaar nog leefde. Dit wordt toegepast op het aantal 50-jarigen in 2015 (dat zijn er dus 262.968), en het product  van deze twee getallen (99,6815 * 262.968) is mijn voorspelling voor het aantal 51-jarigen op 1 januari 2016. Dat is dus 262.130,4.

    Dit alles heb ik uitgewerkt voor de jaren 2013 – 2020, en is te vinden in de Excel-sheet, op de pagina ‘validiteit’ [noot 4] Het boven berekende percentage kan begrepen worden als de kans dat iemand van een bepaald cohort een jaar later nog leeft. Omdat het CBS ook vertelt hoeveel 51-jarigen er werkelijk op 1 januari 2016 waren, kunnen we precies nagaan hoe goed deze voorspelling was.

    Het aantal 51-jarigen wordt echter niet alleen bepaald door het aantal 50-jarigen in het jaar daarvoor. In het jaar kan er immers immigratie plaatsvinden, waardoor er extra 51-jarigen in 2016 zijn, of – door emigratie – juist minder. Dit speelt vooral een rol bij jongere leeftijden: bij deze wijze van berekenen is de 'kans' dat een 15-jarige ook 16 wordt groter dan 1. Dat komt doordat er meer 15-jarigen immigreren dan dat er 15-jarigen overlijden. Een migratieoverschot leidt zo naar een onderschatting van de sterfte. Zonder aanvullende gegevens is deze berekening dus niet te interpreteren als een voorspelling van de sterfte zolang er sprake is van een hoog migratie-saldo in relatie tot de sterfte in het cohort.

    Dat is echter in het kader van de beoordeling van de oversterfte t.g.v. COVID-19 geen probleem, omdat het overgrote deel van de sterfte aan die ziekte plaats heeft bij 65+ ’ers, en het overgrote deel van de migratie voornamelijk plaats heeft bij 50- ’ers. Cijfers daarover zijn ook bij het CBS beschikbaar.

    Mijn boven geschetste rekenwijze geeft een heel redelijke voorspelling, zolang die migratie over de jaren heen geen grote wijzigingen laat zien. Hoe goed die voorspelling is, is te lezen op de pagina ‘validiteit’: de voorspelling wijkt nergens meer dan 0,25% af van de werkelijke waarde. Dat betreft vrijwel altijd een onderschatting. Dit ligt aan de langzaam toenemende waarde voor het migratiesaldo vanaf 2012. In het Excel-blad het ik dat ook berekend, en het verschil tussen voorspelling en de werkelijke waarden volgt vrij precies de verandering in migratie-saldo. Daaruit volgt dat de voorspelling wat betreft de sterfte van de cohorten waar migratie geen rol speelt behoorlijk goed is.

    Mijn rekenwijze wordt gebruikt om (per cohort) op jaarbasis het aantal overlijdens te voorspellen. Het aantal doden wordt door het CBS echter niet uitgesplitst per cohort, maar slechts weergegeven in 3 grote categorieën: 0 – 65 jaar, 65 – 80 jaar en 80+.
    Ik ga ervan uit dat er in de groep 65- geen relevante oversterfte plaatsvindt. Daarom laat ik deze groep vooralsnog buiten beschouwing.
    Verder ga ik ervan uit dat de het migratiesaldo voor de 65+-groep dermate gering is, dat het bij de berekening van de verwachte sterfte verwaarloosd mag worden.

    De volledige resultaten zijn te vinden op het blad ‘voorspelde mortaliteit’.
    Hieronder staat een tabel met mijn belangrijkste bevindingen. Daar is de zien dat er (voor de berekende groepen 65 – 80 jaar, en 80+ ) in alle jaren tot 2020 sprake was van een (vaak geringe) ondersterfte:
oversterftetabel1
    Bij nadere bestudering van de cijfers blijkt ook waarom: deze wijze van berekenen gaat er in principe van uit dat (per cohort) steeds een voorspelbaar aantal mensen zal overlijden. Dit houdt geen rekening met het gegeven dat mensen steeds ouder worden. Onder het kopje ‘gemiddelde leeftijd van overlijden 65+’ is op het blad ‘voorspelde mortaliteit’ te zien, dat de gemiddelde leeftijd van overlijden tussen 2013 en 2019 oploopt van 82,23 jaar naar 82,72 jaar.
    Dit is in principe een voorspelbare tendens, en kan dus als correctiefactor worden meegenomen in de prognoses. [noot 5]
    Dit leidt tot een gecorrigeerde tabel. Het verschil met de niet-gecorrigeerde tabel is niet erg indrukwekkend, het effect is klein.
    Nog altijd kennen de jaren 2013 – 2019 een ondersterfte. [noot 6]
oversterftetabel2
    Deze getallen kunnen alleen incorrect zijn als
    • er sprake is van storende invloed door migratie. Een onderschatting van immigratie leidt naar een onderschatting van het verwachte sterftecijfer. Dit lijkt niet aan de hand te zijn. [noot 7]
    • er een of andere structurele factor is waardoor ik de sterfte onder 65+ ’ers overschat. De eerdere validatie geeft echter geen aanleiding om dat te denken.
    Berekend is hier de totale oversterfte in een jaar voor de genoemde groepen. De gevonden waarden zeggen niets over de oorzaak van de oversterfte. Het algemene idee is dat COVID-19 een belangrijke rol speelt, maar in principe zou het nog zo kunnen zijn dat alle oversterfte wordt veroorzaakt door de COVID-maatregelen, of door een andere epidemie. Zo is er in 2020 ook een kleine hittegolf geweest, die normaliter zou zorgen voor enige oversterfte. Ook lijken er, vooral in het begin van het jaar, minder verkeersdoden te zijn gevallen.

  1. SCHATTING van de totale OVERSTERFTE 2020

    In het bovenstaande heb ik voor de twee grote leeftijdsgroepen de verwachting van de sterfte afgezet tegen de sterfte zoals die heeft plaatsgevonden. Als we ervan uitgaan dat er in de groep jonger dan 50 jaar geen significant hogere sterfte heeft plaatsgevonden (noch de cijfers, nog de rapportage van CBS of RIVM geven aanleiding om te denken dat er in die groep sprake is van aanzienlijke oversterfte), dan is het enige wat nog niet is meegenomen de oversterfte in de groep tussen 50 en 65 jaar. Die zal op wat grovere wijze geschat moeten worden.

    De verwachte sterfte voor 2020 voor die hele groep zou 14017 personen bedragen, waarvan het merendeel aan de oudere kant. Gegeven dat het hier een overgangsgebied betreft en de oversterfte bij 65+ ongeveer 6% bedraagt, is een schatting van 4% oversterfte in deze groep m.i. redelijk. Het gaat dan om 560 mensen.

    Dat brengt de totale oversterfte voor 2020 op (9.890 + 560 =) 10.450 mensen. Dat is nog steeds een enorm aantal, maar het is niet excessief, gegeven dat we in de jaren daarvoor ondersterfte te maken hebben gehad. Het is aanzienlijk minder dan de schatting/berekening van het CBS (ruim 15.000).

    Dringt zich de vraag op waar het grote verschil tussen deze twee wijzen van berekenen vandaan komt. Ik vermoed dat de oorzaak erin te vinden is dat het CBS bij zijn berekeningen uitgaat van de (gemiddelde) sterfte per week voor de gehele bevolking. COVID treft immers niet de hele bevolking in gelijke mate. Dit leidt ertoe dat jongeren – met een laag sterftecijfer – een te grote invloed hebben op de berekening. Dit trekt het verwachte aantal doden (per week, maar ook per jaar) omlaag. Als je verwacht dat er weinig mensen sterven is er al snel sprake van oversterfte. Bij het CBS is ook deze grafiek te vinden:
    In 3 van de 10 jaren is er bij het CBS sprake van ondersterfte. Kijken we naar het saldo van over- en ondersterfte over de periode 2013-2020, dan is er bij het CBS sprake van een oversterfte van 19.900. [noot 3] Bij mijn berekening is er in diezelfde periode juist sprake van een ondersterfte van 9510, al zijn die cijfers niet helemaal vergelijkbaar omdat het bij het CBS handelt om de totale bevolking, en bij mij enkel om de 65+ 'ers.
    Bij het CBS is er voor 2020 per saldo over de voorgaande jaren al sprake van oversterfte, en die loopt in het jaar 2020 verder op, in mijn model wordt in het jaar 2020 de ondersterfte van de voorgaande jaren enigszins gecompenseerd door de oversterfte.

  1. CONCLUSIE

    Bij het ideale model is er over langere tijd sprake van evenveel over- en ondersterfte. Dat houdt niet in dat er even veel jaren sprake is van het een of het ander, maar wel dat die twee elkaar min of meer in evenwicht houden. Een model waarbij we ieder jaar opnieuw constateren dat er sprake is van oversterfte (of ondersterfte) is niet goed gekalibreerd.

    Bij het modelleren van de verwachte sterfte worden keuzes gemaakt. Welke keuzes dat zijn, welke data men kiest als uitgangspunt en welke correcties men daarop toepast, dat wordt allemaal bepaald door het doel van het model. Het doel van het CBS en het RIVM is om op wekelijkse basis te kunnen bepalen of er voor de gehele bevolking sprake is van over- of ondersterfte. Vanuit die optiek zijn de keuzes die ze maken goed te begrijpen.
    Zowel door de opzet van hun model als door hun resultaten heb ik echter het vermoeden dat hun modellen neigen naar een te lage verwachting van de sterfte, waardoor ze eerder zullen concluderen dat er sprake is van oversterfte.

    De rekenwijze die ik boven heb ontwikkeld heeft een ander doel, namelijk het bepalen van de verwachte sterfte op jaarbasis. Het uitgangspunt is niet de gemiddelde sterfte, maar de omvang van de verschillende cohorten. Gegeven de uitkomsten neigt mijn wijze van modelleren naar ondersterfte, al zou ik die conclusie pas met enige zekerheid trekken na een langere periode. Immers: als 2021 ook een (matige) oversterfte laat zien, neigt mijn model weer naar evenwicht.

    Het is hoe dan ook opmerkelijk dat twee modellen, afgeleid uit dezelfde datapool, tot zulke verschillende conclusies kunnen komen. Het geeft eens te meer reden om kritisch te blijven op de interpretaties die het CBS en het RIVM aan hun cijfermateriaal geven. Het is bij deze twee instituten niet altijd duidelijk wat ze hebben gemeten en wat ze hebben geconcludeerd. Immers: het aantal doden kun je tellen, maar het aantal 'extra' doden niet. Het gaat mij er niet om wie er gelijk heeft. Mijn punt is dat we als lezer moeten blijven beseffen dat de cijfers die ons worden voorgehouden niet allemaal even 'hard' zijn. Het feitenmateriaal zelf is 'hard' en onomstreden. De conclusies die we daaraan verbinden zijn vaak een stuk minder 'hard' dan wordt gesuggereerd.


noten

noot 1: het is niet alleen onduidelijk hoe dit interval tot stand gekomen is, of zelfs niet duidelijk wat het betekent. Bij een steekproef kennen we een onzekerheidsinterval, maar dit is geen steekproef. We hebben hier enkel een berekende verwachting en een empirische constatering, en die kunnen meer of minder verschillen. We kunnen om die verwachting heen een interval aanbrengen van een te kiezen breedte, waarmee we aangeven welke afwijking van onze verwachting we nog betekenisloos achten. Het interval dat het CBS aanbrengt lijkt symmetrisch te liggen rond de berekende waarde, maar de breedte varieert. Mogelijk is het lichtblauwe gebied een indicatie voor de spreiding van de data die gebruikt zijn om de verwachting te bepalen. In dat geval zegt het iets over de onzekerheid van het CBS, en niet direct over de data zelf.

noot 2: het CBS heeft in samenwerking met het AMC nog een andere methode ontwikkeld om oversterfte aan corona te meten. De beschrijving en validatie hiervan is te vinden onder deze link. De cijfermatige voorbeelden sluiten niet goed aan bij de hierboven gegeven grafiek met data. Zo vindt men bij deze methode voor de weken 11 t/m 21 een oversterfte van 10.164, terwijl in de besproken grafiek het totaal voor deze weken 8964 bedraagt.

noot 3: de gegevens zijn overgenomen op het blad ‘CBS’.

noot 4: bij de groepen 104- en 105-jarigen zijn de aantallen mensen zo gering, dat de ‘kans’ om het jaar te halen niet meer zinvol te interpreteren is. Op deze plaatsen is voor de waarde 0,8 gekozen.

noot 5: de wijze van compenseren is als volgt: over de 3 voorafgaande jaren wordt de verandering bepaald, en de 3de wortel daaruit is te verwachte verandering voor het komende jaar. Dit alles is op de voornoemde plaats berekend.

noot 6: de jaren 2013 – 2016 konden niet direct uit deze gegevens worden berekend. Uit de jaren die wel berekend zijn blijkt het verschil gering: voor ieder berekend jaar wordt de verwachting met ongeveer 125 lager dan in de eerdere berekening. Deze waarde heb ik geëxtrapoleerd voor de jaren die ik niet heb berekend. De verdeling is, dat er bij de groep 65 tot 80-jarigen verwacht wordt dat er 45 mensen minder overlijden, en bij de groep 80+ ’ers zijn dat er 80 minder.

noot 7: het CBS geeft geen nauwkeurige relatie tussen migratie en leeftijd. Er zijn enkel getallen beschikbaar van het aantal migranten ouder dan 50 jaar. Tot 2016 schommelt dit zo rond de  min 2500 per jaar. Daarna loopt het op tot plus 4000 in 2019. De exacte waarden zijn opgenomen in het blad 'data'. Dit zou een kleine vertekening van mijn verwachting tot gevolg kunnen hebben. Ik vermoed echter dat het overgrote deel van de migratie onder de 65 plaatsvindt.