martin
Mankinds only hope
Niet meer/vaker testen ten behoeve van de dataset zou ook onzin zijn. Nu er meer testcapaciteit is, moet je die ook gebruiken, al is het gevolg dat de dataset niet consistent meer is.
Dus is het onmogelijk om nog iets met de gegevens zoals "verhouding en/of verloop" te kunnen doen
(dat is juist mijn punt wat ik wil maken)
Even vlug uitgerekend, een kleine 5% van de bevolking schijnt het virus te hebben gehad, 5% x 17,5 miljoen is 875.000 mensen, inmiddels zijn er een kleine 10.000 overleden en dan zit je op zo'n 1,14%.
Dit is een prima voorbeeld om mijn punt te verduidelijken.
De berekening lijkt goed maar klopt dus totaal niet.
Dit komt omdat je gebruik maakt van selectieve data. Een data-analist leert op de eerste dag van zijn opleiding dat je nooit en te nimmer mag rekenen met selectieve data als deze data de basis moet gaan vormen van een verloop.
De eerste testgegevens van Sanquin waren gebaseerd op 4000 donoren. Nu is een bloeddonor sowieso al een selectieve groep.
Iemand die 70+ is en flink wat gezondheidsklachten heeft zie ik nou niet als gemiddelde bloeddonor. Zo zijn er nog flink wat criteria om bloed te mogen doneren (zoals je HB gehalte, medicijngebruik, etc etc)
Een andere factor is dat er een chronisch tekort is aan allochtone bloeddonoren. (En dat hakt er dus ook flink in want als het coronavirus zelf al wat selectiever is tussen blank en kleurling dan krijg je exponentiële afwijkingen in je data)
Dus het is selectieve data en daar kan je (vrijwel) niks mee.
Er zijn nog zoveel andere factoren waarom je er niks mee kan.
Je kan er wel flink wat uit afleiden indien je het periodiek zou herhalen maar dan nog moet je zoveel aannames gaan maken dat het alsnog onzinnig is.
Enige nuttige test is om puur willekeurig 500.000 mensen te testen en dan heb je nuttige informatie waar je zaken uit kunt afleiden.
Ik had die bloedtesten moeten schrappen uit mijn vorig bericht wat er zitten zoveel haken en ogen aan het interpreteren van deze gegevens dat het alsnog niet te doen is.
Dus laten we het hebben over op dit moment de enige nuttige grafiek waar je iets mee kan en dat is de oversterfte.
Hier kan je iets mee want nu zie je dus iets wat niemand kan weerleggen. Maar zelfs bij deze grafiek moet je een paar dingen goed proberen te nuanceren.
Die piek tussen 2017/2018 was een griepepidemie. Die laatste piek was de coranapiek. Kijk even naar het verschil in zowel hoogte als breedte.
Wat vrijwel iedereen vergeet is dat iemand van 80+ met flinke gezondheidsklachten sowieso zal sterven. Wat ik hiermee probeer duidelijk te maken is dat indien er iemand 2 maanden eerder sterft door corona hij 100% meetelt als coronadode. Als je het in een grafiek zou zetten met een interval van 3 maanden dan had je dit niet eens kunnen waarnemen.
Je kan dus niet lineair de getallen doortrekken want de zwakke ouderen die kunnen maar 1 keer doodgaan. (ik bedoel dit niet sarcastisch maar statistisch)
Nog 1 voorbeeld over "hoe cijfers te interpreteren"
(fictief voorbeeld)
Dat klinkt leuk maar hier kan je helemaal niks mee."RIVM meld dat er vandaag 100 IC bedden minder in gebruik zijn. Er zijn vandaag ook 100 corona doden gemeld."
Stel dat er van de 100 IC patiënten er 100% zou overlijden dan zou ik er niet vrolijk van worden.
Maar als je communiceer dat er 100 IC bedden minder in gebruik zijn dan klinkt het ineens een stuk minder negatief.
(20% van de corona patiënten op IC komt te overlijden dus het is gelukkig iets minder ernstig maar alsnog erg hoog)
Maar ook hier kan je niks mee want 75% van de overleden corona patiënten heeft nooit op het IC gelegen
De korte versie van dit veel te lange verhaal is dat je met de cijfers van het RIVM helemaal niks kunt afleiden zonder flinke aannames te maken over hoe je het moet/kan interpreteren.
Als ik de adviezen die het Rivm tot nu toe heeft gegeven bekijk, dan zijn ze idd zo dom.
Ik was vergeten om het woordje "sarcasme" er achter te typen maar ik bedoelde het sarcastisch.