Syg eller rask... eller måske?

Sygdom Diagnostik handler sjældent om sort-hvide svar, men snarere om at navigere i usikkerhed. Alligevel skubbes tvivlens »måske« ofte til side i klinisk praksis, hvor faste grænser og signifikansstyring dominerer. Det er en fejl, mener forfatteren til denne kronik, der argumenterer for en mere nuanceret tilgang til diagnostik og beslutningstagning.

Kronik

Carsten Enevoldsen
Specialdyrlæge i kvægsundhed, ph.d. og sektionsredaktør for animal health management ved Animal

07.04.25

At diagnosticere sygdom er centralt for dyrlægens eksistensberettigelse. Uddannelsen og erfaring har nok forsynet dyrlægen med tvivlens nådegave, så »ikke syg« ikke nødvendigvis defineres som »rask«. Tøven med at inkludere tvivlens »måske« i en efterfølgende medicinsk behandling eller anbefaling opfattes dog nemt som faglig usikkerhed af dyreejeren eller andre brugere af dyrlægens diagnostik, hvorfor »måske« udelades? Usikkerhed i faglige vurderinger er imidlertid et generelt problem.

I bogen »Noise: A Flaw in Human Judgment« (1), angiveligt en bestseller, gennemgår forfatterne, heriblandt en Nobel-prismodtager i økonomi, et for mig skræmmende spektrum af usikkerheder (»støj«) og deraf afledte fejl i bedømmelser og beslutninger i alle dele af samfundet. Dette lille skrift tager udgangspunkt i denne bog og tager en tur rundt omkring de former for faglig støj, jeg har mødt i dyrlægeverdenen.

Et centralt eksempel i bogen er en analyse fra 1974 af 50 amerikanske dommeres kriterier for kendelser, der viste, at »fraværet af konsensus var normen« (1, s 15) – fx fra 5 til 18 år i fængsel for sammenlignelige bankrøverier. Dommernes personlige holdninger indgik tydeligvis. Bogen behandler et stort antal fag og afdækker blandt andet faglig støj selv ved aflæsning af fingeraftryk (1, ss 246-256) og massive problemer indenfor psykiatri, hvor enighed om diagnosen depression var blot 4-15 % (1, s 285). Ansættelsesinterview beskrives (ofte) som ubrugelige (1, s 301).

Brug af bogens principper til belysning af støj i processen omkring udryddelsen af danske mink 3. november 2020 fik mig til at tænke på ordet støjhelvede! Bogen behandler støj i »store unikke« beslutninger i et kapitel (1, ss 34-38). Specielt bogens beskrivelse af uenighed om domfældelser gav mig mindelser om en oplevelse som nytiltrådt professor i 2002, hvor jeg fulgte fem eksaminatorer i et klinisk fag. Her var det mit bedste skøn, at der var op til to karaktertrin i forskelle mellem sammenlignelige
præstationer. I de følgende år som eksamensansvarlig oplevede jeg vanskelighederne ved at nå frem til samme forståelse af faglige præstationer og brug af karakterskala hos eksaminatorer og censorer. Tilsvarende heterogenitet i fagfællebedømmelser af publikationer oplever jeg aktuelt som tidsskriftsredaktør for mit fagområde ved et videnskabeligt tidsskrift.

Signifikans eller støj?

Som ved diagnostik uden »måske« er der i forskning et udbredt og erkendt problem med jagten på »signifikans« (2). Den såkaldte Nul-Hypotese SignifikansTest (NHST) bruges som redskab til at vurdere »chancen for, at nul-hypotesen kan producere det observerede resultat af en sammenligning« (fx forskellig virkning af præparat A versus B). Problemet opstår især, når denne chance (såkaldt p-værdi) vurderes som »signifikant« efter todeling ved en fast grænse (fx < 5 %), hvilket er analogt til sygdomsdiagnosen. Som tidsskriftsredaktør ser jeg dertil ofte den deciderede fejl (som jeg selv har begået i tidens løb), at »ikke-signifikant« bliver tolket som »ikke betydende« (analogt til »rask«). I bedste fald kan resultatet »ikke-signifikant« tolkes som »ikke-konklusivt « eller måske som »måske«!

Usikkerhed (støj) indgår i NHST, men naturen af usikkerhed og betydning deraf i konkret praksissammenhæng bliver ikke tydeliggjort i formidlingen. De såkaldte »ækvivalenstests« er langt mere informative (2), fordi praktisk betydende forskelle skal specificeres forud for testen, hvorved vi sætter rammer for praktisk betydende støj.

Meget anerkendelsesværdigt er det, at der blandt dyrlæger har været stigende bevidsthed om behov for standardisering af kliniske undersøgelser i praksis. I en undersøgelse (3) foretog 51 kvægdyrlæger 2.230 huldvurderinger på en måde, der muliggjorde vurdering af dyrlægers enighed med sig selv og med kollegaer. Variationen i de såkaldte kappaværdier til vurdering af overensstemmelse mellem bedømmelser var fra 0,2 til 0,8, hvor 1,0 er fuld overensstemmelse. Undersøgelsen demonstrerede potentialet i træning. Forskellige træningsindsatser i praksis blev iværksat for at reducere disse typer af støj (uenighed) i klinisk arbejde. Registreringer af måske ensartede bedømmelser kan imidlertid blive heterogene, når de danner grundlag for behandling og anbefalinger (4).

Celletal som diagnostisk pejlemærke – men hvor sikker er grænsen?

I praksis foreligger et stigende antal målinger som fx metaboliske markører, hvor værdien (sikkerheden) som diagnostisk test kan være beskrevet med fx sensitivitet og specificitet (5); begreber der har været del af dyrlægepensum i mindst 50 år. Selvom der således skulle være bevidsthed om usikkerhed ved diagnostiske målinger og vurderingen af disse, så er det absolut ikke ligetil at inkludere denne usikkerhed i det daglige arbejde, hvilket for mig fremgår af mine mange oplevelser med vurdering af materiale
fra praksis. Jeg vil bruge et eksempel fra en nylig publikation (6) til at demonstrere problemstillinger omkring præsentation og vurdering af støj i en vidt udbredt diagnostisk inflammationsmarkør; celletal i mælk fra individuelle malkekøer.

Figur 1 viser på den venstre lodrette akse 10-tals logaritmen til enkeltkocelletal (CT) i mælk fra ydelseskontrollen. På den højre lodrette akse er angivet p10 (10 % under værdien) og p90 (90 % under værdien) ved de vandrette linjer med angivelse af de underliggende celletalsmålinger (henholdsvis 37.000 og 1.121.000 per mL). Det vil sige 80 % af de 50 køer havde CT mellem p10 og p90. Den lodrette akse præsenterer dermed et øjebliksbillede (tværsnit) af køerne med CT-målinger.

Figur 1. Percentil-analyse af 50 datapar med kocelletal (CT) fra ydelseskontrollen (CT som log10-transformerede CT per 1.000 celler/mL) fra to konsekutive mælkeprøver i en enkelt malkekobesætning (3.+ laktation). For hver akse er 80 % af alle data mellem percentil 10 (p10) og percentile 90 (p90). Gengivet med tilladelse fra Enevoldsen (2025, »Method: How to avoid decision errors resulting from unjustified use of a general threshold or an invalid linear score to utilize somatic cell counts in dairy cows?«. https://doi.org/10.1016/j.anopes.2024.100089)

Tilsvarende kan den foregående tværsnitsmåling (her 1 måned tidligere) aflæses på den vandrette akse. Vi kan dermed betragte CT fra den vandrette akse som anamnese for de aktuelle målinger på den lodrette akse (status præsens). Nu viser cirklerne i diagrammet de sammenhørende værdier for de 50 køer. Diagonallinjen er en central reference. I den usandsynlige situation, at CT var fuldstændig uændret fra foregående til aktuel måling, ville alle punkter ligge på diagonallinjen.

CT måles verden over, og det er vidt udbredt at anvende værdien 200.000 (markeret med vandret og lodret stiplet linje) som fast grænseværdi for »diagnosen « mastitis og som beslutningsgrundlag for medicinsk behandling. Men er dette velbegrundet ud fra det CT-mønster, vi kan aflæse af grafikken? Størstedelen af de sammenhørende celletal fordeler sig i en »sky«, der er relativt tæt og symmetrisk omkring diagonallinjen. I den øverste kasse til højre, afgrænset af de to linjer for p90, ses to køer med vedvarende høje CT. I den nederste kasse til venstre, afgrænset af de to linjer for p10, ses 2-4 køer med vedvarende lave CT. Det bør være iøjnefaldende, at enkelte køer er placeret tydeligt væk fra skyen omkring diagonallinjen – flere endda helt uden for den centrale boks, der dannes af værdierne for p10 og p90. Over skyen ses en stigning i CT, mens der under skyen ses et fald.

I dette eksempel er der ikke adskillelse af grupper, hvor linjer ved 200.000 celler passerer. Der kunne være andre besætninger, hvor adskillelse ved 200.000 forekom, og det ville i givet fald vise sig med den grafiske opstilling anvendt i figur 1. Bemærk også, at eventuelle forskelle i de two værdier ved p90 udtrykker en ændring i CT-niveauet for gruppen af køer fra før til nu (her fra 1.937 til 1.121). Det vil sige brug af fx p90 som grænseværdi er dynamisk tilpasset besætningen i modsætning til en fast grænse som fx 200.000.

Med grafikken i figur 1 kan jeg begrunde en opdeling af køer i fem kategorier: 1) En gruppe tilfældigt fordelt i den centrale boks (»støj«), 2) nogle få opad (»stigning«) eller 3) nedad (»fald«) væk fra skyen, 4) nogle få vedvarende høje og 5) nogle få vedvarende lave. Som overvejende hvide blodlegemer udtrykker CT en resistensmekanisme i det »normale« yver, men CT udtrykker også en reaktion på inflammation. Dermed giver det mening at betragte de parrede målinger langs diagonalen som en kontinuert akse fra resistens (lave) til (patologisk) inflammation (høje).

I publikationen, hvorfra figur 1 stammer (6), er der henvisning til supplerende eksempler med detaljerede begrundelser for de fem kategorier samt tolkning heraf. Der er også vist metoder til at automatisere processen med opdeling i de fem kategorier, hvor det er identifikationen af støj, der er central og anderledes end ved traditionelle analyser. Princippet vil være brugbart til mange intervalskalamålinger som fx metaboliske indikatorer og til standardiserede scoreværdier som fx huld.

Når øjebliksbilleder skjuler dynamikken

Mange opgørelser af diagnostiske målinger vises som øjebliksbilleder. En styrke ved princippet i figur 1 er, at der nu er en - ganske vist simpel - anamnese. Tværsnitsundersøgelser af data er fundamentalt vanskelige at tolke, fordi vi ikke kan se dynamikken. Med anamnesen (vandret akse) kan vi (visuelt) identificere tydelige ændringer og støj i form af tætliggende punkter omkring diagonalen. Målinger af en enkelt patients tilstand (status præsens) over tid er fundamentet i den kliniske undersøgelsesmetodik,
men det er også fundamentet for såkaldt »statistisk proceskontrol« i en population (en besætning eller en organisation), hvor det også betegnes som præstationsmåling. Principperne herfor er sammenfattet (7) i begreber som »naturlig proces« (støj) og »exceptionel variation«, der adskilles af »naturlige procesgrænser«.

Denne type måling vil også identificere niveauskifte. Som illustration af ligheden mellem diagnostik og præstationsmåling kan jeg bruge min egen løbetræning gennem årene, måske rettet mod en konkurrence. Efter en løbetur kan jeg verbalt i rammen fra figur 1 kategorisere min løbedag i én af disse: 1) status quo, stort set som det plejer (støj), 2) en rigtig god dag, 3) en god dag, lige så god som sidste gang (fremgang), 4) en rigtig dårlig dag og 5) en dårlig dag, lige så dårlig som sidste gang (tilbagegang).

Hvor informativ ville min træningsjournal have været, såfremt jeg havde registreret tid per km som under 5 minutter eller ej? Vi er nu fremme ved, hvad jeg betegner som todelingens forbandelse i diagnostik. Todeling af data medfører et massivt tab af information og giver ofte vildledende resultater, specielt ved deling med fast grænse som illustreret med »5 %-signifikans« og »200.000 celler« i eksemplerne ovenfor.

Vurdering af ændring fra gang til gang i en proces er nødvendig for at identificere støj og dermed mindske risikoen for at reagere på støj; øjebliksbilleder viser dermed ikke støj. Vi er også ved grundreglen i medicin: »Først og fremmest, gør ikke skade«. Unødvendige medicinske behandlinger eller andre interventioner er ikke kun omkostninger, de kan også være skadelige. Den medicinske grundregel om ikke at skade indgår reelt også i titlen på denne tænksomme artikel (8): »Don’t just do something, stand there! The value and art of deliberate clinical inertia«. Argumentet for »inerti« kan også udledes af »Dr. Deming’s funnel experiments« med proceskontrol (https://deming.org/explore/the-funnel-experiment/), der eksemplificerer, at justering af en stabil proces udelukkende drevet af naturlig variation (se ovenfor) vil øge variationen i processen og dermed mindske forudsigeligheden; intervention afledt af helt tilfældige impulser kan altså være potentielt skadelig.

Da jeg i 1981 trådte mine første praksisstøvler, fik jeg indprentet, at var jeg i tvivl om diagnosen (skete ikke sjældent), så skulle jeg tage ansvaret fra dyreejeren og af egen drift se dyret igen. Det lærte jeg meget af. Altså »ro på« - det kan være frugtbart at vente og tænke til i morgen, som anbefalet i nr. 111 i Højskolesangbogen (19. udgave) »Du ska få en dag i mårå« (lyt med her: https://youtu.be/Gyy1qmTF94Y?si=eBnh9qgwQKs-0GBbf).

Referencer

Daniel Kahneman, Olivier Sibony & Cass Sunstein. 2021. Noise : A Flaw in Human Judgment. Little, Brown Spark; Hachette Book Group. ISBN 978-0-00-830899-5. 452 sider. https://readnoise.com/ https://en.wikipedia.org/wiki/Noise:_A_Flaw_in_Human_Judgment
Enevoldsen, C. 2025. Videnskabelige begrundelser. Som notat, ’Videnskabelige_begrundelser_forklaringer_CE_23Jan25.pdf’ her: https://doi.org/10.17605/OSF.IO/3F2GS
Kristensen, E.L., Dueholm, L., Vink, D., Andersen, J.E., Jakobsen, E.B., Illum-Nielsen, S., Petersen, F.A., Enevoldsen, C. 2006. Within- and Across-Person Uniformity of Body Condition Scoring in Danish Holstein Cattle. Journal of Dairy Science, Volume 89, Issue 9, 3721 – 3728. DOI: 10.3168/jds.S0022-0302(06)72413-4. https://www.journalofdairyscience.org/article/S0022-0302(06)72413-4/fulltext
Lastein, D.B., Vaarst, M. & Enevoldsen, C. 2009. Veterinary decision making in relation to metritis - a qualitative approach to understand the background for variation and bias in veterinary medical records. Acta Vet Scand 51, 36. https://doi.org/10.1186/1751-0147-51-36. https://actavetscand.biomedcentral.com/articles/10.1186/1751-0147-51-36
Krogh , M.A., Toft , N., Enevoldsen, C. 2011. Latent class evaluation of a milk test, a urine test, and the fat-to-protein percentage ratio in milk to diagnose ketosis in dairy cows. J. Dairy Sci. 94 :2360–2367 doi: 10.3168/jds.2010-3816. https://www.journalofdairyscience.org/article/S0022-0302(11)00211-6/pdf
Enevoldsen, C. 2025. Method: How to avoid decision errors resulting from unjustified use of a general threshold or an invalid linear score to utilise somatic cell counts in dairy cows? Animal - Open Space, Volume 4,100089, ISSN 2772-6940, https://doi.org/10.1016/j.anopes.2024.100089
Krogh, M.A. 2012. Management_of_Data_for_Health_Performance_Measurement. Afhandling. Principper for proceskontrol siderne 19-23. Terminologi relateret til præstationsmåling siderne 112-116. Som eksempel på formulering af ‘besætningssundhed’ er der en definition på side 116. https://cphcattle.ku.dk/publikationer-og-referencer/phd-afhandlinger/Mogens_Agerbo_Krogh_PhD_thesis_2012_Management_of_Data_for_Health_Performance_Measurement_in_the_Dairy_Herd.pdf
Keijzers, G., Cullen, L., Egerton-Warbutton, D., Fatovich, D.M. 2018. Don’t just do something, stand there! The value and art of deliberate clinical inertia. Emergency Medicine Australasia 30, 273–278. doi: 10.1111/1742-6723.12922

Syg eller rask... eller måske?

Signifikans eller støj?

Celletal som diagnostisk pejlemærke – men hvor sikker er grænsen?

Når øjebliksbilleder skjuler dynamikken

Antistofrespons i fårebesætninger vaccineret med en inaktiveret bluetongue serotype 3-vaccine

Bluetongue-forskningsaktiviteter ved Københavns Universitet i 2025

Snapshots fra bluetongue-virus serotype 3 udbrud i danske besætninger i efteråret 2024

Signifikans eller støj?

Celletal som diagnostisk pejlemærke – men hvor sikker er grænsen?

Når øjebliksbilleder skjuler dynamikken

Læs også

Antistofrespons i fårebesætninger vaccineret med en inaktiveret bluetongue serotype 3-vaccine

Bluetongue-forskningsaktiviteter ved Københavns Universitet i 2025

Snapshots fra bluetongue-virus serotype 3 udbrud i danske besætninger i efteråret 2024