Foldercase Blog – Kovariaten und Confounder: eine Einführung

Eine der größten Freuden in der Wissenschaft ist die Entdeckung eines Effekts, der sich unter gleichen Bedingungen immer wieder reproduzieren lässt. Leider ist dies seltener der Fall als gewünscht, was unter anderem zur sogenannten Reproduzierbarkeitskrise beigetragen hat.

Das Auffinden echter Effekte ist aus vielen Gründen schwierig, darunter begrenzte Stichprobengrößen, Stichprobenvariabilität sowie methodische Unterschiede, die Ergebnisse stärker beeinflussen als erwartet.

Einer der wichtigsten Gründe ist jedoch, dass nahezu jede Messung in der biomedizinischen Forschung von weiteren Faktoren beeinflusst wird. Werden diese Abhängigkeiten ignoriert, kann dies sowohl zu falsch-positiven als auch zu falsch-negativen Ergebnissen führen.

In diesem Beitrag führen wir in die Konzepte von Kovariaten und Confoundern ein und erläutern, wie man in der Datenanalyse mit ihnen umgeht.

Was sind Kovariaten und Confounder?

Als Kovariate bezeichnen wir jede Variable, die zusätzlich zur Zielvariable in eine Analyse einbezogen wird. Beispielsweise kann das Alter eine sinnvolle Kovariate sein, wenn Zusammenhänge zwischen Biomarkern und Diagnosen untersucht werden.

Confounder sind Variablen, die sowohl mit der Zielgröße als auch mit der interessierenden Variable assoziiert sind. Werden sie nicht berücksichtigt, können sie scheinbare Zusammenhänge erzeugen, die nicht reproduzierbar sind.

Wie geht man mit Kovariaten und Confoundern um?

Kovariaten werden üblicherweise in statistische Modelle integriert, um Varianz zu berücksichtigen, die nicht mit der interessierenden Variable zusammenhängt. Obwohl dies die statistische Power leicht reduzieren kann, überwiegen meist die Vorteile.

Der Umgang mit Confounding ist komplexer. Die Aufnahme eines Confounders in ein Modell kann Varianz entfernen, die sich mit dem interessierenden Effekt überschneidet, und diesen dadurch abschwächen oder verdecken.

Wann immer möglich, sollte Confounding durch ein geeignetes Studiendesign, explorative Datenanalyse oder Matching-Verfahren vermieden werden.

Welche Kovariaten sind wichtig?

Die Auswahl geeigneter Kovariaten erfolgt meist auf Basis von Fachwissen und vorhandener Literatur. Eine visuelle Datenexploration sowie Verfahren wie die Hauptkomponentenanalyse können helfen, unerwartete Varianzquellen zu identifizieren.

Kovariaten in Studien zum maschinellen Lernen

Im maschinellen Lernen erfolgt die Kovariatenanpassung häufig vor dem Modelltraining. Dennoch können insbesondere bei nichtlinearen Effekten weiterhin Restkonfundierungen bestehen.

Eine sorgfältige Validierung sowie eine projektübergreifende Abstimmung der Vorverarbeitungsschritte sind daher unerlässlich.

Zusammenfassung

Variablen existieren selten isoliert. Das Verständnis von Kovariaten und Confoundern ist entscheidend, um zuverlässige und reproduzierbare wissenschaftliche Ergebnisse zu erzielen.