In den letzten Jahren hat es sich in der deutschen Ärzteschaft zunehmend durchgesetzt, Empfehlungen zu bestimmten diagnostischen oder therapeutischen Vorgehensweisen daraufhin zu hinterfragen, ob sie in genügender Weise mit Evidenz begründet sind. Manche Hausärztin wird sich sagen: Ich bin beschäftigt genug – da hänge ich mich nicht noch in die Tiefen der wissenschaftlichen Interpretation von Studien hinein. Doch das kann durchaus auch Spaß machen und beruflich nützlich sein, meint Dr. med. Günther Egidi, Sprecher der Sektion Fortbildung der Deutschen Gesellschaft für Allgemeinmedizin und Familienmedizin (DEGAM), und gibt Tipps zum richtigen Lesen von Studien.

Über das Zeitbudget, das einer Hausärztin zur Verfügung steht, kann und sollte eine andere Person nicht urteilen. Wenn es nur sehr knapp bemessen ist, kann ein Vorgehen helfen, das sich nach der Quelle des Informanten richtet:
  • Empfiehlt eine dauerkritische Quelle wie das Arzneitelegramm ein bestimmtes Vorgehen, kann diesem ohne weiteres Nachdenken gefolgt werden. Beispiel: Das Arzneitelegramm besprach die Ergebnisse der 2015 im New England Journal erschienenen START INSIGHT-Studie zum früheren Beginn einer antiretroviralen Behandlung bei HIV-Patienten (N Engl J Med 2015;373:795–807; N Engl J Med 2015;373:795–807) sehr positiv: Die Hausärztin kann aus dieser Studien-Besprechung schließen, künftig bei allen HIV-Infizierten daran zu denken, unverzüglich eine antiretrovirale Therapie einzuleiten, sobald die Infektion bestätigt ist – und nicht auf das Unterschreiten einer bestimmten Zahl an T4-Helferzellen zu warten.
  • Umgekehrt wird sie rasch innerlich abwinken, wenn er von einem bekanntermaßen pharmanahen Vortragenden hört, "bislang" sei ein über die Senkung der Blutglukose hinausgehender Nutzen eines neuen DPP4-Hemmers nicht nachgewiesen worden (NEJM 2013;369: 1317–26 und 1327–35). Sie wird dann so lange kein Gliptin einsetzen, bis ein relevanter Nutzen bestätigt werden konnte.

Gelegentlich wird sie es aber doch genauer wissen wollen und sich bei befriedigender Englischkenntnis die Originalstudie besorgen. "Research-Artikel" stehen im renommierten British Medical Journal frei zur Verfügung unter www.bmj.org – solche aus dem New England Journal, die wesentliche neue Erkenntnisse zutage fördern, nicht selten auch unter www.nejm.org.

Die Industrie hat inzwischen von der Bewegung für evidenzbasierte Medizin gelernt, Studien so zu gestalten und zu publizieren, dass leicht übersehen werden kann, dass sie zwar formal den Kriterien einer randomisierten Studie entsprechen, de facto aber keine neuen Einsichten mit sich bringen. Folgende Fragen können der lesenden Hausärztin helfen, die Ergebnisse einer Studie einzuordnen und unabhängig zu interpretieren:
  1. Ist das untersuchte Patientenkollektiv vergleichbar mit dem vor mir sitzenden Patienten – bspw. mit Sigmadivertikulitis? Anfang 2017 besprach das Arzneitelegramm die Empfehlungen einiger Leitlinien, Patienten mit Divertikulitis nicht unbedingt mit Antibiotika zu behandeln. Die Hausärztin wird stutzig: Wenn sogar das Arzneitelegramm die Empfehlung, nicht antibiotisch zu behandeln, kritisch hinterfragt, wird sie die wesentlich zugrunde liegende Studie besonders skeptisch unter die Lupe nehmen (Brit J Surg 2012; 99: 532–9). Und sie wird entdecken, dass alle eingeschlossenen Patienten zuvor mittels Abdomen-CT eine unkomplizierte Divertikulitis bescheinigt bekommen hatten – eine Bedingung, die auf die Hausarztpraxis nur eingeschränkt übertragbar ist.
  2. Die Leserin wird im Methoden-Teil der Studie nachschauen, ob die Behandlungsgruppen verblindet waren. Immer geht das nicht oder nur schlecht – bspw. bei Studien zum Effekt von Chirotherapie wird man nur schwer eine Verblindung hinbekommen. In Studien zur Wirkung trizyklischer Antidepressiva wird möglicherweise ein trockener Mund die Patienten leicht ungeplant darauf hinweisen, dass sie das Verum-Präparat einnehmen.
  3. Unsere lesende Hausärztin wird schauen, ob alle anfangs in eine Behandlungsgruppe hineingelosten Patienten am Ende auch in dieser Gruppe ausgewertet wurden ("intention to treat-analysis"/ITT). Ein Beispiel aus dem sehr lesenswerten Rowohlt-Taschenbuch von Beck-Bornholdt und Dubben "Der Hund, der Eier legt" verdeutlicht dies: Ein Mann behauptet, Autobahn-Raser, die die Strecke von Hamburg nach Hannover in nur 50 Minuten zurücklegen, würden viel weniger Unfälle verursachen als solche, die konsequent nicht schneller als mit 100 km/h fahren. Er hat dann Recht, wenn nur diejenigen Raser in die Auswertung einbezogen werden, die tatsächlich in 50 Minuten ankamen. Das so zeitige Erreichen des Zieles setzt per se voraus, dass es keinen Unfall gab. Werden dagegen alle Fahrer berichtet, die in der "Raser-Gruppe" gestartet waren, wird die Aussage leicht zu widerlegen sein.
  4. Sind die Studiengruppen gleich verteilt? Hier hilft ein Blick in die sogenannten Baseline-Charakteristika: Waren Geschlechter, Altersgruppen, Co-Morbidität, Co-Medikation etc. gleich tariert?
  5. Erhielten die untersuchten Gruppen eine vergleichbar aufwendige Betreuung? In der Diabetes-Studie ADVANCE (N Engl J Med 2008;358:2560–72) wurden die Patienten in der Gruppe mit strengerer HbA1c-Senkung im ersten Halbjahr 5x und weiter 4x im Jahr gesehen, Patienten der Kontrolle im ersten Halbjahr dagegen nur 2x und weiter 2x jährlich. Allein dieser engere Kontakt kann möglicherweise das Studienergebnis positiv beeinflusst haben. In der Dabigatran-Studie RE-LY (Lancet 2010; 376: 975–83) ist erkennbar, dass der postulierte Vorteil von Dabigatran nur dann auftrat, wenn die INR-Einstellung mit dem Vitamin-K-Antagonisten Warfarin nicht zuverlässig durchgeführt worden war. In der Prasugrel-Studie TRITON-TIMI 38 (N Engl J Med 2007;357:2001–15) erhielt ein beträchtlicher Teil der mit Clopidogrel nach akutem Koronarsyndrom behandelten Patienten der Vergleichsgruppe leitlinienwidrig das Studienmedikament erst nach der Koronar-Intervention – eine systematische Benachteiligung der Vergleichsgruppe.
  6. Wurde ein signifikantes Ergebnis erzielt? Hier hilft der Blick auf die p-Werte und die Konfidenz-Intervalle (CI, Vertrauens-Bereich): Nach allgemeiner Konvention gilt ein p-Wert <5%, also von <0,05 als signifikant. Ein höherer p-Wert lässt daran denken, dass das Ergebnis gar nicht unbedingt auf der untersuchten Intervention beruht, sondern zu einem Teil auf Zufall zurückzuführen sein kann. Ähnlich zeigt das Konfidenz-Intervall die Streubreite der Ergebnisse: Schließt sie die 1,0 ein (1=Gleichheit im Ergebnis der untersuchten Gruppen), ist ein Nutzen der Intervention nicht belegt.
  7. Wurde in der Studie nur die relative Risikoreduktion dargestellt (wie viele der sonst das zu verhindernde Ereignis erleidenden Patienten erlitten es wegen der Intervention nicht?) – oder die in der Praxis wichtige absolute Risikosenkung (wie viele von allen Behandelten erlitten keinen Infarkt/osteoporotischen Wirbelbruch etc.)?
  8. Ist der untersuchte Endpunkt aus Sicht unserer Patienten relevant? In der großen und sehr sauber durchgeführten Göteborger PSA-Studie (Lancet Oncol 2010; 11: 725–32) konnte die Sterblichkeit am Prostatakarzinom durch das PSA-Screening um 44 % gesenkt werden (relative Risikosenkung!): Von 20.000 gescreenten Göteborger Männern starben statt 122 nur 78 an diesem Krebs. Was nicht im Abstract der Studie, sondern nur versteckt im Langtext der Studie erwähnt ist: An der Gesamtsterblichkeit änderte sich nichts: Männer mit früh entdecktem und behandeltem Prostatakrebs lebten darum nicht länger.
Oder nehmen wir das Beispiel der FOURIER-Studie (N Engl J Med. DOI: 10.1056/NEJMoa1615664), in der der Nutzen durch den neuen PCSK9-Antikörper Evolocumab mit Placebo verglichen wurde. Unter Evolocumab kam es bei den Patienten gut 2 Jahre nach Infarkt zur rasanten LDL-Senkung auf 30 mg/dl und zu einem Rückgang der Infarktrate um 1,2 %. Die kritisch lesende Hausärztin denkt hierüber nach – und bemerkt: Die Größenordnung dieser Senkung der Infarktrate erscheint nicht sehr relevant, zumal sich an der Gesamtsterblichkeit nichts änderte. Solche Einschätzung der klinischen Relevanz erfordert klinische und Lebenserfahrung – und eine gut funktionierende Kommunikation zwischen Hausarzt und Patient. Streng genommen sind wir Hausärztinnen und Hausärzte Spezialisten darin, zu beurteilen, welche Studien-Endpunkte aus Sicht und im Interesse unserer Patienten relevant sind und welche nicht.
  9. Auch wenn das Ergebnis signifikant ist – ist die Größenordnung der Endpunkt-Veränderung denn für unsere Patienten relevant? In einer Studie zum Antidementivum Donepezil (Arch Neurol. 2000;57:94–99) wurde ein signifikanter Unterschied zwischen Donepezil- und Placebo-Gruppe gefunden. Schaute man das Ergebnis genauer an, fand sich ein Unterschied von 2,17 Punkten auf der Demenz-Skala ADAS-Cog – bei einer Bandbreite von 0–70 möglichen Punkten auf dieser Skala. Die klinische Relevanz eines derart kleinen Effektes ist stark zu hinterfragen.
  10. Bevor sie die Studie weglegt, wird unsere Hausärztin nachschauen, ob die Autoren der Studie Interessenkonflikte angegeben haben. Solche Interessenkonflikte sprechen nicht a priori gegen die Gültigkeit der Studienresultate, sind aber geeignet, das Studienergebnis in ein anderes Licht zu stellen.

Die Beispiele machen vielleicht deutlich: Das kritische Lesen von Studien kann Spaß machen. Kriminalistischer Ehrgeiz kann dabei geweckt werden. Unserr Hausärztin wird es sich vielleicht überlegen, sich als Lehrärztin einer allgemeinmedizinischen Universitäts-Abteilung zu melden und als solche Zugang zur elektronischen Bibliothek der Uni zu erhalten, um häufiger mal nachzuschauen, wenn ihr ein Studienresultat besonders relevant erscheint.



Autor:

Dr. med. Günther Egidi

Facharzt für Allgemeinmedizin
28259 Bremen

Interessenkonflikte: Der Autor hat keine deklariert