BMJ Magyar Kiadás 2001;3:175-80.

ÖSSZEFOGLALÓ KÖZLEMÉNYEK

Barátkozzunk a statisztikával: A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal?

Jonathan A. C. Sterne, George Davey Smith

 

Az orvosi kutatások eredményeit gyakran szkepticizmussal fogadják, néha akkor is, ha a kutatás módszertana helyes és a statisztikai elemzés is megfelelő. Kiváltképpen igaz ez az epidemiológiai vizsgálatok esetében, amelyek a mindennapi élet valamely egészségre káros jelenségét tárják fel. James Le Fanu nemrég megjelent nagy sikerű könyvében (A modern orvoslás tündöklése és bukása – a könyvről írt recenziót lásd legutóbbi számunk 119. oldalán) egészen addig megy el, hogy kijelenti: az orvoslás mostani betegségeire a legjobb gyógyír az epidemiológiai központok bezárása lenne (1).

Ennek egyik oka, hogy az orvosi irodalom erősen hajlik a pozitív eredmények hangsúlyozására; az eredményes vizsgálatokról gyakrabban írnak, mint azokról, amelyek nem hoznak előremutató eredményt (2–4). Így aztán egy sereg olyan „felfedezést” közölnek, mely csupán a véletlen műve, hiszen a hagyományos gondolkodásmód szerinti „p=0,05 szinten szignifikáns” eredmény 20 alkalomból egyszer a véletlen folytán is bekövetkezik. S mert csak a pozitív eredményeket közlik, azokat mindjárt jelentős felfedezésnek tekintik, figyelmen kívül hagyva, hogy a statisztikai szignifikancián alapuló megítélés magában hordozza a véletlen okozta pozitív eredményeket is. Mivel sok olyan vizsgálat van, mely hosszú kérdőívekből áll és több száz változóra vonatkozó információt tartalmaz, a meglehetősen nagyszámú álpozitív eredmény kimutatása már-már szavatolt. Mindezek ellenére nem állíthatjuk, hogy a kutatások számos – gyakran egymásnak ellentmondó (5) – eredménye pusztán a publikációs torzítás következménye. Ennél lényegesebb probléma a statisztikai szignifikancia fogalmának félreértése.

Az alábbiakban leírjuk, hogyan alakult ki a szignifikanciavizsgálat gyakorlata, és azt is, hogy a statisztikai következtetés alapelveit egykor kidolgozóknak nem állt szándékában az eredmények önkényes felosztása „szignifikánsakra” és „nem szignifikánsakra” (a közkedvelt p=0,05 küszöbszám alapján). A p-értéknek sokkal kisebbnek kell lennie 0,05-nál ahhoz, hogy valóban komoly bizonyítéknak tekinthessük a nullhipotézis ellen; ez pedig azt jelenti, hogy nagyobb statisztikai erejű vizsgálatokra van szükség. Az orvosi kutatások eredményközlésének el kell mozdulnia a szignifikáns-nem szignifikáns elvtől az eredményeknek a vizsgálat típusától függő és az egyéb létező bizonyítékokat is figyelembe vevő interpretálása felé. Az orvosi szaklapok szerkesztői kedvező módon befolyásolhatják a szemléletmód ilyen irányú változását, ezért cikkünket az eredményközlésre és interpretálásra vonatkozó útmutatóval zárjuk.

Összefoglalás

A p-érték és a szignifikanciaszint a nullhipotézis elleni bizonyíték erősségének mértéke. Minél kisebb a p-érték, annál erősebb bizonyíték szól a nullhipotézis ellen.

A statisztikai következtetés megalapozóinak nem állt szándékában az eredmények p-érték alapján történő felosztása „szignifikánsakra” és „nem szignifikánsakra”.

A p=0,05 érték nem egyértelmű bizonyíték a nullhipotézis ellen, a p<0,001-et azonban már joggal tartjuk annak. A cikkek eredményközlésében a pontos p-érték közlése kívánatos, minden tetszőleges küszöb említése nélkül.

Az orvosi kutatások eredményeit nem úgy kellene közölnünk, mint „szignifikánsakat” és „nem szignifikánsakat”, hanem a vizsgálat típusától és az egyéb ismert eredményektől függően kellene őket interpretálnunk. A torzítást és a zavaró tényezőket mindig figyelembe kellene vennünk alacsony p-érték esetén.

Az orvosi kutatások további hitelvesztésének megakadályozásához nagyobb erejű vizsgálatokra van szükség.

 

P-értékek és szignifikanciapróbák – rövid történeti áttekintés

A hipotézisvizsgálat mai gyakorlatában tapasztalható zavar kezdete több mint 60 évvel ezelőttre, a statisztikai következtetés megalapozói közt kitört vita időpontjára nyúlik vissza (6–8). A szignifikanciapróba fogalmát R. A. Fisher vezette be. Képzeljük el például, hogy elemezni akarjuk, javítja-e egy új gyógyszer a myocardialis infarktus utáni túlélést. Két, egymással összehasonlítható csoportot vizsgálunk: az egyiket az új gyógyszerrel, a másikat placebóval kezeljük. Azt találjuk, hogy az új gyógyszerrel kezelt csoportban feleakkora a halálozási arány, mint a placebóval kezeltek körében. Ez mindenképpen biztató eredmény, de nem lehetséges-e, hogy csak a véletlen okozta? A kérdést a p-érték kiszámolásával tisztázzuk: mi a valószínűsége annak, hogy kétszeres túlélési arányt észleljünk abban az esetben, ha a gyógyszernek valójában semmi hatása nincs a túlélésre.

R. A. Fisher – akinek a szignifikanciapróba fogalmát köszönhetjük – még mechanikus számológéppel dolgozott. Évi pár száz hipotézist így is meg lehetett vizsgálni

R. A. Fisher – akinek a szignifikanciapróba fogalmát köszönhetjük – még mechanikus számológéppel dolgozott. Évi pár száz hipotézist így is meg lehetett vizsgálni

Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket (a példában a nullhipotézis az, hogy az új gyógyszer nem befolyásolja a túlélést). A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...” (9). Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.

A fenti megközelítésben rejlő szubjektivitás iránti ellenszenv vezette Neymant és Pearsont a „hipotézisvizsgálat” megteremtéséhez, amely a p-értéknek, azaz a nullhipotézis elleni bizonyíték erősségének szubjektív megítélését objektív döntésen alapuló módszerrel volt hivatott felváltani (10). Neyman és Pearson azzal érvelt, hogy a kísérlet eredményének interpretálásakor kétféle hiba követhető el (1. táblázat). Fisher megközelítése az I. fajta hibára összpontosít. Ez a nullhipotézis elvetését (tehát annak elvetését, hogy az új szernek nincs hatása) jelenti akkor, amikor pedig valóban nincs neki. Neyman és Pearson a II. fajta hibát is fontosnak tartja: azt, hogy elfogadjuk a nullhipotézist (s mivel nincs hatása, elfelejtjük az új gyógyszert), mikor pedig a nullhipotézis valójában hamis (vagyis az új voltaképpen hatásos). Az I. és II. fajta hiba szintjének előzetes rögzítésével a különböző vizsgálatok során elkövetett hibák számát korlátozzuk. Ezek az elvek ismerősen csengenek azok számára, akik már alkalmazták a próba erejének fogalmát a szükséges mintaelemszám, a vizsgálatban részt vevők számának meghatározása során. Ezeknek a számításoknak a célja egy olyan mintaelemszám meghatározása, amely biztosítja, hogy mind az I., mind pedig a II. fajta hiba esélye kellően kicsi legyen.

1. táblázat. A vizsgálatok interpretációjának lehetséges hibái a Neyman–Pearson-féle hipotézisvizsgálat esetében
 A valóságban

A vizsgálat eredményeA nullhipotézis igaz (a kezelés nem hat)A nullhipotézis hamis (a kezelés hat)
A nullhipotézis elvetéseI. fajta hibaErő=1–II. fajta hiba
A nullhipotézis elfogadásaII. fajta hiba

Neyman és Pearson szavai szerint „nincs olyan próba, amely a valószínűségszámítást felhasználva önmagában elegendő bizonyítékot szolgáltatna egy hipotézis mellett vagy ellen. De nézhetjük a próbák célját más szemszögből is. Anélkül, hogy azt remélnénk, a próbákkal majd minden egyes esetben eldönthetjük, hogy a hipotézis igaz-e vagy hamis, találhatunk olyan vezérelveket, amelyek meghatározzák számunkra, hogyan álljunk a hipotézisekhez, hogy biztosítsuk: hoszszú távon nem tévedünk túl gyakran” (10).

A Neyman–Pearson-elmélet szerint tehát előre elhatározunk egy döntési szabályt, eredményeink interpretálásához, így elemzésünk eredménye pusztán a nullhipotézis elfogadása vagy elvetése. Fisher szubjektív szemléletmódjával ellentétben – Fisher egyébként egyáltalán nem értett egyet a Neyman–Pearson-elmélettel (11) – nem teszünk kísérletet a p-értéknek a nullhipotézis elleni bizonyíték erősségeként való interpretációjára az egyes vizsgálatokban.

A Neyman–Pearson-elmélet alkalmazásakor előre rögzítenünk kell a pontos ellenhipotézist is. Vagyis nem elég annyit mondanunk, hogy a kezelés hatásos, hanem azt is meg kell mondanunk, hogy milyen mértékben – például azt, hogy az új gyógyszer a halálozási arányt 60%-kal csökkenti. A kutató maga állíthatja fel a játékszabályokat: az ellenhipotézist, az I. és II. fajta hibát, de mindezt a vizsgálat elvégzése előtt kell megtennie. Sajnos a kutatók számára nehéz az ilyen elvek mentén dolgozni. A vizsgálat elvégzése előtt csak ritkán van elképzelésük az ellenhipotézisben szereplő kezelés hatásának nagyságáról (kivételt talán a fő hatásmutató képez a véletlen besorolásos klinikai vizsgálatokban). Ezért tehát a Neyman–Pearson-féle megközelítésnek csak a könnyebbik felét alkalmazzák széles körben – azaz: elvethető a nullhipotézis, ha p<0,05 (5%-os I. fajta hiba). Innen eredeztethető az a téves nézet is, hogy a Neyman–Pearson-elmélet hasonlít Fisheréhez.

A gyakorlatban – részben a gyógyszertörzskönyvezésre jogosult hatóságoknak és az orvosi szaklapoknak köszönhetően – az orvosi statisztikában uralkodóvá vált az eredmények szignifikáns és nem szignifikáns kategóriába sorolása, tekintet nélkül a II. fajta hibára. Ennek gyakori és súlyos következménye, hogy a kis esetszámú vizsgálatokban klinikailag jelentős különbségek is elsikkadnak mint nem szignifikánsak, miközben minden szignifikáns különbség valódi hatásnak minősül.

Ezek a gyakran (14–17) és régóta (13) emlegetett problémák vezettek ahhoz a sikeres kampányhoz, amelyben a megbízhatósági tartomány alkalmazását javasolták a p-érték helyett vagy annak kiegészítőjeként (18–20). Mivel a megbízhatósági tartományok összehasonlításra is szolgálnak, kimozdíthatnak bennünket az elvetni-elfogadni mechanikus kettősségének gyakorlatából. Kis elemszámú vizsgálatok esetén eszünkbe juttathatják, hogy eredményeink alapján egyaránt elképzelhető a nullhipotézis, a kezelés erőteljes jótékony hatása, valamint a káros hatás is, sőt a kétféle hatás együttes jelenléte sem kizárt. A 0,05 körüli p-értékeknél kihangsúlyozzák, hogy a valódi hatás lehet jóval nagyobb, de jóval kisebb is, mint az aktuálisan becsült érték. A 95%-os megbízhatósági tartományok azonban valójában 5%-os szignifikanciaküszöböt is jelentenek, innen származik újabb félreértelmezésük, ha csak egyszerűen szignifikanciapróbának tekintik azokat (aszerint, hogy tartalmazzák-e a nullát vagy sem) ahelyett, hogy a populációk közti különbség értékeinek valószínű terjedelmeként fognák fel. Azt tanácsoljuk, hogy a kutató orvosok hagyjanak fel az 5%-os szignifikanciaszint szerepének túlbecslésével. Ezt többek közt úgy lehetne elterjeszteni széles körben, hogy a standard konfidenciaszintet nem a 95%-nál húznánk meg.

 

A p-érték és a szignifikanciapróbák félreértelmezése

A p-értékeket, sajnos, még mindig gyakran félreértelmezik. Legtöbbször azt a hibát követik el, hogy a nullhipotézis igaz voltának valószínűségeként fogják fel, tehát a szignifikáns eredmény azt jelenti, hogy a nullhipotézis elég valószínűtlen. Egy példán keresztül, két – eléggé hihető – feltételezés segítségével megmutatjuk, hogy miért félrevezető ez az értelmezés.

Először feltételezzük, hogy az esetek 10%-ában a nullhipotézis hamis – ami azt jelenti, hogy a belőle kiinduló vizsgálati hipotézisek 90%-a sem igaz. Ez nagyjából egybevág az epidemiológiai irodalom adataival: 1985-ig a koszorúér-betegség 300 lehetséges kockázati tényezőjét azonosították, de feltételezhetően ezeknek csak kis része növeli valóban a betegség kockázatát (21). Második feltevésünk: mivel a vizsgálatokat gyakran kevés beteg közreműködésével végzik, a próbák ereje (=1–a II. fajta hiba) kicsi, az átlaguk körülbelül 50%. Ez is egybecseng a vizsgálatok méretéről szóló közlemények eredményeivel (22–24).

Képzeljük most el azt, hogy 1000 tanulmány hipotézisét vizsgáljuk, és elvetjük a nullhipotézist, ha p<0,05. Első feltevésünk alapján tudjuk, hogy a nullhipotézis 1000-ből 100 esetben hamis. Mivel a II. fajta hiba 50% (feltevésünk második pontja alapján), a nullhipotézist 100-ból 50 esetben vetjük el. A maradék 900 vizsgálatban, ahol a nullhipotézis igaz, elvetjük azt az esetek 5%-ában, azaz 45 esetben [2. táblázat, Oakes (25) alapján]. Abból a 95 vizsgálatból tehát, ahol az eredmény szignifikáns (vagyis p<0,05), 45-ben (47%) igaz a nullhipotézis, így ezek álpozitív eredmények; elvetettük a nullhipotézist, pedig nem kellett volna. Közvetlen párhuzamot vonhatunk a populációk szűrésére alkalmazott tesztekkel: ha a betegség (a hamis nullhipotézis) ritka, akkor csak a teszt specifikusságának magas értéke óvhatja meg a teszt által felderített valódi pozitív eseteket attól, hogy elvesszenek a rengeteg – az illető betegségben nem szenvedő ember – álpozitív eredménye közt (26). Előfordulhat, hogy egy szignifikáns (p<0,05) statisztikai próba „pozitív prediktív értéke” alacsony – jelen esetben körülbelül 50%. Gyakori hiba, hogy azt gondolják, a pozitív prediktív érték 95%, mert a szignifikanciaszint 0,05.

2. táblázat. A nullhipotézis elfogadásának és elvetésének gyakorisága, különböző – az orvosi kutatásban hihető – feltételezések esetén [Oakes (25) nyomán]

A kísérlet eredményeA nullhipotézis igaz (a kezelés nem hat)A nullhipotézis hamis (a kezelés hat)Összesen
A nullhipotézis elvetése85550905
A nullhipotézis elfogadása455095
Összesen9001001000

A 2. táblázatban ábrázolt eredmények a bayesi elvek szellemét tükrözik. A kiindulópont egy à priori (bayesianus – lásd Bayesianusok és frekventisták, BMJ Magyar Kiadás, 1999. 2. szám, 126. oldal – a szerk.) meggyőződés a kezeléshatás lehetséges nagyságrendjéről, majd ezt a meggyőződést módosítjuk a mért adatok ismeretében. Az imént bayesi érvelést alkalmaztunk, mikor kimutattuk, hogy a szokásos p<0,05 küszöb nem jelent igazán súlyos bizonyítékot a nullhipotézis ellen (27, 28). Sok szerző sok-sok éven át állította, hogy a bayesi megközelítés megóv a p<0,05 olyan típusú félreértelmezésétől, hogy a nullhipotézis valószínűsége kicsi; sőt mi több, ez lesz az univerzális gyógyír, mely a jövőben majd látványosan emeli az orvosi közlemények színvonalát (26, 29–32). Az uralkodó („klasszikus” vagy „frekventista”) szemléletmód és a bayesi elveken alapuló statisztikai következtetés közti különbségeket az 1. keretben összegezzük.

1. keret. A frekventista és a bayesiánus statisztikai hozzáállás összehasonlítása

Képzeljük el, hogy egy placebokontrollos vizsgálat adatait felhasználva elemezni akarjuk, valamely új gyógyszer javítja-e a myocardialis infarktus utáni túlélést. Ezt a kockázataránnyal mérjük – a kezelt és a kontrollcsoportban a halál kockázatának hányadosával. Ha ez az arány például 0,5, akkor az új gyógyszer 50%-kal csökkenti a halál kockázatát. Ha a hányados 1, akkor a kezelésnek nincs hatása.

Frekventista statisztikai szemléletmód

Ugyanúgy, mint Mulder és Scully az X-aktákban, a frekventista statisztikusok is azt hiszik, hogy „az igazság odaát van”. Az adatokat arra használjuk, hogy következtetéseket vonjunk le a valódi (de számunkra ismeretlen) populációs kockázati arányra nézve.

A 95%-os megbízhatósági tartomány a populációs kockázati arány eléggé hihető értékeinek tartománya; ha többször számolunk ilyen tartományokat, akkor azok az esetek 95%-ában tartalmazni fogják a valódi (de ismeretlen) populációs értéket.

A p-érték annak a valószínűsége, hogy a valódi kockázati arány legalább olyan távol van 1-től, mint az az érték, melyet a vizsgálatban mértünk.

    Bayesiánus statisztikai szemléletmód

A bayesiánus szubjektív módon közelíti meg a kérdést. Kiindulópontja a kockázati arányról alkotott à priori vélemény, melyet egy valószínűségi eloszlás tükröz. A kapott adatokat véleményünk módosítására használjuk fel (a kockázati arány à posteriori valószínűségi eloszlását az à priori eloszlás és a kapott adatok alapján számoljuk ki).

A 95%-os kredibilitási intervallumnak 95%-os esélye van arra, hogy tartalmazza a populációs kockázati arányt.

Az à posteriori eloszlás alapján közvetlen valószínűségeket megadó következtetéseket vonhatunk le a kockázati arányra nézve – megadhatjuk például annak valószínűségét, hogy a gyógyszer növeli a halál kockázatát.

Ha a kockázati arányról nincs határozott à priori meggyőződésünk (elég széles tartományt tartunk egyformán valószínűnek), akkor a frekventista és a bayesiánus elemzés eredményei nem sokban térnek el egymástól; mindkét módszer azon alapul, amit a statisztikusok az adatok valószínűségének neveznek. Ilyenkor:

  • A 95%-os megbízhatósági tartomány ugyanaz, mint a 95%-os kredibilitási intervallum, azzal a különbséggel, hogy az utóbbi jelentését gyakran – helytelenül – a megbízhatósági tartományra is alkalmazzák;
  • Az (egyoldalas) p-érték ugyanannyi, mint az a bayesiánus à posteriori valószínűség, hogy a gyógyszer valójában növeli a halál kockázatát (feltételezve, hogy a vizsgálat szerint a gyógyszer hatása kedvező).
A két megközelítés különböző eredményt ad olyankor, mikor határozott à priori meggyőződésünk van (az adatok által hordozott információ mennyiségéhez viszonyítva).

 

Mennyire szignifikáns, ami szignifikáns?

A XX. század első évtizedeiben, amikor a statisztikai következtetés alapelveit kidolgozták, a tudomány sokkal kisebb méretű vállalkozás volt, mint manapság. Mikor évente csak pár száz hipotézist vizsgáltak és a számításokat sok fáradságos munkával, mechanikus számológépekkel végezték (mint azt Fisher korabeli fényképén is láthatjuk), ésszerűnek tűnt, hogy az 5%-os álpozitív arány kiszűri a legtöbb véletlen hibát. Mikor azonban folyóiratok ezrei évente hipotézisek milliárdjait vizsgálják és a statisztikai programcsomagokkal a számítások könnyűszerrel elvégezhetők, akkor feltehetőleg a valódi jelentéssel bíró eredmények aránya (abban az értelemben, hogy a hatás nagysága révén érdeklődésre tarthatnak számot) jelentősen csökkent. Mindez oda vezet, hogy a p<0,05 eredménynek kicsi a prediktív értéke a nullhipotézis jogos elvetése szempontjából.

A vizsgálatokban a próba ereje legtöbbször kellőképpen növelhető az elemszám vagy a mérések pontosságának növelése által. A 3. táblázat a különböző p-érték-határokhoz tartozó prediktív értékeket mutatja a próba erejének és a jelentőséggel bíró hipotézisek számának különböző értékei esetén. Bármely p-küszöbnél jelentősen csökkenthető az álpozitív „szignifikáns” eredmények aránya a próba erejének növelése által. A 3. táblázat azt mutatja, hogy – ha csak nem vagyunk nagyon pesszimisták a valóban jelentős hipotéziseket illetően – a 0,001-nél kisebb p-értékeket már nyugodtan tekinthetjük elégséges bizonyítéknak a nullhipotézis ellen.

3. táblázat. A szignifikánsként bemutatott álpozitív eredmények aránya három különböző szignifikanciaszint esetén
A próba ereje (azoknak az eseteknek a százalékos aránya, amikor elvetjük a valóban hamis nullhipotézist)Az álpozitív „szignifikáns” eredmények százalékos aránya

p=0,05p=0,01p=0,001
A feltételezések 80%-a helyes (a nullhipotézis hamis)
205,91,20,10
502,40,50,05
801,50,30,03
A feltételezések 50%-a helyes (a nullhipotézis hamis)
2020,04,80,50
509,12,00,20
805,91,20,10
A feltételezések 10%-a helyes (a nullhipotézis hamis)
2069,231,04,30
5047,4*15,31,80
8036,010,11,10
A feltételezések 1%-a helyes (a nullhipotézis hamis)
2096,183,233,10
5090,866,416,50
8086,155,311,00
*Megfelel a 2 .táblázatban leírtaknak.

A bizonyítékokkal szemben támasztott kritériumok szigorítása ellen legtöbbször azt az érvet szokták felhozni, hogy jelentősen megnő a vizsgálatok mintaelemszáma. Meglepő, de ez nem igaz. Hagyományos erőszámításokkal ki lehet mutatni, hogy a legnagyobb méretnövekedés, melyet a 0,05-ról a 0,01-os határra való áttérés okozhat, 1,75-szoros, míg a 0,001-re való áttérés okozta maximális méretnövekedés 2,82-szoros. Az erő növélésére szolgáló kétféle lehetőség közül inkább a pontosság, mint a mintaelemszám növelését ajánljuk (33). Ha kevesebb, de nagyobb erővel rendelkező vizsgálatokat végeznénk, feltehetőleg megállíthatnánk az orvosi kutatások további hitelvesztését. A nagy méretű, statisztikailag pontos vizsgálatok szükségességét Richard Peto és munkatársai már évek óta hangsúlyozzák (34). Mindezek ellenére az orvosi kutatások minősége nem fog egyből megváltozni attól, hogy egy esetlegesen választott küszöbszámot (p=0,05) egy másikkal (p=0,001) helyettesítünk.

 

A p-értékek interpretálása: vélemények, döntések és a korábbi bizonyítékok szerepe

A különböző orvosi vizsgálatok célja sokszor nem az egyértelmű állásfoglalás valami mellett vagy ellen, inkább csak hozzájárulás a már meglévő tudásanyag bővítéséhez. Az eredmények közlésénél ezért a pontos p-értéket kell megadnunk, mellőzve mindennemű esetlegességet a küszöbérték kiválasztásában. Javasoljuk, hogy az újabb vizsgálat eredményeinek a korábbi ismeretanyagba való beépülését az ábrán látható módon tegyük közzé. A középső zónába eső p-értékek bizonyítékot jelentenek ugyan a nullhipotézis ellen, de nem döntőt.

Ritkán fordul elő, hogy olyan témában kutatunk, mellyel korábban még senki sem foglalkozott, s így nincsenek előzetes ismereteink. Az előzetes ismeretek jelentőségének felismerése tükröződik a szintetizáló formális kutatási módszerek fejlődésében (35), különösképpen pedig az eredeti közlemények megbeszélésében szereplő metaanalízisek növekvő gyakoriságában (36). Ezekben az esetekben az à priori bizonyíték egyszerűen a korábbi vizsgálatok eredménye. Természetesen megengedett a bizonyítás más formája is: az állatokkal vagy szövetkultúrákkal végzett kísérletek eredményével való összekapcsolás, a betegségek előfordulási arányánál az ökológiai különbségekben észlelt évszázados trendek figyelembevétele – ezek mind-mind befolyásolhatják a további lépésekről való döntést az aktuális vizsgálat eredményének függvényében (37).

A közvélemény sok tekintetben a kutatók előtt jár az új „bizonyítékok” interpretálásában. Az „életvitelben rejlő veszélyek”-ről szóló közleményeket legtöbbször jogos és józan cinizmussal fogadják (38). Úgy tűnik, hogy az emberek reakciója tudat alatt bayesiánus, melyben az az à priori meggyőződés, hogy a kutató orvosok és főképpen az epidemiológusok legtöbbször halandzsáznak. Az orvosi kutatásban figyelmen kívül hagyják azokat a jelzéseket, hogy itt volna az ideje a teljes váltásnak, a bayesiánus statisztikai következtetési módra való áttérésnek. Ennek fő oka, hogy az à priori meggyőződés nehezen számszerűsíthető. Mekkora súlya legyen például a biológiai bizonyítékok adott konstellációjának, ha ellentétben állnak a nagy nemzetközi vizsgálatok alapján a betegség előfordulási arányai közti különbségről alkotott képpel? Hasonlóképpen, egy „jelentőséggel bíró” hipotézis esetén, valamint egy előfordulási arány feltételezett értékére alapozva nem nehéz ugyan kiszámolni a p<0,05 prediktív értékét, de ki tudja pontosan megmondani, hogy mennyi a valóságban az az arány? A 2. és 3. táblázat sajnos csak illusztrációként szolgál. Ha úgy akarunk kitérni az à priori bizonyítékok számszerűsítése elől, hogy a véleményünket elég általánosan (és bizonytalanul) fogalmazzuk meg, akkor a bayesiánus elemzés a standard elemzéshez lesz hasonlatos. Másrészt ésszerűnek tűnik, hogy a p=0,008 értéket más súllyal vegyük figyelembe, ha egy klinikai vizsgálat fő hatásmutatójára vonatkozik, mint akkor, amikor egy megfigyeléses vizsgálat számos változójának egyikére kapunk hasonló értéket. A fontos hipotézisek aránya ugyanis magasabb az első esetben, a torzítás és a zavaró tényezők előfordulása pedig kevésbé valószínű.

A p-érték jelentése az orvosi szakirodalomban

A p-érték jelentése az orvosi szakirodalomban

 

Hogyan tovább?

A szignifikanciapróbák jelenlegi gyakorlatának félrevezető jellegét háromféle módon enyhíthetjük. Először is, amint a 3. táblázat mutatja, a p<0,05 nem tekintendő elfogadható bizonyítéknak a nullhipotézis ellen. Másodszor, az is világos, hogy a valódi jelentéssel bíró hipotézisek arányának növelése is csökkenti a félreértelmezési lehetőségeket. Ez utóbbit, sajnos, nehéz megvalósítani: maga az a fogalom, hogy egy à priori hipotézis megfogalmazása szavatolja a félreértelmezés elkerülését, félreértelmezhető. Ha 100 klinikai vizsgálatot végzünk egy teljesen hatástalan kezelés kipróbálására, s a 100 vizsgálat mindegyikében csak egyetlen hipotézist fogalmazunk meg és egyetlen statisztikai próbát végzünk, akkor is megkérdőjelezhető a „szignifikáns” eredmények mindegyike. Sőt, nehéz ellenőrizni az olyan típusú kijelentéseket, hogy a kapott összefüggéseket valóban a már korábban létező hipotézisek miatt vizsgálták. Ezt az elvet gúnyolta ki Philip Cole, bejelentvén, hogy egy számítógépes algoritmus segítségével létrehozta az epidemiológia összes lehetséges hipotézisét, így tehát ezentúl minden statisztikai próba à priori hipotézist vizsgál (39). Harmadrészt, a legfontosabb nem a statisztikai paradigmaváltás, hanem a vizsgálatok minőségének javítása az elemszám és a mérési pontosság növelése révén.

Bár nem létezik egyszerű megoldás, mégis elképzelhető a statisztikai próba eredménye általi félrevezettetés kockázatának csökkentése. Ez a szerkesztőkön is múlik. Alapvetően megváltozott például a közlemények minősége a 80-as években, mikor az útmutatók mindegyike elkezdte hangsúlyozni a megbízhatósági tartományok közlésének fontosságát. Hasonló elmozdulásra volna most szükség a hipotézisvizsgálatok terén. Javasoljuk, hogy a szerkesztők kérjék a szerzőktől a 2. keretes szövegben megfogalmazott elvek követését az eredményközlésben.

2. keret. Javasolt útmutató az orvosi szaklapokban megjelenő statisztikai elemzések eredményközléséhez

  1. Nem elfogadható a „szignifikáns” jelző használata a különbségekre vonatkozóan.
  2. A fő hatásmutatót jellemző megbízhatósági tartomány megadása minden esetben kötelező, de a 95%-os szint helyett inkább 90%-ost alkalmazva. A megbízhatósági tartományt ne 5%-os szignifikanciapróba-pótlóként használják. A megbízhatósági tartomány interpretációja során lehetőleg a megjelölt tartományban levő értékek klinikai következményeit és jelentőségét elemezzék.
  3. Ha valóban fontos hipotézisről van szó, akkor a bizonyítékok erőssége jellemezhető a p-értékkel. Minél kisebb a p-érték, annál erősebbek a bizonyítékok.
  4. Mivel az adatokban való „turkálást” nem lehet teljesen elkerülni, a szerzőknek nagyon szkeptikusaknak kell lenniük az alcsoportok elemzésével kapcsolatban (klinikai és megfigyeléses vizsgálatokban egyaránt). Az interakció (az alcsoportok közti különbség) jelenlétének bizonyításakor a bizonyítékok erőssége mindig nagy figyelmet igényel. Az alcsoportokra vonatkozó kijelentések elfogadásakor nagyobb óvatosságra van szükség, mint a fő hatás esetében.
  5. Megfigyeléses vizsgálatok esetén a zavaró tényező és a torzítás legalább annyira fontos, mint a jelen tanulmányban tárgyalt jelenségek (40).

 

Köszönettel tartozunk S. Goodman professzornak, dr. M. Hillsnek és dr. K. Abramsnak a kézirat első változatának olvasásakor adott hasznos tanácsaikért, bár ez természetesen nem jelenti az elveinkkel való egyetértésüket. Bristol a központja az MRC Health Services Research Collaboration-nak.
Érdekütközés: Mindkét szerző bevallja, hogy korábban tévesen alkalmazta a „szignifikancia” kifejezést és túlbecsülte a hipotéziseiket alátámasztó bizonyítékok erejét.
Támogatás: Nem volt.


  1. Le Fanu J. The rise and fall of modern medicine. New York: Little, Brown, 1999.
  2. Berlin JA, Begg CB, Louis TA. An assessment of publication bias using a sample of published clinical trials. J Am Stat Assoc 1989;84:381-92.
  3. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. Publication bias in clinical research. Lancet 1991;337:867-72.
  4. Dickersin K, Min YI, Meinert CL. Factors influencing publication of research results: follow-up of applications submitted to two institutional review boards. JAMA 1992;263:374-8.
  5. Mayes LC, Horwitz RI, Feinstein AR. A collection of 56 topics with contradictory results in case-control research. Int J Epidemiol 1988; 17:680-5.
  6. Goodman SN. P values, hypothesis tests, and likelihood: implications for epidemiology of a neglected historical debate. Am J Epidemiol 1993; 137:485-96.
  7. Lehmann EL. The Fisher, Neyman-Pearson theories of testing hypotheses: one theory or two? J Am Stat Assoc 1993;88:1242-9.
  8. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med 1999;130:995-1004.
  9. Fisher RA. Statistical methods for research workers. London: Oliver and Boyd, 1950:80.
  10. Neyman J, Pearson E. On the problem of the most efficient tests of statistical hypotheses. Philos Trans Roy Soc A 1933;231:289-337.
  11. Fisher RA. Statistical methods and scientific inference. London: Collins Macmillan, 1973.
  12. Feinstein AR. P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol 1998;51:355-60.
  13. Berkson J. Tests of significance considered as evidence. J Am Stat Assoc 1942;37:325-35.
  14. Rozeboom WW. The fallacy of the null-hypothesis significance test. Psychol Bull 1960;57:416-28.
  15. Freiman JA, Chalmers TC, Smith HJ, Kuebler RR. The importance of beta, the type II error and sample size in the design and interpretation of the randomized control trial. Survey of 71 “negative” trials. N Engl J Med 1978;299:690-4.
  16. Cox DR. Statistical significance tests. Br J Clin Pharmacol 1982;14:
    325-31.
  17. Rothman KJ. Significance questing. Ann Intern Med 1986;105:445-7.
  18. Altman DG, Gore SM, Gardner MJ, Pocock, SJ. Statistical guidelines for contributors to medical journals. BMJ 1983;286:1489-93.
  19. Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. BMJ 1986;292:746-50.
  20. Gardner MJ, Altman DG. Statistics with confidence. Confidence intervals and statistical guidelines. London: BMJ Publishing, 1989.
  21. Hopkins PN, Williams RR. Identification and relative weight of cardiovascular risk factors. Cardiol Clin 1986;4:3-31.
  22. Freiman JA, Chalmers TC, Smith H, Kuebler RR. The importance of beta, the type II error, and sample size in the design and interpretation of the randomized controlled trial. In: Bailar JC, Mosteller F, eds. Medical uses of statistics. Boston, Ma: NEJM Books, 1992:357-73.
  23. Moher D, Dulberg CS, Wells GA. Statistical power, sample size, and their reporting in randomized controlled trials. JAMA 1994;272:
    122-4.
  24. Mulward S, Gřtzsche PC. Sample size of randomized double-blind trials 1976-1991. Dan Med Bull 1996;43:96-8.
  25. Oakes M. Statistical inference. Chichester: Wiley, 1986.
  26. Browner WS, Newman TB. Are all significant P values created equal? The analogy between diagnostic tests and clinical research. JAMA 1987;257:2459-63.
  27. Edwards W, Lindman H, Savage LJ. Bayesian statistical inference for psychological research. Psychol Rev 1963;70:193-242.
  28. Berger JO, Sellke T. Testing a point null hypothesis: the irreconcilability of P values and evidence. J Am Stat Assoc 1987;82:112-22.
  29. Lilford RJ, Braunholtz D. The statistical basis of public policy: a paradigm shift is overdue. BMJ 1996;313:603-7.
  30. Brophy JM, Joseph L. Placing trials in context using Bayesian analysis. GUSTO revisited by Reverend Bayes. JAMA 1995;273:871-5.
  31. Burton PR, Gurrin LC, Campbell MJ. Clinical significance not statistical significance: a simple Bayesian alternative to p values. J Epidemiol Community Health 1998;52:318-23.
  32. Goodman SN. Toward evidence-based medical statistics. 2: The Bayes factor. Ann Intern Med 1999;130:1005-13.
  33. Phillips AN, Davey Smith G. The design of prospective epidemiological studies: more subjects or better measurements? J Clin Epidemiol 1993;46:1203-11.
  34. Yusuf S, Collins R, Peto R. Why do we need some large, simple randomized trials? Stat Med 1984;3:409-22.
  35. Egger M, Davey Smith G. Meta-analysis. Potentials and promise. BMJ 1997;315:1371-4.
  36. Danesh J, Whincup P, Walker M, Lennon L, Thomson A, Appleby P, et al. Chlamydia pneumoniae IgG titres and coronary heart disease: prospective study and meta-analysis. BMJ 2000;321:208-13.
  37. Morris JN. The uses of epidemiology. Edinburgh: Churchill-Livingstone, 1975.
  38. Davey Smith G. Reflections on the limits to epidemiology. J Clin Epidemiol (in press).
  39. Cole P. The hypothesis generating machine. Epidemiology 1993; 4:271-3.
  40. Davey Smith G, Phillips AN. Confounding in epidemiological studies: why “independent” effects may not be all they seem. BMJ 1992;305: 757-9.
    (Elfogadva: 2000. november 9.)


Department of Social Medicine, University of Bristol, Bristol BS8 2PR
Jonathan A. C. Sterne, senior lecturer in medical statistics George Davey Smith, professor of clinical epidemiology

Correspondence to: J. Sterne
jonathan.sterne@bristol.ac.uk

BMJ 2001;322:226-31.