Како знати колико је неки тест поуздан?

Дарко Стојиловић
Apr 11, 2020
9 min read

Updated: Apr 15, 2020

Тестирање је тема која је постала нарочито актуелна у јавности током пандемије коронавируса. Термини попут поузданост теста, прецизност теста и слични постали су део свакодневних дискусија. Недавно је била актуелна афера у Шпанији, јер су анализе показале да је осетљивост кинеских брзих тестова испод 30%. Шта тачно представља осетљивост теста од 30%? Да ли би рецимо осетљивост од 80% била задовољавајућа? У наставку ћу представити и покушати да објасним различите статистичке параметре које је корисно разумети када размишљамо о тестирању. Нећу се бавити конкретно тестовима за откривање присуства коронавируса, с обзиром да нисам нашао детаљне а поуздане податке који говоре о њиховим карактеристикама.

Четири могућа исхода тестирања

Тестови који служе за откривање феномена у клиничком, криминалистичком и сличним доменима, а чији је исход бинаран, функционишу по принципу бинарне класификације. Размотримо потенцијалне исходе једног тестирања на постојање неког вируса у људском организму. Особа која се тестира може да заиста буде заражена вирусом или да не буде заражена. Тест може да покаже да је особа заражена или да није заражена. Ако укрстимо ове две бинарне ситуације, добијамо четири могућа исхода.

Уколико је особа заиста заражена, а то покаже и тест, говори се о осетљивости теста. Уколико, с друге стане, особа није заражена и тест покаже да особа није заражена, овакав исход представља специфичност теста. У обе ове ситуације, тест успешно процењује присуство или одсуство вируса, односно доноси исправан суд. Међутим могућа су још два исхода, у којима тест даје погрешан резултат. Ако особа није заражена вирусом, а тест покаже постојање вируса, исход је лажно позитиван (грешка типа 1). Исто тако, ако особа јесте заражена вирусом, а тест не успе то да детектује, резултат је лажно негативан (грешка типа 2).

Размотримо четири исхода тестирања на примеру. Замислимо да је укупно 1010 особа тестирано. Од тога, 10 особа има вирус (прва колона), док 1000 особа није заражено (друга колона). Ако узмемо да је осетљивост теста 80%, то значи да - од укупно 10 особа које су заиста заражене вирусом, тест је показао позитиван резултат за њих осам. Другим речима, тест је успешно „ухватио“ 80% особа које имају вирус. То такође значи да је осталих 20% добило лажно негативан резултат. Узмимо такође да је специфичност теста је 90% - од укупно 1000 особа које нису заражене вирусом, 900 особа је добило тачан, односно негативан, резултат, док је чак 100 особа (10%) добило лажно позитиван резултат. У овом случају, тест је успешно класификовао 90% особа које немају вирус, али чак 100 особа је добило позитивно лажан резултат. Приметите је ово значајно више у односу на само две особе које су добиле лажно негативан резултат, иако је у процентима однос 20% лажно негативних насупрот 10% лажно позитивних. Ово је добра илустрација зашто је важно разматрати и учесталост, односно број људи који су добили неки резултат, а не само њихов проценат.

Понекад се говори уопштено о прецизности теста као о уделу свих тачно класификованих у укупном броју особа које су тестиране. У овом конкретном примеру, прецизност теста је 89,9% - од укупно 1010 особа, тачно је класификовано 908. Међутим, коришћење ове мере често није претерано смислено, јер прецизност може да буде врло висока чак и када је осетљивост неког теста 0%. Замислимо да је у ово примеру осетљивост теста 0%, тј. да је тест за свих 10 заражених особа показао да немају вирус. Прецизност би остала висока, тачније 89,1%, с обзиром да је тест и даље тачно класификовао 900 људи који немају вирус (зато што је специфичност 90%).

Која је вероватноћа да је резултат теста тачан?

Још два статистичка показатеља су од велике важности за разумевање тестирања. Замислимо да је особа добила позитиван резултат теста који је указао на присуство вируса. Која је вероватноћа да је особа заиста заражена? С обзиром на велики број лажних позитивних резултата, вероватноћа да особа заиста има вирус износи свега 7% - од 108 особа за које је тест из примера показао постојање вируса, само осам заправо има вирус. Ова вероватноћа се назива позитивна предиктивна вредност. На исти начин можемо израчунати која је вероватноћа да особа заправо нема вирус када добије негативан резултат тестирања. Од 902 особе за које је тест показао да немају вирус, чак 900 њих заправо није заражено, што даје вероватноћу од 99%. Ова вероватноћа се назива негативна предиктивна вредност. Тестирање може да носи одређен ризик, поготово ако су карактеристике теста недовољно добре а погрешан резултат има озбиљне последице по живот појединаца, као што то може да буде случај са клиничким и криминалистичким тестирањима. Да би се разумео ризик од добијања погрешног резултата, важно је разумети позитивне и негативне предиктивне вредности. У нашем примеру, иако је прецизност теста 89,9% и то звучи врло поуздано, тек када се уђе у детаље, слика се усложњава. Конкретније, ако тест производи велики број лажно позитивних резултата, добијање позитивног резултата приликом тестирања не омогућава претерану сигурност у тачност тог резултата. Штавише, у наведеном примеру, вероватноћа да је резултат тачан је само 7%. У практичном медицинском контексту, постоје тестови чији су закључци врло непоуздани када покажу позитиван резултат, али су зато много сигурнији за одбацивање присуства неке болести, вируса итд. У нашем примеру, особа која би добила негативан резултат на тесту би могла да буде 99% сигурна да је такав резултат тачан. Клинички тестови који имају за циљ да утврде да ли нпр. особа има генетску предиспозицију за добијање неке болести често имају веома високу негативну предиктивну вредност, и до 99,99%, иако у исто време позитивна предиктивна вредност тог теста може да буде врло ниска, нпр. 5%. То би значило да особа може да буде скоро потпуно уверена у тачност резултата уколико добије негативан резултат. У исто време, ако добије позитиван резултат, шансе да заправо има одређен генетски проблем су и даље мале, па су потребна даља тестирања. Дакле, неки тестови могу да буду корисни чак и када испуњавају само једну функцију - нпр. поуздано утврђивање одсуства неке болести.

Да ли је вероватноћа једнака за све?

Да ствари не буду тако једноставне, позитивна и негативна предиктивна вредност зависе од преваленце - укупног броја оболелих особа унутар неке популације у датом временском тренутку у односу на целу популацију. Ако се рецимо тестира велика популација у којој врло мали број људи има неку болест, колико год да је прецизан тест, он ће опет произвести известан број лажно позитивних резултата. Зато је битно уважити тзв. основну стопу (base rate) коју заправо преваленца представља. Гигеренцер и сарадници наводе један пример из 1987. године када су 22 особе које су редовно донирале крв добиле позитиван резултат на ХИВ тест. Након добијања ових вести, седам особа извршило је самоубиство, иако резултати нису били сасвим извесни. Годинама касније у медицинском приручнику овај пример стоји уз напомену да „чак и када су и ELISA тест и Western Blot тест позитивни, вероватноћа да особа заиста има ХИВ износи 50%“. Ово наравно важи само за особе које спадају у неризичну групу, као што су најчешће донатори крви. Преваленца ХИВ вируса међу особама које не припадају ризичним групама (нпр. даваоци крви) мања је него код оних који се упуштају у ризично понашање. То значи да чак и када су осетљивост и специфичност теста врло високе (нпр. 99,99%), ако се тестира велика популација особа које се не упуштају у ризично понашање, вероватноћа да неко из ове популације заиста буде позитиван на ХИВ ако добије позитиван резултат на тесту може да буде само 50%. Погледајмо то на примеру. Замислимо да се тестира узорак од 10 000 хетеросексуалних мушкараца који се не упуштају у ризична понашања. Међу њима се, због ниске преваленце од 0,0001, очекује да само један заиста има ХИВ. Ако је осетљивост теста 99,99%, тест ће успешно класификовати ову једну особу, али ће такође једна особа добити лажно позитиван резултат - пошто рачунамо да је специфичност теста такође 99,99%. Дакле, од две особе које добију позитиван резултат, једна заправо неће бити заражена. Како би били што сигурнији, доктори обично препоручују поновно тестирање, или тестирање путем још прецизнијих тестова када они постоје.

* узорак x преваленца x осетљивост ** узорак x (1 - преваленца) x (1 - специфичност) *** узорак x преваленца x (1 - осетљивост) **** узорак x (1 - преваленца) x специфичност

Ако би нас занимала вероватноћа да једна особа из ове популације заиста има ХИВ ако добије позитиван резултат на тестирању, довољно је да израчунамо позитивну предиктивну вредност. Она износи 50%. Од две особе за које је тест показао позитиван резултат, само једна заправо има ХИВ. С друге стране, уколико тест покаже негативан резултат, особа може да буде практично потпуно сигурна у тачност тог резултата. Погледајмо сада други пример. Замислимо да се тестира 10 000 особа оба пола између 15 и 50 година, овога пута из популације субсахарске Африке међу којима је преваленца ХИВ вируса 4%. То значи да је укупно 400 особа за које се може очекивати да имају ХИВ у популацији од 10 000. Поново узимамо да су осетљивост и специфичност теста 99,99%.

С обзиром на високу осетљивост и специфичност теста, он би успешно класификовао 9999 особа, са једним лажно позитивним резултатом. У овом случају, вероватноћа да једна особа заиста има ХИВ када тест покаже позитиван резултат износи чак 99,7%. Као што смо видели из ових примера, није за све људе подједнако вероватно да добију лажно позитиван резултат приликом тестирања на постојање неке болести. Особе из популације „ризичних“ имају већу шансу да добију позитиван резултат који је заправо тачан. Зато предиктивне вредности не представљају својство самог теста - њих одређује и преваленца у популацији којој припада конкретна особа. Обично се прави разлика између тестирања у сврху дијагностике и у сврху скрининга. Када се тестови користе за дијагностику неке болести, тестирају се особе које већ имају неке симптоме и за које је већа вероватноћа да заправо јесу болесни. У случају скрининга, тестира се велика општа популација која не испољава симптоме. Делује смислено да је у потоњем случају много теже „ухватити“ постојање болести.

Манипулисање карактеристикама теста и разумевање контекста

Важно је разумети да се приликом тестирања може правити компромис између осетљивости и специфичности теста, јер су ове две вредности у спрези. Повећана осетљивост теста често (не увек) може да узрокује нижу специфичност. Исто важи и обрнуто. Добар пример представља типична ситуација контроле сигурности на аеродромима. Скенер на аеродрому је веома осетљив и аларм ће означити када кроз скенер прође било шта што би могло да делује као је опасно. Отуда се аларм реагује на безазлене предмете попут сатова и накита. Самим тим што је толико осетљив, скенер ће произвести и велики број лажних узбуна, али ће истовремено бити врло мало вероватно да ће службеницима промаћи нешто што је заиста опасно. Улога неких тестова, који су обично брзи и једноставни за примену, може да буде само да отклони лажне узбуне како би се смањио број људи који мора да буде подвргнут специфичнијим и мање економичнијим тестовима. Код тестирања на присуство рака, на пример, веома је важно да осетљивост теста буде висока, како би се детектовао рак и затим одредио одговарајући третман након тога. Али у овом случају специфичност теста је такође од велике важности, с обзиром да лажне узбуне имају много веће последице него што то је то случај са контролом на аеродромима. Неко ко добије лажно позитиван резултат може да буде подвргнут додатним, често непријатним тестирањима, као што су биопсије и сл. Зато се у случају клиничких тестова често поставља питање да ли је тест довољно користан да може да надомести потенцијалну штету коју праве лажне узбуне.

Одакле потичу грешке у тестирању?

Треба имати у виду да свако мерење представља процену. Када користимо лењир да бисмо измерили дужину свеске, ми заправо процењујемо дужину предмета уз помоћ лењира. Када желимо да меримо физичке или психичке карактеристике човека, тестови су од велике помоћи, али они такође само представљају процену. Зато је кључно питање у којој мери неки тест представља добру процену нечега, односно да ли је грешка мерења довољно мала да можемо да будемо уверени да смо добили тачне резултате. Један извор потенцијалне грешке потиче из статистичких карактеристика теста. Као што смо видели на примерима, ако тест није довољно осетљив или специфичан, то може довести до лажно позитивних или негативних резултата. Чак и да замислимо да постоји тест даје увек 100% тачне резултате, осим ако тест не може сам да се задаје, постојаће могућност људске грешке (више у овом чланку). Грешка може да настане у лабораторији тако што лаборант нпр. случајно помеша два узорка или унесе погрешан резултат у компјутер. Приликом тестирања на присуство вируса нпр. веома је важно дезинфиковати правилно рукавице или их мењати после сваког појединачног узимања узорка. Грешке могу да потичу и од интерференције параметара који се мере. Индикатор за одређену болест може да прелази критичну вредност, али не мора нужно да указује на ту болест. Грешка се може јавити и у случајевима када је неопходна интерпретација резултата теста од стране медицинских радника. Другим речима, већина тестова, ако не и сви, уједно захтевају и људско учешће. Стога за такве тестове није оправдано тврдити да не постоји могућност грешке. Чак је и питање да ли се за сам тест може тврдити да је могуће да буде тачан 100%, због нечега што се зове Бајесова стопа грешке, у шта нећу улазити овом приликом. Дешава се, наравно, да се приликом неких истраживања тестови покажу као 100% тачни, али ако би се та истраживања спроводила довољан број пута, јавила би се грешка. Међутим, постоје тестови чија је могућност грешке изузетно мала, скоро никаква, па се они третирају као да пружају 100% тачне резултате. То је, без икакве сумње, довољно.

Ако сте почели да читате овај текст верујући да су тестови увек поуздани, може вам деловати да је овај текст искључиво критика тестова. Он то наравно није. Не треба бити скептичан поводом тестова генерално, нити да се треба плашити да добијање резултата приликом тестирања неће бити никада тачно. Тестови су изузетно корисни, али неки тестови су бољи а неки лошији. Циљ овог текста је да понуди објашњења око тестовне терминологије, као и да укаже на потенцијалан ризик приликом тестирања путем тестова који нису оптимални. Карактеристике тестова су релативне у односу на специфичан контекст употребе. Тест са одређеним карактеристикама је смислено користити у једном контексту (пример контроле на аеродрому), док је у неком другом то проблематично јер лажне узбуне имају много веће последице (пример тестирања на рак). Тест који је смислено користити у сврху дијагностике не мора нужно да буде добар за скрининг великог броја здравих грађана. Верујем да разумевање потенцијалних ризика може да омогући људима информисаније доношење одлука.

преиспитивања