Почетком априла 1940. године, математичар Џон Керик (John Kerrich) упутио се у Данску како би посетио рођаке, у време када је Други светски рат био увелико у току. Немачка је убрзо напала ову земљу, два дана пре његовог планираног повратка за Енглеску. Данска администрација је потом сместила Керика у камп, где је био приморан да проведе нешто дужи временски период. То га међутим није поколебало, већ је пронашао најбољу занимацију које један математичар може да се досети. Одлучио је да баци новчић 10 000 пута и да запише исход сваког бацања.
Керик је чак и описао тачан начин на који је бацао новчић. Новчић би балансирао на кажипрсту, а затим га палцем лансирао у ваздух отприлике једну стопу (око 30 цм), да би се новчић дочекао на сто прекривен крпом. Ако би новчић показао главу, при следећем бацању би га поставио на кажипрст тако да је глава одозго.
Пошто ме је занимало колико је отприлике времена било потребно Керику за овај експеримент, решио сам да и ја паметно искористим изолацију због коронавируса. У оквиру једног минута, успео сам да бацим новчић и запишем на папир исход укупно 12 пута. То значи да би за 10 000 бацања било потребно око 14 сати. Сумњам, међутим, да би каснија бацања била толико ефикасна, након што би се овим темпом извесно развио артритис. Несумњиво је за овај подухват Керику било потребно много више од 14 сати.
У овом једноминутном огледу, новчић је у неком тренутку четири пута заредом показао главу. Да ли то значи да се онда повећала вероватноћа добијања писма у следећем бацању? Према увреженом мишљењу - да, то повећава вероватноћу да ће следећи исход бити писмо. Пошто је вероватноћа и једног и другог исхода 50%, овај тзв. „закон“ просека захтева да се успостави баланс.
Међутим, овако формулисан „закон“ просека је погрешан. То се веома јасно може видети из резултата Кериковог експеримента, прве емпиријске демонстрације теореме коју је још крајем 17. века постулирао Јакоб Бернули.
Резултати Кериковог огледа
Приликом бацања новчића могућа су тачно два исхода, са вероватноћом од по 50%. У 10 000 бацања, највероватнији исход је да ће новчић показати 5 000 пута главу и 5 000 пута писмо. У Кериковом експерименту, новчић је 5 067 пута показао главу. Дакле, новчић је показао чак 67 глава више.
Погледајмо резултате експеримента (преузете из књиге Statistics Дејвида Фридмена).
Иако је најверовантији исход бацања новчића 50-50%, нећемо увек добити теоријски савршену расподелу. Ако погледамо табелу, видећемо да постоји варијабилитет у односу броја глава и писама, то јест одступање од теоријске расподеле. Одступање у овом случају можемо да припишемо случајној грешци, односно насумичном варијабилитету. Интересантно је да је после стотог бацања новчића било шест глава мање, а да потом ова апсолутна разлика између главе и писма расте. Међутим, када се узме у обзир број бацања, релативна разлика, изражена у процентима, се са бројем бацања смањује и тежи бројки од 50%. На пример, после сто бацања, глава је пала у 44% случајева (44 / 100), док је после 10 000 бацања, глава пала у 50,7% случајева (5 067 / 10 000), иако је у апсолутним бројкама у првом случају било шест глава мање, а у другом чак 67 глава више у односу на оно што бисмо очекивали (једнак број глава и писама). Другим речима, случајна грешка изражена као апсолутна разлика расте с порастом броја бацања, док случајна грешка изражена као релативна разлика опада. Овај оглед демонстрира фундаменталну Бернулијеву теорему - закон великих бројева.
Дакле, „закон“ просека исправно тврди да ће се после одређеног времена исходи приближити њиховој теоријској расподели вероватноће. Ипак, да би до тога дошло, потребан је велики број опсервација. На малом броју опсервација, тежња ка очекиваним вредностима (50% у овом случају) не мора да се испољи.
Описана законитост односи се на малтене бесконачни број опсервација као целине, али ни на једну од њих појединачно; чак и ако бисмо након одређеног броја бацања добили 10 везаних писама, то не чини добијање главе у следећем бацању вероватнијим. Вероватноћа остаје пола-пола. У овом случају, реч је о тзв. независним вероватноћама.
Типичан пример дејства независних вероватноћа можемо наћи у играма на срећу. У казину Монте Карло 18. августа 1913. године, рулетска куглица пала је на црно поље 26 пута заредом; вероватноћа овог догађаја износи 1 у 137 милиона. Након десетог црног поља у низу, играчи су почели константно да играју на црвено поље, верујући да се вероватноћа да ће у следећој рунди куглица пасти на црвено поље драстично повећала. Услед ове тзв. коцкарске заблуде, илити Монте Карло заблуде, изгубили су милионе. Веровање да уколико се одређени исход више пута поновио - супротан исход постаје вероватнији у наредној рунди, представља једну од честих грешака играча рулета. Као што је случај и са бацањем новчића - свака рунда представља независан догађај, на који не утичу претходно одигране партије.
Значај новчића за статистичко закључивање
Размотримо сада пример који наводи Насим Талеб у својој књизи Black Swan. Претпоставите да је новчић фер, односно да је једнака вероватноћа добијања главе или писма. Неко баци новчић 99 пута и сваки пут новчић покаже главу. Која је вероватноћа да се при следећем бацању добије писмо?
Талеб користи овај пример да укаже да у овом случају није претерано смислено очекивати да ће бити подједнако вероватно добити писмо или главу у следећем бацању. Његова поента је да је смисленије посумњати у претпоставку да је новчић фер, зато што је вероватније да се испостави да новчић ипак није фер, него да ће фер новчић показати главу 99 пута.
Ако бисте бацили новчић 99 пута и, као у Талебовом примеру, новчић 99 пута заредом покаже главу, извесно је да не би било велике дилеме око тога да ли је новчић фер. Међутим, шта ако би новчић показао главу 40 пута? Шта бисмо онда могли да закључимо?
Погледајмо пример из књиге Statistics Done Wrong.
Замислите да желите да утврдите да ли је новчић фер или је пристрасан тако да показује главу у 60% случајева уместо у 50%. Баците новчић 100 пута и он покаже 60 глава. Наравно, већ смо утврдили да је највероватнији исход фер новчића 50-50. Међутим, само нешто мање вероватно је да се добије и 51 глава наспрам 49 писама. Чак и када је новчић потпуно фер, могуће је добити 60 глава у 100 бацања. С друге стране, вероватноћа да падне само једна глава је изузетно мала.
Погледајмо график који приказује вероватноћу добијања одређеног броја глава у 100 бацања. На хоризонталној оси се налази број добијених глава, а на вертикалној се налази вероватноћа добијања. Ако бисмо бацили 100 пута фер новчић у више наврата, могли бисмо да очекујемо да у 95% случајева новчић покаже између 40 и 60 глава. Приликом великог броја бацања новчића, расподела једног исхода (нпр. главе) ће одговарати нормалној расподели вероватноће. Приказано следи из закона великих бројева и назива се Моавр-Лапласова теорема.
Као што се види на графику, иако је највероватнији исход 50 глава, он се и даље добија у мање од 10% случајева када је новчић фер. Исход од 60 глава се може очекивати у 1% случајева. Како онда можемо да утврдимо да ли је новчић који смо бацили 100 пута и добили главу 60 пута фер или не?
Да бисмо то утврдили, потребно је да спроведемо тестирање статистичке хипотезе. Ова тема, међутим, заслужује посебан текст, тако да нећу улазити у детаље. Овде је битно истаћи да тестирање статистичке хипотезе није довољно само по себи, ако не знамо колико је вероватно да тим тестирањем уопште можемо да разлучимо да ли је новчић фер или није. Зато је неопходно поставити додатно питање - да ли је 100 бацања новчића уопште довољно да утврдимо да ли је он фер или није путем статистичког тестирања?
Статистичка снага
Концепт који је од кључне важности овде је статистичка снага теста. Статистичка снага се односи на вероватноћу да тест покаже статистички значајан ефекат када он заиста постоји у реалности. У овом случају, постојање ефекта би значило да је новчић пристрасан тако да заиста даје више глава него писама, односно да није фер. Снага заправо представља карактеристику теста која се зове осетљивост (за више о карактеристикама тестова погледајте овај текст).
Више различитих фактора утичу на снагу једног теста, од којих су за наш пример најважнији следећи:
Величина пристрасности (величина ефекта) - тест ће много лакше дискриминисати између фер и нефер новчића уколико он само једном покаже главу у 100 бацања, него ако покаже 60 пута главу. У првом случају је разлика, тј. пристрасност много већа.
Величина узорка - више података, односно бацања новчића, омогућава успешније дискриминисање мањих пристрасности, зато што је већи број опсервација мање осетљив на насумичност, односно на случајни варијабилитет.
Дакле, на претходном графику смо видели да ће фер новчић показати између 40 и 60 глава у 95% случајева када бацамо новчић 100 пута. Сада се питамо колико је вероватно да ћемо тестирањем исхода 100 бацања новчића моћи да закључимо да ли је он фер или није? Одговор на то нам може дати крива статистичке снаге (power curve).
Када би новчић био пристрасан тако да је највероватнији исход у 100 бацања 60 глава, вероватноћа да можемо да утврдимо да се заиста ради о нефер новчићу износи свега 50%. У само 100 бацања не постоји довољно података да бисмо могли увек да разлучимо да ли смо добили 60 глава услед насумичности или услед тога што је новчић нефер.
Тек ако би новчић био још више пристрасан, нпр. тако да показује отприлике 70 глава или више, бисмо могли да будемо скоро сигурни да се ради о нефер новчићу после 100 бацања. Такође, уколико бисмо повећали број бацања новчића, то би повећало и статистичку снагу, односно осетљивост теста и самим тим смањило несигурност. Погледајмо криву статистичке снаге у случају 1000 бацања новчића.
Након 1000 бацања новчића, много лакше бисмо могли да утврдимо да ли је новчић фер или није. Добијање главе у 60% случајева је сада много мање вероватно и, ако би се то десило, могли бисмо да будемо практично уверени да је новчић нефер.
Дакле, већи број опсервација омогућава извођење утемељенијих закључака, односно поузданије раздвајање правог ефекта од насумичности. Другим речима, уколико статистички тест не поседује довољно велику статистичку снагу, резултати те анализе постају врло дискутабилни, макар она показивала и значајне ефекте. Ова поента важи за било које статистичко тестирање хипотезе када се покушава утврдити постојање ефекта, нпр. разликовање или повезаност неких варијабли.
Импликације занемаривања статистичке снаге
Данијел Канеман и Амос Тверски су пре 50 година први демонстрирали да истраживачи верују у „закон“ малих бројева; односно да имају претерану увереност у резултате студија са ниском статистичком снагом и малим узорком. То може да има велике последице по оправданост извођења закључака на основу статистичког тестирања хипотеза.
Чест сценарио је да истраживања са недовољном снагом покажу постојање разлика или повезаности (тј. ефекта) када их у стварности нема (лажно позитивни резултати). Уколико је статистичка снага 50%, то практично значи да је вероватноћа да један конкретан спроведен тест „ухвати“ прави ефекат уколико он постоји у стварности 50%. Додатни проблем је што мала статистичка снага теста такође доприноси томе да величина ефекта коју покажу резултати студије буде већа него што јесте у реалности. Публиковањем великог броја лажно позитивних резултата услед мале статистичке снаге се додатно троши време и ресурси приликом покушаја репликације таквих студија.
Међутим, проблем постоји и у супротном смеру. Уколико експеримент нема довољну статистичку снагу, тешко ће се уочити ефекти осим ако они нису посебно велики. Другим речима, студије које имају малу статистичку снагу ће повремено показати непостојање ефекта чак и када он у реалности постоји (лажно негативан резултат). Ако је статистичка снага 50%, то уједно подразумева да је вероватноћа да ће конкретно истраживање показати лажно негативан резултат исто 50%.
С једне стране, то значи да статистички тестови немају довољно података који би омогућили да се детектују мањи ефекти. Исто тако, чак и ако истраживачи утврде да постоји ефекат и статистички значајна разлика или повезаност на основу p вредности, неће бити оправдано извући закључак о реалном постојању ефекта, уколико је статистичка снага теста мала.
Чак и у истраживањима објављеним у елитним научним часописима ретко се извештава о статистичкој снази. Овај проблем је посебно заступљен у психолошким и клиничким истраживањима, а поготово у многобројним областима неуронауке, где се по правилу користи мали број испитаника. На пример, post-hoc анализа показала је да око половина анализираних студија из неколико области биомедицине имала медијалну статистичку снагу испод 20%. Ово је посебно проблематично ако се на основу резултата истраживања доносе важне одлуке, које са собом носе ризик уколико резултати не одговарају стварности.
Проблем представља и коришћење изразито великих узорака, јер ће то скоро увек довести до статистички значајних резултата (p < 0,05), иако величина ефекта може да буде веома мала. Непоштени истраживачи занемарују добијену величину ефекта, и извештавају о резултатима који су у практичном смислу безначајни. Како би се избегао овај проблем и како би се повећала вероватноћа да студија може да разлучи да ли постоји ефекат или не, истраживачи треба да спроведу a priori анализу статистичке снаге. Дакле, пре спровођења самог истраживања, могуће је утврдити неопходну величину узорка потребну да би се детектовао ефекат одређене величине; величина ефекта која се покушава „уловити“ се најчешће процењује уз помоћ разматрања величине ефекта коју су показале претходне студије. Истраживачима су на располагању и други методи, попут интервала поверења или статистичке уверљивости (statistical assurance) итд. На статистичку снагу утиче још фактора, сем два која су наведена. Уколико се нпр. побољша начин мерења варијабли и смањи грешка мерења, статистичка снага теста се може повећати.
Из примера са новчићем видели смо да је статистичка снага кључан концепт који треба узети у обзир приликом тестирања хипотеза. Упркос томе, снага се често занемарује у истраживањима, нарочито у појединим научним областима. С обзиром на значајан пораст броја истраживања последњих деценија, од велике је важности приликом спровођења студија, као и тумачења резултата других истраживања узети обзир њихову статистичку снагу. У супротном, постоји опасност од придавања превеликог значаја студијама чији је допринос разумевању феномена који се изучава практично занемарљив. А већ знамо да већини објављених налаза истраживања не можемо веровати.
Comments