top of page

Рашчивијање репликационе кризе у психологији


У периоду од 2000. до 2016. године, основано је неколико хиљада нових научних часописа а број објављених научних публикација на годишњем нивоу се удвостручио. Наиме, 2000. године је објављено око 800 хиљада публикација, док је 2016. године тај број износио чак 1,9 милиона. Када се узму у обзир само часописи који су постојали и пре 2000. године, пораст публикација је много мањи, са врхунцем 2016. када је објављено нешто више од милион. Када се водеће државе по објављеним публикацијама анализирају појединачно, поново се уочава ова разлика у порасту објављивања у часописима који су настали након 2000. године у односу на часописе који су постојали и раније. Током периода 2000-2016. пораст публикација у часописима који су постојали и пре 2000. године у САД је износио 3%, 5% у Великој Британији и око 10% у Француској и Немачкој. Током истог периода укупан број публикација (дакле, рачунајући и часописе који су настали после 2000. године) порастао је у САД, Великој Британији и Француској за 70%, односно за чак 80% у Немачкој.


С обзиром да данас постоји велики број публикација, поставља се питање њиховог квалитета, односно како можемо знати да ли су тврдње које произилазе из резултата научних истраживања истините.


Један од метода који нам омогућава да с већом сигурношћу верујемо у резултате истраживања јесте могућност да се исти резултати у будућности понове. Овај принцип је важан како се вера у резултате и закључке неког истраживања не би заснивала на ауторитету аутора студије, рецензената или уредника часописа, и како би се повећала сигурност у то да резултати истраживања нису последица случајне или систематске грешке. Упркос томе, покушаји да се резултати истраживања поново потврде у некој другој временској тачки, на другом узорку или од стране других истраживача у појединим научним областима, попут психологије, били су веома ретки.

 

На овом месту најпре је потребно појаснити терминологију која се користи.


Репродуцибилност (Reproducibility) се односи на могућност поновљања резултата оригиналне студије коришћењем истих материјала које је оригинални аутор користио. Ово подразумева коришћење података из оригиналне студије, који би требало да пруже идентичне резултате ако други истраживачи примене идентичне анализе. Овај принцип представља минимум који се мора испунити да би се могло говорити о кредибилитету неког истраживања. Да би једно истраживање било репродуцибилно, потребно је да оригинални аутор сачува или учини јавним сирове или трансформисане податке који треба да омогуће да се и у будућности спроводе идентичне анализе на њима. Репродуцибилност нема улогу у пружању нових доказа о резултатима студије.


Репликабилност (Replicability), с друге стране, представља пружање нових доказа о резултатима истраживања. Репликабилност се односи на могућност истраживача да понови резултате оригиналне студије користећи нове податке, дакле спровођењем потпуно новог истраживања, под условом да поштује процедуру оригиналне студије.


Ова два термина се често користе као синоними или се не користе конзистентно. Пример тога је и највећи покушај реплицирања истраживања у психологији којем је додељен назив Reproducibility project. За још детаљнију класификацију и прецизније одређење ових појмова, видети овај чланак. За потребе овог текста није неопходно да улазимо у финије детаље. У овом тексту главни нагласак је на проблему репликабилности у области психологије.

 

Проблем репликабилности постао је горуће питање тек у последњој деценији, након што су објављени резултати Reproducibility пројекта. Наиме, тим од 270 истраживача покушао је да реплицира 100 научних студија из три цењена међународна психолошка часописа 2008. године. Како би репликације биле што веродостојније почетним студијама, истраживачи су контактирали ауторе оригиналних студија са намером да осигурају коришћење идентичних материјала и остваривање сличних услова у којима су оригинална истраживања спроведена. Наравно, треба имати у виду да ово није увек могуће извести. Успешност реплицирања оригиналних студија у овом пројекту износила је 36%, односно 47%, у зависности од тога који критеријум је коришћен за одлуку шта чини успешну репликацију.


Са овим проблемом не сусреће се само психологија, већ и економија, медицина, фармакологија и истраживања у спорту, с тим што су најочигледније последице видљиве у медицини и фармакологији. Процена је да у Сједињеним Америчким Државама преклиничка истраживања за која се покаже касније да не могу да буду реплицирана коштају ову земљу 28 милијарди долара годишње, што је половина намењеног буџета.


Један скорији случај неуспешне репликације уздрмао је и свет нобеловаца. Наиме, Франсиз Арнолд, добитница Нобелове награде за 2018. годину из области хемије повукла је свој рад из часописа Science након што није успела да реплицира резултате.


Поставља се питање зашто истраживачи продукују велики број истраживања упитног квалитета која потом имају проблем да буду поновљена у будућности?


Стратешка игра


Преовлађујуће мишљење је да се узрок налази у самом академском систему и доминантној култури „објави или нестани“ (publish or perish). Наиме, научници су приморани да играју једну стратешку игру како би увећали своје шансе да објаве публикације и добију економске и репутационе подстицаје за даљи рад. Од објављивања често зависи и могућност задржавања посла на факултетима или институтима, што додатно отежава посао истраживачима који су ангажовани и у настави, с обзиром да је балансирање обавеза у настави и истраживачком раду веома захтевно. На овај начин приморани су да по сваку цену објављују што више радова и да се фокусирају на квантитет уместо на квалитет, и да им један од главних мотиватора буде побољшавање метрике свог научног ангажмана (цитираност, алтметрика итд). Нобеловка Франсиз Арнолд је истакла да је била веома заузета у периоду током објављивања истраживања и да није урадила свој посао како треба.


Исход оваквог система и културе „објави или нестани“ су лоше методолошке и истраживачке праксе и злоупотреба статистичких анализа. Пишу се резимеи истаживања који преувеличавају оправданост закључака, односно у којима се тврди да су постигнута извесна открића која заправо не произилазе из података. Самим тим, истраживачи избегавају да своје сирове податке деле са другима из страха да њихови резултати и закључци буду доведени у питање. Посебан проблем чини тзв. пристрасно објављивање (publication bias), то јест, „пецање“ и објављивање искључиво позитивних резултата и постављање хипотеза након прикупљања података, као и избегавање да се прикажу и прокоментаришу истраживачке хипотезе које нису потврђене.


Као последица лоших истраживачких пракси развила се платформа Open Science Framework, чији је циљ да онемогући пристрасно објављивање тиме што се истраживачи мотивишу да пре самог спровођења објаве нацрт истраживања (тзв. пререгистрација). Поред тога, неки часописи сада захтевају од аутора студије да пошаљу сирове податке приликом пријављивања радова за објављивање. Међутим, иако пререгистрација и транспарентност података представљају добре искораке ка бољим истраживачким праксама, као што ћемо видети у наставку, они нису довољни.


Статистички ритуал


Герд Гигеренцер заговара тезу да поред спољашњих погодности попут репутационих или економских награда, улогу играју и унутрашњи фактори. Он тврди да су истраживачи мотивисани не само опортунизмом, већ да се упуштају у један статистички ритуал у који заиста верују. Он упоређује овај ритуал са другим социјалним ритуалима чије су карактеристике приврженост и заблуде које инхибирају исправно размишљање и здрав разум. У овом случају, заблуде се тичу самих основа статистике и стога онемогућавају добру истраживачку праксу. Да је узрок искључиво стратешко понашање истраживача, наводи Гигеренцер, истраживачи не би жртвовали здрав разум и елиминисали расуђивање из својих истраживачких пракси. По његовој тези, у основи овог статистичког ритуала стоји нулти ритуал, који се огледа у следећа три корака:

  1. Постављање хипотезе да не постоји разлика или да не постоји повезаност између варијабли, без улажења у детаље истраживачке хипотезе.

  2. Коришћење конвенције од 5% за одбацивање нулте хипотезе (p < 0,05). Ако тест показује статистички значајну повезаност или разлику, одбацивање нулте хипотезе и прихватање истраживачке хипотезе.

  3. Репетитивно коришћење ове процедуре изнова и изнова.

Гигеренцер истиче да овај ритуал нема поткрепљење у статистици, већ да је производ мешавине идеја Фишерове теорије с једне стране, односно Нејманове и Пирсонове теорије с друге. За ову хибридну творевину одговорни су првобитни уџбеници из статистике потпомогнути једном модерном идејом: елиминацијом расуђивања истраживача. Доношење закључака на основу података не би смело да се обавља аутоматски, већ би у обзир требало узети и величину грешке, величину ефекта, као и претходне студије. Али не само да је елиминација расуђивања постала тренд, већ се статистичко закључивање своди на један социјални ритуал, нулти ритуал, који је повезан са емоцијама истраживача, репетитивним понашањем, страхом од санкција од стране уредника часописа, као и заблудама око тога шта p вредност (p value) заправо представља.


Ово последње је управо Гигеренцер и демонстрирао у једном истраживању, где је циљ био утврдити да ли постоје заблуде код истраживача и будућих истраживача психолога у погледу тога шта нам p вредност заправо говори. На узорку од 839 академских психолога (професора) и 991 студента из неколико различитих држава, он је показао да постоје одређене статистичке заблуде код 20% професора који предају статистику на универзитетима, 39% осталих професора психологије и 66% студената психологије. Ове заблуде стоје у основи нултог ритуала и тичу се самих основа статистике и тога шта се може закључити на основу p вредности, што даље узрокује лошу истраживачку праксу.


Како победити у трци за статистичком значајношћу


Иако би претходно наведене могућности пререгистровања и дељења података могле да помогну борби против опортунизма, Гигеренцер сматра да ови кораци нису довољни, с обзиром да не могу да искорене нулти ритуал и да доведу до бољег разумевања статистичких и истраживачких пракси. Он наводи да су нужна следећа решења, чији је циљ да охрабре статистичко размишљање уместо статистичких ритуала:

  1. Уредници часописа не би требало да прихватају публикације на основу критеријума p вредности, већ на основу теоријског и методолошког квалитета студија, без обзира на p вредност. Ова мера би елиминисала трку за статистички значајним резултатима и притисак да се жртвују добре методолошке праксе.

  2. Уредници часописа би требало праве разлику између истраживања чији је циљ развијање хипотеза и истраживања усмерених на тестирање хипотеза. Када спроводе тзв. експлоративна истраживања у циљу развијања хипотеза, истраживачи не би требало да извештавају p вредности.

  3. Уредници часописа би требало да захтевају да се нова хипотеза тестира у односу на најбоље хипотезе које постоје у том тренутку, уместо у односу на нулту хипотезу. Компетитивно тестирање захтева постављање прецизних хипотеза и самим тим охрабрује грађење математичких модела психолошких процеса.

  4. Одељења за психологију на факултетима би требало да уче студенте статистичком размишљању и алатима а не статистичким ритуалима. Алати укључују технике за визуализацију дескриптивних података, Фишерово тестирање нулте хипотезе (које није исто као нулти ритуал), мета-анализе, Бајезијанско закључивање итд. Најважније од свега, студенти морају да знају који од ових алата треба да користе у којим ситуацијама.

Поред тога, истраживачи би требало да конструишу истраживања са довољно великом статистичком снагом (statistical power). Снага представља вероватноћу прихватања алтернативне (истраживачке) хипотезе у случају када је она тачна, односно одбацивање нулте хипотезе када она заиста и треба да се одбаци. На статистичку снагу утичу величина ефекта и величина узорка. Пошто репликација истраживања директно зависи од статистичке снаге, ако је она ниска онда статистички значајни налази прецењују величину ефекта у оригиналном истраживању и самим тим се смањују шансе да се добију тако велики ефекти у неком наредном истраживању.



За крај, вратимо се пројекту Reproducibility.


Истраживачи у овом пројекту користили су велики број критеријума за утврђивање да ли је репликација била успешна или не. Непостојање консензуса око тога шта чини успешно реплицирану студију отворило је сумњу у њихов методолошки приступ и закључке.


Критичари тврде да се не може говорити о репликационој кризи у психологији на основу резултата овог пројекта. Као разлог немогућности да се понове резултати појединих студија наводе грешку у узорковању и чињеницу да су се репликације у много томе разликовале од оригиналних студија. Аутори наводе многе примере који доводе у питање да ли се овде ради уопште о репликацијама, с обзиром на огромну разлику у методологији оригиналних и поновљених студија. Навешћу само један пример. Наиме, у једној оригиналној студији циљ је био испитати последице служења у војсци у Израелу, док је у поновљеном истраживању испитано замишљање последица одласка на медени месец на узорку држављана САД.


У овом пројекту, учињен је само један покушај да се свака од 100 студија реплицира. Међутим, критичари наводе да је неопходно реплицирати сваку студију више пута како би се извели закључци о томе да ли је репликација била успешна или није. Они наводе Many Labs пројекат као добар пример. У овом пројекту циљ је био да више различитих истраживачких тимова независно покушају да реплицирају једну оригиналну студију. Када је коришћен овај метод, укупно 85% студија из области психологије је реплицирано. Поред тога, критичари су уочили да постоји разлика у зависности од тога да ли су оригинални аутори подржали репликацију или не. Наиме, пре него што су истраживачи пројекта Many Labs започели покушај реплицирања, оригинални аутори сваке од студија су упитани да ли би подржали протокол репликације који су осмислили Many Labs истраживачи. Испоставило се да је око 60% студија било реплицирано када би њихови оригинални аутори подржали протокол репликације, док је свега 15% студија успешно реплицирано када ово одобрење није добијено.


Други аутори критикују статистичку праксу коришћену у Reproducibility пројекту. Наиме, Гигеренцер истиче да ако се закључак о постојању ефекта заснива на p вредности, а исти критеријум се користи и за утврђивање тога да ли је нека студија реплицирана, онда се мана ослањања на p вредности преноси и на репликационе студије. Гелман и Стерн се слажу у овом погледу и истичу да постоје насумичне варијације у p вредности и је потпуно очекивано да се у некој поновљеној студији не добије статистички значајан резултат упркос томе што је он постојао у оригиналној студији. Самим тим, p вредност не би требало користити за утврђивање кредибилитета оригиналне студије.

 

Уместо давања коначне оцене тога у којој мери постоји репликациона криза у психологији, потребно је уважити велики допринос ове кризе у откривању још базичнијих проблема са којим се суочавају истраживачи - као што су статистичке заблуде и неразумевање алата које користе, и трка за економским и репутационим погодностима. Оно што је потребно у овом тренутку није већи број публикација и истраживања, већ мањи број квалитетних истраживања. То је једино могуће кроз боље разумевање статистике с једне стране и, што је још важније, враћање коришћења здравог разума и научног расуђивања током комплетног истраживачког процеса.

0 comments

Recent Posts

See All

Постоји ли наука о уму?

Текст првобитно објављен у часопису Елементи 31. октобра 2022. године Људски ум једна је од најинтригантнијих појава у универзуму. Од...

Мрачна историја статистике

Текст првобитно објављен у часопису Елементи 19. јула 2022. Истовремено са буктањем Наполеонових ратова по уласку у 19. век, у белгијском...

Инжењеринг добрих одлука

Текст првобитно објављен у часопису Елементи 11. маја 2022. Доношење одлука је тешко. Са примерима лоших одлука, својих или туђих,...

Comments


bottom of page