torstai 14. marraskuuta 2019

Onko lääketiede luotettavuuskriisissä?

1. Johdanto


YLE:n taannoisessa uutisjutussa lääketieteen professori Teppo Järvinen ilmaisi näkemyksen, jonka mukaan jopa puolet lääketieteen toimista olisivat ‘turhia tai huonosti tehoavia’. Hänen mukaansa syynä on se, että hoitomuotoja on aikaisemmin otettu käyttöön puutteellisen ja virheellisille tuloksille alttiin tutkimusnäytön pohjalta.

Tutkija Ben Goldacre julkaisi vuonna 2012 kirjan Bad Pharma, joka ei ainoastaan käsittele lääketeollisuuden pahuutta vaan myös suurempia ongelmia lääketieteen tutkimuskirjallisuudessa. Myös lukuisia muita lääketieteen tutkimuksen ristiriitoja käsitteleviä kirjoja on julkaistu, esimerkiksi Peter Gøtzschen Tappavat lääkkeet ja järjestäytynyt rikollisuus (2013) tai Vinay Prasadin ja Adam Cifun kirjoittama Ending Medical Reversal (2015).

Lääketieteen ongelmista käydään myös keskustelua kotimaisen lääketieteen yhteisön sisällä. Aikakauskirja Duodecimin syksyn 2019 kolumnissa Tutkijan vala emeritusprofessori Kimmo Kontula tuo esille liudan ongelmia lääketieteen tutkimuksissa: 

“Tiedeyhteisö on 2000-luvun alussa keskustellut yhä enemmän eräistä kipeistä kysymyksistä, jotka tuntuvat heiluttavan luottamusta tieteen havaintoihin. Tutkimuspetoksia tulee vuosittain ilmi, vertaisarvioinnin kulkua on pystytty peukaloimaan yllättävillä tavoilla ja tutkimustuloksia vaivaa toistettavuuden ongelma - mahdollisesti kovan kilpailun ja liian hätäisen julkaisemisen vuoksi. Tutkimushankkeita ei aina rekisteröidä asianmukaisesti, ja iso osa rekisteröidyistä (ja negatiivisen tuloksen antaneista?) tutkimuksista jätetään julkaisematta, mikä johtaa julkaisemisharhaan. Tulosten tilastollisessa käsittelyssä luovitaan kyseenalaisella tavalla, ja onpa näyttöä siitäkin, että tutkijat liioittelevat havaintojensa merkitystä esiintyessään mediassa.”

Mistä tässä kaikessa on kyse? Onko kyse lääketieteen uskottavuutta syövästä ongelmasta vai pikemminkin turhasta kohusta? Pyrin tässä kirjoituksessani avaamaan lukijalle lyhyesti, mitä kaikkia ongelmia lääketieteen sisältä on löydetty ja mikä niiden merkitys on.

Artikkelista tuli mielestäni hieman vaikealukuinen, enkä ole varma kaikkien tulkintojeni luotettavuudesta. Uskon kirjoitukseni kuitenkin tarjoavan kattavan kokoelman hyödyllisiä kirjallisuusviitteitä niille, joita tämä aihe yleisesti kiinnostaa. Artikkelin hieman laajempi PDF-versio löytyy täältä. Kiitän artikkelin varhaisemman version kommentoineita henkilöitä (Kaisa Saurio, Touko Kuusi, Anton Kunnari, Juhani Knuuti). Nykyistä versiota ei ole oikoluettu.


2. Replikaatiokriisi


Osa tutkijoista kokee lääketieteen ja psykologian tutkimuksen kärsivän “replikaatiokriisiä”. Termin taustalla on havainto siitä, että monia lupaavia tieteellisiä havaintoja ei saadakaan myöhemmissä tutkimuksissa toistettua.

Keskustelua on käyty runsaasti professori John Ioannidisin artikkelin Why Most Published Research Findings Are False pohjalta, jossa selitetään miksi pienikokoiset ja menetelmiltään kehnot tutkimukset johtavat toistuvasti vääriin positiivisiin tuloksiin. Myönteiset tutkimustulokset ovat monesti vain sattuman ja tilastokikkailun aikaansaamia 'vääriä positiivisia' (false positive), ja tämä on yleisempää erityisesti seuraavissa tilanteissa:
  • kun tutkimuksen otoskoko on pieni
  • kun havaitut efektikoot ovat pieniä
  • kun testataan useampia yhteyksiä valitsematta tilastollisia testejä ennakkoon
  • kun tutkimusasetelmissa, tulosmuuttujissa ja analyyseissa on joustoa
  • kun tutkijalle on eduksi saada merkitseviä tuloksia (Ioannidis 2005, ks. myös Button ym. 2013).

Nature-lehti julkaisi vuonna 2016 kohutun uutisjutun nimeltä 1,500 scientists lift the lid on reproducibility, jossa kyselyaineiston pohjalta todettiin, että tieteessä suuri osa eri alojen tutkijoista kokee tieteen olevan jonkinlaisessa luotettavuuskriisissä. 

Nature on myös julkaissut jutun Raise standards for preclinical cancer research, jossa kerrotaan bioteknologiafirma Amgenin yrityksestä vahvistaa 53 keskeistä tutkimustulosta prekliinisessä syöpätutkimuksessa. Jutun mukaan vain 53 replikaatioyrityksestä vain kuusi onnistui. Tuoreempi julkinen replikaatioprojekti nimeltä Reproducibility Project: Cancer Biology on tosin onnistunut toistamaan 14 eri syöpätutkimuksen havainnoista yli puolet.

Lääkärilehti julkaisi vuonna 2012 pääkirjoituksena artikkelin Miksi lääketieteen totuus muuttuu?, jossa myöskin pohdittin lääketieteellisten tutkimustulosten horjuvuutta raflaavin esimerkein:

“Kun ensim­mäiset tutki­mukset toi­sen pol­ven mielia­la­lääk­keistä jul­kaistiin, us­kottiin onnel­li­suus­pil­le­reiden olevan rat­kaisu masen­nukseen. Jatko­tut­ki­mukset ovat pudot­taneet te­hon kolman­nekseen. Il­miö on tut­tu muil­takin lääke­tieteen aloilta. Esi­mer­kiksi mo­net uu­det syöpä­lääkkeet, pallo­laa­jen­nus­stentit ja vaik­kapa E-vi­ta­miini sy­dän- ja veri­suo­ni­tautien es­tossa ovat ol­leet innos­tavia hoi­toja alku­vaiheen tutki­muk­sissa, mut­ta mene­tel­miltään luotet­ta­vammat jatko­tut­ki­mukset ovat tuo­neet jäi­tä hat­tuun. Tutki­mus­näyttö viit­taa sii­hen, et­tä jo­pa run­saasti sitee­ratut, arvos­te­tuissa leh­dissä jul­kaistut tu­lokset näyttäy­tyvät usein risti­rii­tai­sina seu­rannan va­lossa.”

Vaikka puhe replikaatiokriisistä on hyvin yleistä, jotkut tutkijat vastustavat termin käyttöä ja pitävät kriisinarratiivia ylimitoitettuna suhteutettuna siihen, että nykytiede on saanut paljon hyvää aikaan (Fanelli 2018, Jamieson ym. 2018). 

Alla on kiinnostuneille lukijoille 15-minuuttinen hyvätasoinen What Makes Science True -video koskien replikaatiokriisiä.





3. Replikaatiokriisistä lääketieteessä


3.1. “Medical reversal” -ilmiö

Lääketieteen apulaisprofessori, erikoislääkäri Vinay Prasad on kirjoittanut ilmiöstä nimeltä medical reversal. Termi viittaa siihen, että lääketieteessä ilmestyy säännöllisesti tarkentavia tutkimustuloksia, jotka asettavat jo enemmän tai vähemmän käytössä olevia hoitomuotoja aikaisempaa huonompaan valoon. Uusi tutkimusnäyttö saattaa esimerkiksi osoittaa hoidon tehon heikommaksi tai sen haitat suuremmiksi kuin aiemman näytön perusteella tiedettiin. Joissakin tilanteissa tämä johtaa hoitomuodosta luopumiseen tai sen aiempaa harkitumpaan käyttöön.

Prasadin ryhmän ensimmäinen artikkeli nosti näkyviin 146 esimerkkiä tutkimuksista, joissa saatiin kielteistä näyttöä erinäisistä hoitokäytännöistä, joista monet ovat olleet laajemminkin käytössä. Toinen laajempi artikkeli nosti esiin 396 esimerkkiä (Prasad ym. 2013, Herrera-Perez ym. 2019, ks. myös Sutton ym. 2018).


Medical reversal - esimerkkejä
1
Polven nivelrikossa tai nivelkierukan repeytymisessä usein käytetty polven tähystysleikkaus on osoittautunut vain lumeleikkauksen tehoiseksi (Moseley ym. 2002, Kirkley ym. 2008, Sihvonen ym. 2013).
2
Parasetamolia on usein suositeltu ensilinjan kipulääkkeenä akuuttiin alaselkäkipuun ja nivelrikkoon, mutta viime vuosien tutkimusnäytön valossa sen teho ei poikkea lumelääkkeestä (Williams  ym. 2014, Bannuru ym. 2015, Paakkari&Kalso 2018)
3
Rintasyöpään liittyvässä imunestekierron häiriössä potilaita kehotettiin aikaisemmin välttämään vaivalle altistuneen käden käyttöä, mutta myöhemmin tutkimusnäyttö osoitti painonnoston olevan turvallista ja jopa hyödyllistä (Schmitz ym. 2010, Brown&Schmitz 2015)
4
Niukasti kalsiumia sisältävää ruokavaliota on suositeltu potilaille, joilla on ollut munuaiskiviä tai idiopaattista hyperkalsiuriaa. Tämän suosituksen kuitenkin havaittiin kaksinkertaistavan munuaiskivien uusiutumisen riskin (Borghi ym. 2002).
5
Hormonikorvaushoitoa on käytetty vaihdevuosien jälkeiseen vanhuuden sairauksien ehkäisyyn, mutta 2000-luvulla on kertynyt näyttöä, ettei se kuitenkaan auttaisi kokonaiskuolleisuuteen, sydän-/syöpäkuolleisuuteen tai elämänlaatuun (Benkhadra ym. 2015, Hays ym. 2003)

Suomalainen media on toisinaan käsitellyt ilmiötä. Esimerkiksi YLE uutisoi kesällä 2019 otsikolla Käsitys aspiriinista ihmelääkkeenä on kaatunut tutkimuksissa mutta kaikki eivät sitä usko, kun osoittautui että oikeastaan vain harvat potilaat hyötyvät aspiriinista. Vuonna 2013 uutisoitiin otsikolla Suuri osa polven tähystysleikkauksista tehdään turhaan, perustuen äskeisen taulukon ensimmäiseen esimerkkiin.

Palmer Greene ja kumppanit pohtivat vuonna 2019 julkaistussa Should Evidence Come with an Expiration Date? artikkelissa sitä, että tuoreemmat tutkimukset esimerkiksi aspiriinista ja ACE-I -estäjistä eivät näytä enää samoja hyötyjä kuin vanhemmat tutkimukset. Kirjoittajat esittävät, että tehon heikkeneminen saattaa liittyä siihen, että nykyväestö on riskitekijäprofiililtaan ja lääkityksiltään erilaista kuin aiemmin, joten aiemmissa tutkimuksissa havaittu hyöty ei enää välttämättä päde nykyväestöön (Greene ym. 2019).

Osa tutkijoista tutkii myöskin hieman rinnakkaisena aiheena lääketieteellisten toimenpiteiden liikakäyttöä. Viime aikoina esimerkiksi Käypä hoito -sivustoillakin on julkaistu lukuisia Vältä viisaasti -suosituksia turhien toimenpiteiden vähentämiseksi terveydenhuollossa (Morgan ym. 2019, Brownlee ym. 2017, Heneghan&Mahtani 2019). Tutkimuskirjallisuudessa vilahtelee myös termi deprescribing, jolla tarkoitetaan potilaiden tarpeettomien lääkitysten keskeyttämistä (Woodford&Fisher 2019, Garfinkel 2018, Jansen ym. 2016, Garfinkel&Mangin 2010).


3.2. Toimimattomia lääkkeitä potilaiden hoitoon

Vinay Prasad mainitsee kirjassaan useita esimerkkejä siitä, että hoitomuotoja on otettu käyttöön sen perusteella että ne ovat alun perin parantaneet sairauksien sijaismuuttujia (surrogate marker). Tämä muutos sairauden markkereissa ei kuitenkaan ole useissa tapauksissa johtanut konkreettiseen hyötyyn kuten esimerkiksi vähäisempään kuolleisuuteen.

Verenpainelääke atenololi laski verenpainetta, mutta ei vähentänyt kuolleisuutta.
Sydänlääke flekainidi esti ylimääräisiä sydämenlyöntejä, mutta lisäsi sydänkuolemia 
Niasiini nosti hyvää HDL-kolesterolia, mutta ei vähentänyt sydänkuolemia
Diabeteslääke (rosiglitatsoni) laski verensokeria, mutta ei vähentänyt kuolleisuutta
Diabeteksen intensiivihoito laski kohonnutta verensokeria, mutta ei vähentänyt kuolleisuutta.
Syöpälääke (bevasitsumabi) hidasti rintasyövän etenemistä, mutta ei vähentänyt kuolleisuutta.

Tällaisten havaintojen vuoksi osa tutkijoista puhuukin sen puolestaan, että uusia hoitomuotoja tulisi ottaa käyttöön vasta silloin, kun ne selvästi ovat potilaalle eduksi. Pelkkä muutos markkerissa ei olisi vielä riittävä hyöty.

Prasad on julkaisemassa keväällä 2020 kirjan Malignant: How Bad Policy and Bad Evidence Harm People with Cancer, jossa hän kritisoi lääketieteen taipumusta ottaa syöpälääkkeitä käyttöön ennen kuin niiden hyöty potilaalle on osoitettu luotettavasti. Hän on julkaissut tutkimusartikkeleita siitä, että syöpätutkimuksissa käytetyt sijaismuuttujat eivät välttämättä korreloi tarpeeksi hyvin esimerkiksi potilaan selviämisen kanssa (Haslam ym. 2018, Mailankody&Prasad 2017, Prasad 2017, Prasad ym. 2015, ks. myös Raphael ym. 2019, Burzykowski ym. 2019, Booth&Detsky 2019)

Aiheeseen liittyy mielenkiintoisia raportteja. Euroopan lääkevirasto hyväksyi vuosina 2014-2016 yhteensä 32 uutta syöpälääkettä perustuen 54 lääketutkimukseen. Kliinisistä tutkimuksista 49 prosentissa oli menetelmiin liittyviä laatuongelmia ja vain neljäsosassa tutkimuksista potilaan elossa selviäminen laskettiin ensisijaiseksi vastemuuttujaksi, ikään kuin potilaan elossa selviäminen ei olisi hoidon keskeinen tavoite. Lisäksi alle puolet tutkimuksista mittasi potilaan elämänlaatua (Naci ym. 2019, Mintzes&Vitry 2019). Saman ryhmän aiempi raportti käsitteli vuosina 2009-2013 hyväksyttyjä syöpälääkkeitä, ja puolessa hyväksytyistä lääke-indikaatio-yhdistelmistä ei ollut selkeää näyttöä parantuneesta selviämisestä tai elämänlaadusta (Davis ym. 2017).



3.3. Heikkotasoisia hoitosuosituksia

Lääketieteellisen tutkimusnäytön luotettavuutta voidaan arvioida useilla eri menetelmillä. Tästä käytetään termiä “näytönastearviointi”.

Hyvin tyypillisenä piirteenä näytönastearvioinneissa on seuraavanlainen neliportainen asteikko, jossa tutkimusnäytön laatu kuvataan eri menetelmissä hieman eri tavoin. Esimerkiksi Käypä hoito -suosituksissa käytetään kirjaimia ABCD, kun taas Cochranen käyttämässä GRADE-järjestelmässä näytön aste ilmaistaan plussapalloilla (⊕⊕⊕⊕):

Suomeksi
Käypä hoito
Englanniksi
GRADE
Merkitys
Korkea näytön aste
A
high quality of evidence
⊕⊕⊕⊕
Olemme hyvin varmoja, että todellinen vaikutus on lähellä saatuja havaintoja.
Kohtalainen näytön aste
B
moderate quality
of evidence
⊕⊕⊕
Olemme kohtuullisen varmoja, että todellinen vaikutus on lähellä saatuja havaintoja.
Heikko näytön aste
(heikko/niukka/matala)
C
low quality of evidence
⊕⊕◯◯
Meillä on rajallinen varmuus havaintojen tarkkuudesta. Todellinen vaikutus voi poiketa merkittävästi saaduista havainnoista.
Hyvin heikko näytön aste
D
very low quality of evidence
◯◯◯
Meillä on hyvin vähäinen varmuus havaintojen tarkkuudesta. Todellinen vaikutus poikkeaa suurella todennäköisyydellä saaduista havainnoista.

Toistaiseksi monet lääketieteessä käytetyt suositukset eivät vielä edusta korkeaa näytön astetta. Esimerkiksi suuri osa Maailman terveysjärjestö WHO:n vahvoista terveyssuosituksista perustuu ilmeisesti laadultaan heikkoon tai hyvin heikkoon näyttöön (Alexander ym. 2014, Alexander ym. 2016). Euroopan kardiologiseuran (ESC) 484 hoitosuosituksesta vuosina 2008-2018 jopa 55% perustui vain C-tason tutkimusnäyttöön (Fanaroff et al. 2019).

Yleisesti ottaen lääketieteessä suositellaan ja käytetään hyvin laajasti sellaisia hoitomuotoja ja käytäntöjä, joita koskevan näytön “tarkkuus” on vielä toistaiseksi heikko. Ajan saatossa uusi tutkimustieto tulee tarkentamaan arvioita näiden hoitojen tehokkuudesta. Joissakin tilanteissa uusi tieto tulee suosimaan nykyisiä hoitomuotoja, mutta joissakin tilanteissa se voi johtaa näihin reversaleihin, joissa havaitaan, ettei käytössä ollut toimintatapa ollutkaan niin hyvä kuin luultiin.


4. Johdanto lääketieteellisen tutkimuksen arviointiin


4.1. Näytönastearviointi ennen ja nykyisin

Tiedelehdissä julkaistaan jatkuvasti valtavasti lääketieteellistä tutkimustietoa. Esimerkiksi lääketieteeseen ja biotieteisiin keskittyvällä PubMed-hakukoneella on löydettävissä tällä hetkellä yli 30 miljoonaa tieteellistä artikkelia ja määrä kasvaa vuosittain yli miljoonalla.

Tämä tiedeartikkelien kokonaisuus koostuu kaikkiaan hyvin erilaisista aineistoista kuten soluviljelmäkokeista, eläinkokeista, tapausselostuksista havainnoivista tutkimuksista sekä eritasoisista kliinisistä tutkimuksista. Näitä alkuperäisaineistoja myös kuvaillaan ja koostetaan katsausartikkeleissa.

Lääketieteessä alkuperäistutkimuksia on jaoteltu tietynlaiseen huonompi-parempi-järjestykseen niiden metodologian perusteella. Tässä “näyttöhierarkiassa” soluviljelmätutkimukset ja eläinkokeet ovat alapäässä, ja niiden yläpuolella on erilaiset ihmistutkimusten muodot. Kaikkein ylimpänä seisovat satunnaistetut, kontrolloidut hoitokokeet (RCT) ja niistä koostetut systemaattiset katsaukset. 

Kuva muokattu lähteistä Aivosumutorvi ja Xkcd.
Viime vuosina monet tahot ovat alkaneet pitää perinteistä evidenssipyramidia hieman epäkäytännöllisenä tai vanhanaikaisena menetelmänä tutkimusten luokitteluun, sillä todellisuudessa kaikki näyttö olisi hyvä arvioida ennen päätöksentekoa systemaattisissa katsauksissa ja lisäksi on tilanteita, joissa esimerkiksi hyvä havainnoiva tutkimus tarjoaa tasokkaampaa näyttöä kuin huonosti laadittu satunnaistettu tutkimus. Tämän vuoksi evidenssipyramidista on luonnosteltu uudenlaisia versioita kuten alla oleva, jossa eri tutkimusmenetelmät menevät keskenään lomittain.

Käytännössä moni taho on siirtynyt viime vuosina GRADE-menetelmän mukaiseen näytönasteluokitteluun, jota varsinkin Cochrane-verkosto on hyödyntänyt erittäin laajasti vuodesta 2008 alkaen. Menetelmän perusteet on luettavissa GRADE Handbookista sekä suomeksi myös Käypä hoito -hoitosuositusryhmien käsikirjasta. Tämän artikkelin pidempi PDF-versio sisältää laajemman kuvauksen GRADE:sta, jonka päätin jättää tästä lyhyemmästä blogitekstistä pois.


4.2. GRADE on aiempaa kriittisempi järjestelmä

Aikaisemmin satunnaistettua (RCT-)tutkimusta on pidetty jonkinlaisena lääketieteen ‘kultastandardina’. Monet lääkärit ovat pitäneet tutkimusta lähes oletusarvoisesti laadukkaana, mikäli se on satunnaistettu ja varsinkin menetelmissä on hyödynnetty myös lumelääkettä (placebo/sham) ja moninkertaista sokkouttamista (blinding/masking). 

Esimerkiksi Käypä hoidossa on totuttu käyttämään melko joustavaa näytönasteluokittelua, jossa näennäisesti hyviin tutkimuksiin perustuva näyttö voi saada A-luokituksen.

Koodi
Taso
Selitys
A
Vahva tutkimusnäyttö
Useita menetelmällisesti tasokkaita tutkimuksia, joiden tulokset ovat samansuuntaisia.
B
Kohtalainen tutkimusnäyttö
Ainakin yksi menetelmällisesti tasokas tutkimus tai useita kelvollisia tutkimuksia.
C
Niukka tutkimusnäyttö
Ainakin yksi kelvollinen tieteellinen tutkimus.
D
Ei tutkimusnäyttöä
Asiantuntijoiden tulkinta (paras arvio) tiedosta, joka ei täytä tieteelliseen tutkimukseen perustuvan näytön vaatimuksia.
GRADE-järjestelmän tekee osaltaan erityiseksi se, että se ei päästä tutkimuksia läheskään näin vähällä, vaan siinä arvioidaan tutkimusnäyttöä useista eri näkökulmista ja ilmenevät ongelmat johtavat herkästi näytönasteen alentamiseen. Kuten eräs kaverini totesi, “GRADE-kriteerien mukaan leijonanosa lääketieteellisestä tutkimusnäytöstä maailmassa on tasoltaan heikkoa tai erittäin heikkoa”

Eräs esimerkki tästä on se, että Käypä hoito -suosituksissa masennuksen akuuttihoito masennuslääkkeillä perustuu parhaimpaan A-tason näyttöön (“⊕⊕⊕⊕”). Sen sijaan GRADE-asiantuntijoiden vastaavassa arviossa todettiin kolme eri alentamiskriteeriä, joita olivat tutkimusten heikko laatu, näytön epäsuoruus ja julkaisuharha. Näiden kolmen kriteerin vuoksi kyseinen tutkimusryhmä luokitteli kokonaisnäytön tason hyvin heikoksi (“⊕◯◯◯”) (Munkholm ym. 2019a). 

Samoin suomalaisissa ravitsemussuosituksissa kehotetaan rajoittamaan sokeria ja punaista lihaa, mutta GRADE-näkökulmasta näidenkin suosituksien pohjalla olevan tutkimusnäytön taso on heikkoa (Erickson ym. 2017, Johnston ym. 2019). 

Tämä on mielenkiintoinen epäsuhta tähänastisten terveyssuositusten ja kriittisten tieteentekijöiden välillä. Mikäli kävisimme vaikkapa kaikki Käypä hoito -suositukset läpi erittäin tiukalla GRADE-seulalla, luultavasti monet hyvinäkin pidetyt lääketieteelliset hoitosuositukset perustuisivat heikkoon tai hyvin heikkoon näyttöön.

Tämä aiemmasta poikkeava kriittisyys saa varmasti monet lääketieteen tai ravitsemustieteen asiantuntijat ärtyisiksi, mutta toisaalta uskon
lääketieteen kehittyvän tieteenalana merkittävästi, mikäli tutkimusten luotettavuuden kanssa ollaan mahdollisimman tarkkoja.

On tärkeää syitä olla kriittinen niiden hoitomuotojen suhteen, joihin liittyvässä tutkimusnäytössä havaitaan laatuongelmia, sillä tutkimusten menetelmien ongelmien on havaittu usein vinouttavan tutkimustuloksia keskimäärin positiiviseen suuntaan. Heikkotasoisissa tutkimuksissa hoidot näyttäytyvät keskimäärin toimivampina kuin mitä ne todellisuudessa ovat. Esimerkiksi sokkouttamisen puute tekee kliinisissä tutkimuksissa havaitut efektit suuremmiksi (Savovic ym. 2018, Page ym. 2016, Hróbjartsson ym. 2012, Hróbjartsson ym. 2013, Hróbjartsson ym. 2014).

Tutkimusmenetelmiin liittyvä tieteellinen keskustelu on tällä hetkellä kohtuullisen vilkasta. Aiheeseen liittyviä artikkeleita julkaistaan muun muassa tiedelehdissä Journal of Clinical Epidemiology, Clinical Trials, Trials, BMJ ja BMJ Open. Tätä tieteen käytäntöjen tieteellistä tarkasteltua kutsutaan nimellä metatiede (metascience). Artikkeleissa nostetaan säännöllisesti esille tieteessä havaittuja puutteita ja mahdollisia ratkaisuja.

Cochrane-verkosto

Cochrane-verkosto julkaisee vuosittain noin 500 systemaattista katsausta, joiden tasoa voitaneen pitää maailman parhaana ja kriittisimpänä.

Vuonna 2006 julkaistussa BMJ-lehden artikkelissa verrattiin Cochranen julkaisemia systemaattisia katsauksia muiden tahojen julkaisemiin. Cochranen katsausten keskimääräinen taso oli 7/7 ja muiden katsausten 3/7 (Jørgensen ym. 2006). Vuodesta 2008 alkaen Cochranen katsauksissa on sovellettu näytönastearvioinnissa huomattavan kriittistä GRADE-menetelmää, jolla mitattuna suuri osa lääketieteellisestä tutkimusnäytöstä luokitellaan heikkolaatuiseksi.



5. Kyseenalaiset tutkimuskäytännöt


5.1. Julkaisuharha

Brittitutkija Ben Goldacre kirjoittaa kirjassaan Bad Pharma kokeilleensa potilaallaan reboksetiini-nimistä masennuslääkettä luettuaan siitä julkaistua myönteistä tutkimusnäyttöä. Hän kertoo tulleensa harhaanjohdetuksi, sillä myöhemmin tuli ilmi, että kyseistä lääkettä koskevasta tutkimusdatasta 74% oli jätetty julkaisematta tiedelehdissä, eikä kyseinen lääke ollut kaiken tutkimusnäytön valossa edes lumelääkettä parempi (Eyding ym. 2010).

Goldacren kuvailema tapaus on esimerkki julkaisuharhasta, joka käytännössä tarkoittaa tutkimusartikkelien julkaisematta jättämistä tiedelehdissä, jolloin tiedelehdissä saatavilla oleva tieto ei heijasta toteutettujen tutkimusten kokonaisnäyttöä. Esimerkiksi lääketieteessä noin puolet tutkimuksista on jäänyt julkaisematta tiedelehdissä (Chan ym. 2014).

Julkaisuharha ilmiönä koskee erityisesti kielteisiä tutkimustuloksia. Kenties tunnetuin sitä koskeva esimerkki liittyy masennuslääkkeisiin. Vuonna 2008 julkaistu Erick H. Turnerin ja kumppaneiden raportti analysoi 74 Yhdysvaltain elintarvike- ja lääkeviraston (FDA) tiedossa olevaa masennuslääketutkimusta osoittaen, että suurin osa kielteisistä tuloksista on jätetty julkaisematta tiedelehdissä, ja silloinkin kun ne on julkaistu, tulokset on useimmiten esitetty harhaanjohtavasti “myönteisinä” (Turner ym. 2008, ks. pieni vastahuomio Slate Star Codex -blogista).


Suuri osa negatiivisista masennuslääketuloksista jäi julkaisematta (Turner ym. 2008)

Havainnekuva ylemmästä kuvasta (muokattu lähteestä Bruckner 2018)

Täsmennettäköön kuitenkin se, että julkaisuharhan vaikutus ei välttämättä ole aivan yhtä dramaattinen kuin yllä olevasta havainnekuvasta voisi kuvitella. Tässä Turnerin aineistossa julkaisuharha suurensi lääkkeiden havaittua vaikutusta 32 prosenttia eli noin kolmasosan suuremmaksi (efektikoko Cohenin d = 0.41 vs 0.31).

Lääketieteelliset hoitosuositukset pyritään tekemään sen kaiken tutkimusnäytön pohjalta, mitä aiheesta on julkaistu. Mikäli julkaistujen tutkimusten joukosta jäävät pois kaikki kielteiset löydökset, silloin seurauksena on se, että hoitosuosituksen perustana oleva tutkimusnäyttö on epärealistisen positiivista (Nissen ym. 2016). Kuten dosentti Ali Bardy kommentoi aikoinaan kotimaisessa Duodecim-lehdessä:

“Tulokset, joiden perusteella uudet hoidot ovat huonompia tai enintään yhtä hyviä kuin vanhat, jäävät usein julkaisematta. Tästä julkaisuharhasta johtuu, että kirjallisuuden valossa uudet hoidot näyttävät todellista paremmilta. Siksi myös tutkimustuloksiin perustuvat katsaukset ja meta-analyysit ovat harhaisia. Seurauksena voi olla, että käytetään turhaan uusia, kalliita, tehottomia tai haitallisia hoitomenetelmiä.” (Bardy 2008)

Julkaisuharhasta löytyy kymmeniä raportteja. Vuonna 2013 julkaistussa systemaattisessa katsauksessa havaittiin, että tilastollisesti merkitsevillä tuloksilla olisi 2.2-4.7 -kertainen todennäköisyys tulla raportoiduiksi verrattuna ei-merkitseviin tuloksiin (Dwan ym. 2013). Tämän lisäksi negatiivisten tulosten julkaisussa kestää keskimäärin kauemmin (Suñé ym. 2013, Stern&Simes 1997, Ioannidis 1998).

Yleisen sanonnan mukaan ei-toivotut tutkimustulokset jätetään pöytälaatikkoon.

Tutkijoiltakin on kysytty syitä siihen, miksi he jättävät tutkimustuloksia julkaisematta. Monesti syyksi raportoidaan ajanpuute, tutkimuksen vähäinen tärkeys, työn keskeneräisyys, tuloksen negatiivisuus, kanssatutkijoihin liittyvät ongelmat, pelko käsikirjoituksen hylätyksi tulemisesta tiedelehdessä sekä rahoitukseen liittyvät ongelmat (Song ym. 2014).

Nykyisin tutkimusnäytön arvioinnissa käytetään apuna erinäisiä menetelmiä, joilla voidaan saada viitettä julkaisuharhan olemassaolosta. Yksi tilastollinen väline tähän on suppilokuvio (funnel plot), minkä lisäksi tietoa julkaisemattomista tutkimuksista voidaan saada tutkimusrekistereistä ja virastoilta. Julkaisuharhaan viittaavat löydökset oikeuttavat näytönastearvion alentamiseen systemaattisissa katsauksissa.

Käytössä olevat menetelmät eivät kuitenkaan kykene paljastamaan kaikkea julkaisuharhaa ja tämän vuoksi on teoriassa mahdollista, että esimerkiksi tällä hetkellä käytössä olevia lääkkeitä koskevia kielteisiä löydöksiä on kadoksissa. Tällä hetkellä julkaisemattomien tutkimustulosten esiinkaivamiseen ja löydöksiin perustuvaan datan uudelleenanalysointiin on perustuttu hanke nimeltä Restoring Invisible and Abandoned Trials (RIAT).



5.2. Tutkimustulosten valikoiva raportointi

Tutkimusartikkeleissa tapahtuu paljon ‘tulosten kirsikanpoimintaa’ eli sitä, että tutkimuksessa mitataan vaikka kaksikymmentä eri asiaa, joista vain positiiviset viisi löydöstä raportoidaan.

Yksi provosoivimpia tapahtumia lääketieteessä koskee paroksetiini-lääkkeen tehoa nuorten masennuksessa tarkastelevaa tutkimusta, josta käytetään nimeä Study 329. Tutkimuksessa saatiin surkeat tulokset, sillä lääke ei auttanut ensisijaisiin tai toissijaisiin vastemuuttujiin ja lisäksi se aiheutti haittoja kuten itsetuhoisuutta. Näitä asioita ei kuitenkaan paljastettu, vaan alkuperäisen tutkimusartikkelin mukaan lääke oli tehokas, hyvin siedetty eikä aiheuttanut merkittäviä haittoja (Keller ym. 2001). 

Vuonna 2015 yllä mainittuun RIAT-hankkeeseen osallistunut itsenäinen tutkimusryhmä kävi saman tutkimusaineiston läpi raportoiden tulokset alkuperäisen protokollan mukaisesti. Tämän uudelleenanalyysin valossa lääke oli tehoton ja aiheutti käyttäjissään vakavia haittoja kuten itsetuhoisuutta (Le Noury ym. 2015). Samansuuntaista datan harhaanjohtavaa raportointia on havaittu myös sitalopraamia koskevan CIT-MD-18 -tutkimuksen kohdalla (Jureidini ym. 2016).


Kun tarkoituksena on tehdä tieteellisesti pätevä koe esimerkiksi hoidon toimivuuden mittaamiseen, silloin tutkimussuunnitelmaa laadittaessa täytyy määritellä mikä on tutkimuksen ensisijainen, tärkein asia jota kyseisellä kokeella halutaan testata. Tästä mitattavasta asiasta käytetään nimitystä ensisijainen tulosmuuttuja (primary outcome) ja esimerkiksi suuressa sydänlääketutkimuksessa tämä mitattava asia voisi olla kokonaiskuolleisuus. Lisäksi valitaan yleensä useampia toissijaisia tulosmuuttujia (secondary outcome), joita voisi sydänlääkkeellä olla vaikkapa vaikutus sydänkohtausten todennäköisyyteen tai sydämen minuuttitilavuuteen.

Kun tutkimus julkaistaan, on tärkeää että kaikki mitatut asiat julkaistaan. Mikäli todellisista löydöksistä julkaistaan vain osa, silloin tutkimuksen lukijakunta lukee käytännössä puolitotuutta. 


“Vale, emävale, tilasto.” - tunnettu sanonta

Tähän mennessä on julkaistu paljon raportteja siitä, että tutkijat ovat raportoineet tutkimusraportissa tulosmuuttujat eri tavalla kuin alkuperäisessä tutkimussuunnitelmassa. Tämä on hyvin kyseenalainen tutkimuskäytäntö, kriittisempien tutkijoiden mielestä huijaukseen rinnastettava teko.

Tulosmuuttujien raportointi kliinisissä tutkimuksissa
Tutkimusviite
Havaintoja
● Vuonna 2009 julkaistun 200 satunnaistetun tutkimuksen otannasta vain 60:lle tutkimukselle (30%) oli julkaistu tilastoanalyyseja koskeva tutkimussuunnitelma. Näistä artikkeleista vain 32 (53%) raportoi tulokset alkuperäisen suunnitelman mukaisesti.
● Yhdeksää vuosina 2001-2002 hyväksyttyä lääkettä koskevat 42 meta-analyysia uudelleenanalysoitiin siten, että niihin otettiin mukaan myös FDA:n tiedossa oleva mutta tiedelehdissä julkaisematon data.
● Tämän myötä 46% tuloksista muuttui positiivisemmiksi ja 46% tuloksista muuttui negatiivisemmiksi. Täten siis kattavampi datan saatavuus voisi tuoda lisäselvyyttä siihen, milloin jokin lääke on hyödyksi ja milloin ei.
● Yhteensä 268 vuosina 2006-2011 toteutetun kliinisen tutkimuksen otoksesta selvitettiin, miten tutkimusraportit raportoivat menetelmiä (mm. satunnaistaminen, sokkoutus) ja tuloksia (mm. päämuuttujat, haitat, pudonneet koehenkilöt). Vain noin puolet olennaisista asioista raportoitiin.
● Tutkimuksista tehdyt viranomaisille toimitetut kliinisen tutkimuksen raportit sen sijaan raportoivat noin 90% näistä asioista.
● Vuonna 2008 huippulehdissä julkaistujen kardiologiaa, reumatologiaa ja gastroenterologiaa koskevien ennakkorekisteröityjen tutkimusraporttien kohdalla 31%:ssa havaittiin eroja alkuperäisen tutkimussuunnitelman ja tiedelehdessä tapahtuneen tulosten raportoinnin välillä.
● Vuosina 2001-2002 hyväksyttyjen uusien lääkkeiden tehokkuutta selvittäneistä tutkimuksista 78% oli julkastu, voimakkaasti sen mukaan oliko tutkimuksen tulos positiivinen.
● Noin puolet FDA:lle raportoiduista negatiivisista löydöksistä oli jätetty pois tiedelehdissä julkaistuista tutkimusartikkeleista.
● Tietyissä tapauksissa päätemuuttujat olivat myös muuttuneet tutkimusartikkeliin tilastollisesti merkitseviksi ja yhteenvedot olivat tiedeartikkeleissa useammin positiivisia kuin FDA:n arvioissa.
(ks. myös Chan ym. 2008)
● Tanskalaistutkimuksessa analysoitiin 102 tutkimusprotokollaa vuosilta 1994-1995.
● Tässä aineistossa 63%:ssa tutkimuksista ensisijaista tulosmuuttujaa muutettu tutkimusraporttiin ja 33%:ssa oli lisätty raporttiin uusi ensisijainen tulosmuuttuja lisätty raporttiin. Lisäksi 71%:ssa oli jätetty raportoimatta ainakin yksi tulosmuuttuja.
● Yksikään artikkeli ei maininnut siitä, että tulosmuuttujia oli vaihdettu verrattuna alkuperäiseen analyysiin
● Jatkotutkimuksessa myös todettiin, että datan analysoinnin kanssa on valtavia eroja protokollaan eikä näistäkään muutoksista ollut mainintaa tutkimusartikkeleissa

Natalie McGauran ja kumppanit julkaisivat vuonna 2010 kattavan narratiivisen katsauksen, jossa käsitellään yleisellä tasolla julkaisuharhaa sekä tulosten valikoivaa raportointia. Katsauksessa esitetään lisäksi suuri määrä konkreettisia esimerkkejä näistä ongelmista erinäisten lääkevalmisteiden tutkimuksessa, käsittäen muun muassa mieliala-, migreeni-, kipu-, sydän-, diabetes- ja mikrobilääkkeitä (McGauran 2010).

Till Bruckner ja Beth Ellis ovat julkaisseet raportin, jossa he selostavat kuusi valitettavaa esimerkkitapausta (lorkainidi, rosiglitatsoni, rofekoksibi, reboksetiini, SSRI-lääkkeet, oseltamiviiri), joissa tutkimusdatan avoimempi raportointi olisi ollut hyödyksi potilaille ja veronmaksajille (Bruckner&Ellis 2017).


Tutkijat lääkefirmojen talutusnuorassa?

Tutkimusrahoittajilla on vielä 2000-luvullakin ollut yllättävän paljon valtaa tutkimusten raportointiin liittyen, vaikka ideaalisessa tilanteessa tutkijat tekisivät tutkimustyön alusta loppuun itsenäisesti ilman että rahoittaja voisi vaikuttaa tutkimuksen suunnitteluun, toteutukseen tai raportointiin.

Eräässä katsauksessa tarkasteltiin 647 teollisuuden rahoittamaa kliinistä tutkimussuunnitelmaa, joista 71 prosentissa rahoittajan ja tutkijoiden välillä oli tulosten julkaisemista koskeva sopimus, joka tyypillisesti rajoitti tutkijoiden itsenäisyyttä tulosten käsittelyssä ja julkaisussa. Näitä sopimuksia ei usein paljastettu tutkimusraporteissa (Kasenda ym. 2016, ks. myös Gøtzsche ym. 2006).



5.3. Tilastokikkailu

"If you torture the data long enough, it will confess to anything” - Darrell Huff


Tutkimusten tiivistelmissä ensimmäisenä raportoitu tilastollisesti merkitsevä tulos (p < 0.05) ei valitettavan usein kuvasta tutkimuksen ensisijaista päätemuuttujaa vaan on voi olla peräisin ylimääräisistä tilastoanalyyseista, joiden tarkoitus on usein mahdollisesti tuottaa merkitseviä tuloksia, jos alkuperäistä tutkimussuunnitelmaa noudattaen ei ole onnistuttu tekemään tilastollisesti merkittäviä löydöksiä. On havaittu, että tutkimustuloksen p-arvon ollessa lähellä lukemaa 0.05, se on tutkimustiivistelmissä useammin sen alapuolella (0.04-0.05) kuin sen yläpuolella (0.05-0.06). Tämä näyttää selittyvän osin virheillä tilastoanalyyseissa sekä luultavasti myös tutkijoiden aktiivisilla pyrkimyksillä saada merkitseviä tuloksia esimerkiksi tilastollisten vakiointien kautta (Gøtzsche 2006, de Winter&Dodou 2015). 

Huomattavan suuressa osassa lääketieteen meta-analyyseja saatu tilastollinen merkitsevyys on hauras (fragile), tarkoittaen että pienikin epäsuotuisa muutos tautitapahtumien määrässä muuttaisi tuloksen ei-merkitseväksi (Atal ym. 2019). Vuonna 2017 Journal of Clinical Epidemiology julkaisi artikkelin, jossa kuvailtiin kuinka tíetyissä tilanteissa pienetkin erot meta-analyysien toteutustavassa voivat määrittää sen, tuleeko tuloksesta merkitsevä vai ei-merkitsevä (Mayo-Wilson ym. 2017a, ks. myös Mayo-Wilson ym. 2017b).


Esimerkki: Tutkimusten yhdistelyä ja tuplaamista

Negatiivisia tutkimustuloksia on toisinaan piilotettu siten, että kahden tai useamman tutkimuksen tulokset on julkaistu näennäisesti ‘yhtenä tutkimuksena’, usein siten, että osa tutkimusdatasta jätetään näyttämättä. Tulehduskipulääke selekoksibin vaikutuksia selvittänyt CLASS-tutkimus on yksi esimerkki tällaisesta menettelystä. Se oli tosiasiassa kaksi erillistä ja keskenään erilaista tutkimusta, kestot 12 ja 15 kuukautta. Ne kuitenkin esitettiin yhtenä 6-kuukautisena tutkimuksena, ja tutkimusaikaa leikkaamalla piilotettiin lääkkeen havaittuja sivuvaikutuksia (de Vries ym. 2019, Silverstein 2000, Jüni ym. 2002, Hrachovec&Mora 2001)

Pahoinvointilääke ondansetronin historiassa on myös kiinnostava esimerkki siitä, että samoja tutkimustuloksia oli raportoitu tutkimuskirjallisuudessa kahdesti eri tutkimusartikkelissa, jolloin aiheesta tehty meta-analyysi laski lääkkeen teholle 23% liian suuren lukeman (Tramèr ym. 1997).

Tutkimustuloksia on mahdollista “manipuloida” mieluisaan suuntaan myös valitsemalla, millä tavoin tutkimuksesta pudonneiden koehenkilöiden data sisällytetään osaksi tutkimusaineistoa. Ruotsin lääkeviraston analyysissa vuodelta 2003 raportoitiin SSRI-lääkkeitä koskevien kliinisten tutkimusten usein jättäneen pudonneita koehenkilöitä koskevat ns. intention-to-treat -analyysit julkaisematta tutkimusartikkelissa, vaikka kyseiset analyysit oli kyllä tehty ja toimitettu lääkevirastolle ja ne näyttivät useissa tapauksissa huonompaa tulosta lääkkeen kannalta (Melander ym. 2003).



5.4. Epärehelliset vertailuasetelmat

Psykiatriassa lääketutkimuksísta on nostettu esille tapauksia, joissa lääkeainetta on verrattu toiseen lääkeaineeseen, mutta tämän toisen lääkeaineen annosta tai annosteluaikataulua on muokattu epäsuotuisalla tavalla siten, että sen vaikutus näkyisi tutkimuksen tuloksissa epäsuotuisana verrattuna uudempaan lääkkeeseen (Safer 2002, Heres ym. 2006, Lundh ym. 2018). 

Peter Gøtzsche mainitsee kirjassaan, että kun omepratsoli-närästyslääkkeen patentti hiipui, markkinoille tuotiin uusi patenttilääke esomepratsoli, ja vaikka lääke oli 30 kertaa kalliimpi, sen käyttö yleistyi tutkimuksessa havaitun hieman paremman tehon vuoksi. Gøtzsche kirjoittaa, että tutkimuksessa verrattiin 20mg vanhaa valmistetta ja 40mg uutta valmistetta, ja että kyseessä olisi ollut täten täysin epäreilu annosvertailu (Edwards ym. 2001).

Gøtzsche kirjoittaa myös sienilääke vorikonatsolia koskevista vuonna 2002 julkaistuista tutkimuksista, joissa hoidettiin neutropeniaa ja aspergillus-infektiota pääosin syöpäpotilailla. Tutkimukset julistivat vorikonatsolin suotuisammaksi lääkkeeksi kuin amfoterisiini B:n. Gøtzschen kuvailee, että tutkimuksissa käytettiin epäreiluja tutkimusasetelmia ja kuvailtiin dataa harhaanjohtavasti. Esimerkiksi toisessa tutkimuksessa vertailulääkettä käytettiin 10 päivää ja vorikonatsolia 77 päivää. Päinvastoin kuin nämä tutkimukset, vuonna 2014 julkaistu Cochrane-katsaus aiheesta kuvailee vorikonatsolia huonommaksi vaihtoehdoksi (Walsh ym. 2002, Herbrecht ym. 2002, Jørgensen ym. 2014, Jørgensen ym. 2006).



5.5. Spin - liian positiiviset johtopäätökset suhteessa saatuihin tuloksiin

Tutkijoilla on usein tapana ylitulkita tuloksia ylipositiivisella tavalla (Boutron ym. 2010). Ilmiö liittynee osittain kilpailuhenkiseen akateemiseen kulttuuriin, jossa apurahojen myöntäjät suosivat niitä tutkijoita, joiden tulokset ovat positiivisempia tai lupaavampia. Tämän vuoksi akateemikoita toisinaan jopa kehotetaan omien löydösten ylikorostamiseen, vaikka kyseessä on epärehellinen ja tieteen uskottavuutta syövä tutkimuskäytäntö. 

Yksittäisten raporttien mukaan teollisuuden rahoittamissa tutkimuksissa esiintyisi spiniä keskimääräistä useammin, mutta ilmeisesti kokonaisuudessaan rahoituslähteellä ei ole selkeää yhteyttä spinin esiintymiseen (Chiu ym. 2017, Alasbali 2009).


Spin lääketieteellisessä kirjallisuudessa
Tutkimusviite
Havaintoja
Vuosina 2015-2017 julkaistuista alaselkäkipua koskevista systemaattisista katsauksista 80% sisälsi jonkinlaista spiniä, ja lähinnä Cochrane-verkoston katsaukset raportoivat tuloksia puolueettomasti.
Vuosina 2010-2012 hyvätasoisissa lehdissä julkaistujen systeemistä syöpähoitoa koskevien kliinisten tutkimusten joukossa 47% negatiivisia tuloksia raportoineista artikkeleista kuvaili tulosta harhaanjohtavasti positiiviseen suuntaan.
Vuonna 2015 raportoitiin, että toisen sukupolven masennuslääkkeiden ahdistuneisuuden hoidossa arvioivat tutkimukset päätyivät 96-prosenttisesti myönteisiin johtopäätöksiin hoidosta, vaikka FDA:n tulkinta oli myönteinen vain 72 prosentissa.




5.6. Hankaluudet haittatapahtumien raportoinnissa

Kliinisissä tutkimuksissa koehenkilöille ilmenee usein erilaisia lääketieteellisiä ongelmia, esimerkiksi pahoinvointia tai sairaskohtauksia. Näitä kutsutaan tutkimuksissa haittatapahtumiksi, eivätkä ne ole automaattisesti seurausta hoidosta. Esimerkiksi tunnetussa statiinitutkimuksessa lääkeryhmässä raportoitiin 5146 vakavaa haittatapahtumaa, mutta samankokoisessa lumehoitoryhmässä niitä raportoitiin 5536 eli vielä enemmän kuin lääkeryhmässä.

Toistaiseksi lääketieteellisessä tutkimuksessa haittatapahtumien raportointi ei ole täysin yhtenäistä. Monet tutkimusartikkelit raportoivat haittoja valikoivasti, mikä voi tietyissä tilanteissa antaa havainnoista vääristyneen kuvan.


Yhtenä esimerkkinä voidaan mainita lihavuuslääke orlistaatti, jota tarkastelevia tutkimuksia kriittisesti tarkastelevissa analyyseissa havaittiin, että vain 3-33% havaituista haittatapahtumista raportoitiin tutkimusartikkelissa. Orlistaattia saaneet potilaat kärsivät oireista tutkimusjakson aikana pidempään (22.7 vs 14.9 päivää) ja oireet olivat vakavampia, mutta näitä asioita ei erikseen mainittu julkaistuissa tutkimusartikkeleissa (Hodkinson ym. 2016).

Haittavaikutusten raportointi lääketieteellisessä kirjallisuudessa
Tutkimusviite
Havaintoja
Lääketieteen huippulehtinä vuosina 2015-2016 raportoitujen 184 tutkimusraportin aineistossa 62% raportoi jonkinlaista haittatapahtumien raportointia. Vain 29% kuvaili yksityiskohtaisesti miten tietoa haittatapahtumista hankittiin. Vain 35% tutkimuksista raportoi, johtuivatko koehenkilöiden putoamiset haittatapahtumista. Raportoidut tulokset eivät 84%:ssa tapauksista huomioineet, oliko haittatapahtumia tapahtunut koehenkilöillä kerran vai useasti.
Systemaattiset ja ei-systemaattiset haittavaikutukset raportoidaan tutkimuskirjallisuudessa vaihtelevin tavoin. Paljon kerättyä dataa jätetään kuvailematta tutkimusraporteissa. Kyseisissä katsauksissa nostetaan esimerkeiksi haittoja koskeva tutkimusnäyttö koskien gabapentiinia ja ketiapiinia.
Tutkimusartikkeleissa kuvataan erilaisia kriteereitä sille, mitkä haittatapahtumat raportoidaan tutkimusartikkelissa. Yhtenä kriteeriesimerkkinä mainitaan se, että “haitta tapahtuu vähintään 2 prosentilla minkä tahansa hoitoryhmän koehenkilöistä”.
11 tutkimuksen perusteella noin 64% (mediaani) tutkimusaineistoon kerätyistä haittatapahtumista jää julkaisematta tutkimusartikkeleissa.
Vuosina 2012-2013 julkaistujen systemaattisten Cochrane-katsausten otannassa 86% katsauksista ei kyennyt raportoimaan täydellistä dataa koskien ensisijaista haittatapahtumamuuttujaa.




5.7. Tutkimusvilppi

Toisinaan tutkimusmaailmassa havaitaan selvästi asiatonta tieteellistä toimintaa, pahimpana esimerkkinä tulosten väärentäminen. Kyse on oletettavasti suhteellisen marginaalisesta ilmiöstä, josta on kuitenkin määrällisesti paljon esimerkkejä. Aiheeseen liittyviä uutisia julkaistaan säännöllisesti Retraction Watch -sivustolta.

Itse olen törmännyt tiedevilppiin muutaman kerran etenkin ravitsemustiedettä lukiessani. Laajasti siteerattu lihavuustutkija Brian Wansink menetti pari vuotta sitten uransa vilpin vuoksi. K2-vitamiinista hyvin mielenkiintoisia tutkimustuloksia julkaissut japanilaistutkija Yoshihiro Sato osoittautui yhdeksi tieteen pahimmista huijareista. Intialainen ravitsemustutkija Ram B Singh oli myös julkaissut vaikuttavia tutkimustuloksia eri ravintoaineista ja ravintolisistä, mutta hänen tutkimustyöstä paljastui valtava määrä hälyyttäviä epäsäännönmukaisuuksia.

Tänä syksynä julkaistiin myös mielenkiintoinen raportti Yhdysvaltain kansallisen syöpäinstituutin entisestä tutkija Rahul Agrawalista. Hänen saavutusluettelostaan löytyy 59 koetta, joita ei oltu todellisuudessa tehty, vaan data oli tekaistu. 

Tämänlaisten tiedeväärennösten olemassaolo on edelleen yksi syy sille, että mullistavien uusien tutkimustulosten ilmaantuessa on usein järkevää, että myös jokin toinen tutkimusryhmä toistaisi saman havainnon varmistaakseen ettei kyse ollut vain erikoisesta sattumasta tai tiedevilpistä.

Tutkijat paljastamassa huijauksia
Mikrobiologian tutkija Elisabeth Bik julkaisee Twitterissä jatkuvasti löytämiään esimerkkejä kuvamanipulaatioista biokemian tutkimusartikkeleissa. Hän kertoo ottaneensa palkkatyöstään vapaavuoden paljastaakseen tutkimushuijauksia vapaaehtoistyönä. Bik on aikaisemmin julkaissut tiedeartikkelin, jossa hän raportoi 20 000 tutkimuksen aineistosta 800 artikkelia, joissa esiintyi kuvamanipulaatioita (Bik ym. 2016).
Nick Brown ja James Heathers ovat yhdessä paljastaneet tilastollisia ristiriitoja muun muassa psykologian artikkeleita julkaisevan ranskalaisprofessori Nicolas Guéguenin sekä lihavuudesta julkaisseen Brian Wansinkin artikkeleista. Tämä aktiivisuus on johtanut useiden tutkimusartikkelien poisvetoon tiedelehdistä.



6.Tutkimusten rekisteröinti ratkaisuksi ongelmiin


6.1. Johdanto

Julkaisuharhan ja tulosten valikoivan julkaisemisen estämiseksi esitettiin jo 1980-luvulla ajatus tietokannasta, jonne toteutuvan tutkimuksen suunnitelma (aikataulu, toteutustavat, tilastoanalyysit) listattaisiin jo ennen tutkimuksen toteutuksen varsinaista aloittamista (Simes 1986).

Tällainen tutkimuksen ennakkorekisteröinti mahdollistaa sen tarkastamisen, onko tutkimuksen tulokset julkaistu. Lisäksi ennakkorekisteröityä tutkimussuunnitelmaa ja lopullista tutkimusartikkelia voidaan verrata keskenään, jolloin havaitaan mikäli alkuperäisestä tutkimussuunnitelmasta on poikettu. Tämän vuoksi ennakkorekisteröinti on oiva ratkaisu kyseenalaisten tutkimuskäytäntöjen vähentämiseksi.

Ennakkorekisteröinnin idea on vihdoin alkanut konkretisoitua ja tällä hetkellä suuri osa kliinisistä tutkimuksista rekisteröidään niille tarkoitettuihin tietokantoihin. Laajin näistä tietokannoista on vuonna 2000 julkaistu ClinicalTrials.gov, johon tutustumista suosittelen jokaiselle tutkijalle.

Tietokantoja esirekisteröintiin
Kliiniset tutkimukset
Syst. katsaukset
Eläinkokeet

Vuonna 2004 lääketieteellisten huippulehtien päätoimittajien järjestö ICMJE tiedotti, että järjestön suosituksia noudattavat tiedelehdet eivät jatkossa julkaise kliinisiä tutkimusartikkeleita, joita ei ole ennakkorekisteröity ennen tutkimuksen aloittamista (De Angelis ym. 2004).

Samana vuonna myös EU-direktiivi määräsi eurooppalaiset kliiniset tutkimukset esirekisteröitäviksi kliinisten tutkimusten EUCTR-tietokantaan ja vuonna 2007 myös Yhdysvallat seurasivat perässä. Vuodesta 2012 alkaen EU:ssa tutkijoilla on myös ollut velvollisuus raportoida kliinisten tutkimusten tulokset 12kk kuluessa tutkimuksen valmistumisesta. 

Yhdysvalloissa on myös vastaava säädös (FDAAA), joka velvoittaisi julkaisemaan tulokset 12kk kuluessa. Se ei kuitenkaan toteudu 78%:ssa tapauksista, ilmeisesti siksi että siihen liittyvää sakkoa ($10000/päivä) ei ole käytännössä pantu toimeen. Tutkimusten raportointia analysoivan TrialsTracker-palvelun mukaan näitä sakkoja olisi voitu langettaa yli 5 miljardin dollarin verran näiden myöhästyneiden tulosten raportointien vuoksi (Prayle ym. 2012, Hallinan ym. 2015, Zarin ym. 2016).



6.2. Ennakkorekisteröinti toteutuu odotettua hitaammin

ICMJE:n tavoite ei toteutunut suunnitellusti ensimmäisinä vuosina, vaan nämä huippulehdet julkaisivat lupauksistaan huolimatta myös suuren määrän esirekisteröimättömiä tutkimuksia. Kuitenkin viime vuosina tilanne on mennyt parempaan suuntaan (Mathieu ym. 2009, Gopal ym. 2018). 

Tällä hetkellä näyttää siltä, että viimeistään lähivuosina ennakkorekisteröinnistä tulee tiedemaailmassa käytännössä pakollinen käytäntö. Hyvätasoisilla tiedelehdillä on aiempaa useammin tapana hylätä ennakkorekisteröimättömiä kliinisiä tutkimusartikkeleita lähes suoralta kädeltä. Näissä tilanteissa tutkijat tavallisesti jälkirekisteröivät artikkelin tutkimustietokantaan ja tarjoavat sen jälkeen artikkelia vähemmän suosituille tiedelehdille, joiden joukossa ennakkorekisteröimättömiä suostutaan toistaiseksi julkaisemaan (Loder ym. 2018, Gopal ym. 2018, Harriman&Patel 2016, Hunter ym. 2018).

Havaintoja tutkimusten ennakkorekisteröintiin liittyen
Tutkimusviite
Havaintoja
Endokrinologian ja sisätautien alan 170 kliinisiä tutkimuksia julkaisevasta tiedelehdestä vain 61% edellytti satunnaistetuilta tutkimuksilta rekisteröintiä tutkijoille suunnatuissa ohjeissaan.
Lääketieteen huippulehtien 486 kliinisen tutkimuksen otannasta (2010-2015) 70% oli ennakkorekisteröity. Nämä tutkimukset antoivat harvemmin myönteisiä tuloksia kuin muut tutkimukset (64 vs 89%).
Suuressa 8773 satunnaistetun tutkimuksen otoksessa 2000-luvulta ainoastaan 20% tutkimuksista oli ennakkorekisteröity. Rekisteröityjen tutkimusten osuus kasvoi yli kaksinkertaisesti välillä 2005-2015.
Vuonna 2012-2014 ClinicalTrials-tietokantaan rekisteröidyistä tutkimuksista 33% ei oltu rekisteröity ennakkoon vaan vasta kun tutkimus oli jo käynnissä tai päättynyt.
Vuosina 2007, 2010, 2013 ja 2015 hyvätasoisissa anestesiologian lehdissä julkaistuista tutkimusartikkeleista vain 12% oli asianmukaisesti esirekisteröity. Vuonna 2015 luku oli 38%, joten kehitystä kuitenkin tapahtuu.


6.3. Julkaisuharhaa tapahtuu edelleen

Annals of Internal Medicinessa julkaistiin vuonna 2019 raportti koskien viittäsataa suurikokoisinta ClinicalTrialsiin rekisteröityä tutkimusta vuosilta 2007-2012. Näistä 84 kappaletta ei oltu julkaistu vielä keväällä 2016, ja vuonna 2019 edelleen 67 tutkimusta oli julkaisematta (Tatsioni ym. 2019). Alla olevassa taulukoissa kuvataan myös lukuisia muita esimerkkejä siitä, että nykyisin lääketieteellisiä tutkimuksia jätetään julkaisematta vaikka ne olisikin ennakkorekisteröity.

Vuonna 2013 Ben Goldacre, BMJ, Cochrane-verkosto, PLOS-tiedekustantamo ja joukko muita tahoja käynnistivät AllTrials-kampanjan, jonka tarkoitus on saada kaikki kliiniset tutkimukset rekisteröinnin piiriin ja niiden tulokset raportoiduiksi.

AllTrials-kampanjaan liittyen Oxfordin yliopistossa toimiva EBM Data Lab julkaisi TrialsTracker-työkalun joka seuraa automaattisesti FDA:lle ja EU:lle rekisteröityjä tutkimuksia ja luetteloi niitä tutkimusrahoittajia, joiden tutkimusten tuloksia ei ole julkaistu vaaditun 12 kuukauden kuluessa tutkimuksen päättymisestä.

Esirekisteröityjen tutkimusten julkaisu 2009-2019
Tutkimusviite
Havaintoja
Vuonna 2019 julkaistu raportti koskien viittäsataa suurikokoisinta ClinicalTrialsiin rekisteröityä tutkimusta vuosilta 2007-2012 havaitsi, että näistä tutkimuksista 84kpl ei oltu julkaistu kevääseen 2016 mennessä, ja vuonna 2019 edelleen 67kpl näistä oli julkaisematta. Kyseisten julkaisemattomien tutkimusten koehenkilöiden mediaani oli 765. Viisi näistä suurista julkaisemattomista tutkimuksista koski masennuslääkkeitä.
EU:n tutkimustietokantaan yli 12kk aikaisemmin valmistuneiksi julistetuista 7274 vuoden 2016 loppuun mennessä valmistuneesta tutkimuksesta vain 50% oli julkaissut tulokset, vaikka vaatimus on julkaista tulokset 12 kuukauden kuluessa. Tulosten julkaisu oli huomattavasti tunnollisempaa niissä tutkimuksissa, joilla oli kaupallinen rahoittaja (68 vs. 11%).
Teollisuuden rahoittamista vuosina 2007-2009 valmistuneista yhdysvaltalaisista vaiheen 2-4 lääketutkimuksista 77.5%:n tulokset oli julkaistu kesään 2017 mennessä tutkimuskirjallisuudessa ja/tai ClinicalTrials-sivustolla. Toisin sanoen, 22.5% tuloksista oli vielä julkaisematta 7-9 vuotta tutkimuksen jälkeen.


6.4. Tuloksia raportoidaan edelleen valikoivasti

Kuten edellä mainittiin, esirekisteröinti helpottaa huomattavasti sen tarkistamista, poikkeaako julkaistu tutkimusartikkeli alkuperäisestä tutkimussuunnitelmasta. Tätä on hyödynnetty viime aikoina muun muassa COMPare-projektissa, jossa katsottiin, miten huippulehdissä julkaistut tiedeartikkelit noudattivat omaa tutkimussuunnitelmaansa.

Tulosmuuttujien muuntelu 2009-2015
Tutkimusviite
Havaintoja
● COMPare-tutkimuksessa valittiin lääketieteen huippulehdistä 67 vuoden 2015 syksynä julkaistua tutkimusartikkelia ja arvioitiin niissä toteutunutta tutkimustulosten raportointia.
● Vaikka kyseiset lehdet virallisesti noudattavat kliinisten tutkimusten CONSORT-menetelmää, todellisuudessa tulosten raportoinnissa oli suuria ongelmia ja 87% näistä tutkimuksista raportoi tuloksia poiketen alkuperäisestä protokollasta.
● Vuonna 2013 julkaistuista satunnaisesti valituista 192 lääketutkimuksesta vain 76:ssa (40%) havaittiin ennakkoon selkeästi määritellyt tulosmuuttujat, jotka oli myös raportoitu asianmukaisesti tutkimusraportissa.




6.5. Tulevaisuuden tiede on läpinäkyvää

Vuonna 2008 perustetulla The EQUATOR Network -sivustolla on nopeasti luettavissa tärkeimpien tieteellisten tutkimustyyppien raportointiohjeet. Esimerkiksi kliinisen tutkimuksen tekijöille löytyy CONSORT ja systemaattisen katsauksen tekijöille PRISMA.

Vuonna 2015 Science-lehti julkaisi tieteen läpinäkyvyyttä ja avoimuutta vaativat TOP-suositukset tiedelehdille, joissa otetaan kantaa tiedelehtien toimintatapaan kahdeksalla eri tiedejulkaisemisen osa-alueella: viittauskäytännöt, datan läpinäkyvyys, analyysimenetelmien läpinäkyvyys, tutkimusmateriaalien läpinäkyvyys, suunnittelun läpinäkyvyys, tutkimusten ennakkorekisteröinti, analyysisuunnitelmien ennakkorekisteröinti ja replikaatio (Nosek ym. 2015). 

Vuonna 2017 TranspariMED-järjestö julkaisi oman Clinical Trial Transparency: A Guide For Policy Makers -ohjeistuksen päätöksentekijöille. Ohjeistuksessa kerrotaan tieteen läpinäkyvyyden tärkeydestä yhteiskunnalle, lääketieteelle ja potilaille sekä tarjotaan ratkaisuja ongelman korjaamiseen.




Näyttöön perustuvan tieteen asiantuntijoiden keskuudessa esiintyy näkemyksiä siitä, että esirekisteröimätön tutkimusnäyttö on lähtökohtaisesti niin epäluotettavaa, että sitä ei välttämättä tulisi edes hyödyntää päätöksenteossa (Chambers 2018). Kaikkein luotettavimpana pidetään toistaiseksi vielä kohtuullisen harvinaista nk. Registered Reports -tutkimusnäyttöä, jossa tutkimuksen protokolla vertaisarvioidaan tiedelehdessä jo ennen tutkimuksen toteuttamista, ja lopulta tulokset julkaistaan sen tuloksista riippumatta.

Psykologiassa viimeaikaiset Registered Reports replikaatioprojektit ovat antaneet keskimäärin kolme kertaa pienempiä tuloksia kuin aiemmat julkaistut tutkimukset koskien täysin samoja ilmiöitä (Kvarven ym. 2019). Tämänlaiset löydökset kertovat siitä, että lupaavia tutkimuslöydöksiä täytyy pyrkiä replikoimaan sen varmistamiseksi, että lupaavat löydökset ovat myös todellisia.


7. Keskimäärin tiede paranee


Erinäiset tutkimusmetodeja analysoineet artikkelit ovat havainneet, että kliinisen lääketieteen tutkimuksissa kehitys on menossa ainakin oikeaan suuntaan. Tutkimuksia tehdään aiempaa useammin kelvollisilla menetelmillä ja ne raportoidaan myös aiempaa useammin asianmukaisesti (Catillon 2019, Dechartes 2017, Reveiz ym. 2015, Saltaji ym. 2017).

Asiassa on kuitenkin se varjopuoli, että nykyisellään tilanne on vielä kehno ja kehityksen nopeus ei ole mairitteleva. Aiheesta tänä vuonna julkaisseen Maryaline Catillonin kertomat faktat ovat kaikkiaan melko tylyjä (Catillon 2019):


"Nykyisellä tahdilla kestäisi 50 vuotta, kunnes 95 prosenttia satunnaistetuista tutkimuksista olisi kelvollisesti raportoitu."

"Riittävän hyviä menetelmiä käyttäneiden tutkimusten osuus kasvoi vuosien 1990-2015 välillä 2.6 prosentista 10.3 prosenttiin."

"Huonosti raportoitujen tutkimusten osuus väheni vuosien 1990-2015 välillä 42.5 prosentista 30.2 prosenttiin."


Mikäli näistä lausunnoista haluaa löytää jotakin positiivista, niin mainittu moitteettomien tutkimusten määrän nousu 2.6 prosentista 10.3 prosenttiin on kuitenkin nelinkertainen nousu viidentoista vuoden aikana. Pidän myös todennäköisenä, ettemme joudu odottamaan viittäkymmentä vuotta hyvää tutkimuskulttuuria, vaan kehityksen tahti saattaa kääntyä aihetta koskevan keskustelun myötä nykyistä nopeammaksi.


Kelvolliset tutkimusmenetelmät ovat yleistymään päin, mutta tahti on hidas (Catillon 2019).


8. Loppusanat


“On helpompi herättää vaikutelma älyllisestä ja terävästä puhujasta esittämällä huolta ja kritiikkiä meneillään olevasta kehityksestä tai nykykäytännöistä kuin ihastelemalla sitä, kuinka hyvin asiat nyt ovat. Huoli ja kritiikki vaikuttavat älyllisemmältä ja valppaammalta kuin tyytyväisyys, joka ei oikein pue intellektuellia.” - Hannu Lauerma (2014)


Hyvä skeptikko ei keskity ainoastaan homeopatian ja muun huuhaan alasampumiseen, sillä kriittistä ajattelua tarvitaan paljon myös lääketieteen yhteisön sisällä. Kysymys toki kuuluu: mikä määrä kritiikkiä lääketiedettä kohtaan on sopivaa ja milloin mennään liiallisuuksiin?

Olen tässä kirjoituksessa nostanut esille kaksi suurta lääketieteessä ilmennyttä ongelmaa. Ensimmäinen suuri ongelma koskee tutkimusnäytön metodologista laatua ja lääketiedeyhteisön liian lepsua näytönastearviointia. Toinen ongelma koskee tutkimusten harhaanjohtavaa raportointia, jonka aiheuttavat julkaisuharha, tulosmuuttujien valikoiva raportointi, tilastokikkailu ja spin.

Näitä molempia ongelmia on kuitenkin alettu jo korjata lääketieteessä. Tieteellisissä suosituksissa arvioidaan tutkimusten näytönastetta aikaisempaa kriittisemmin ja esimerkiksi ennakkorekisteröinti on muuttumassa yhä pakollisemmaksi käytännöksi tieteenteossa.

Mikä on siis oikeudenmukainen tuomio nykylääketieteelle? Kuuluuko lääkärien uskottavuus romukoppaan, vai voidaanko lääketiedettä ja hoitosuosituksia kuitenkin pitää kaikkiaan luotettavina? Vinay Prasad otti tuoreessa podcast-esiintymisessään kantaa aiheeseen. Vaikka kyseessä on tunnettu lääketieteen kriitikko, hän kuitenkin yllättää optimistisella asenteellaan:


“Meidän täytyy todeta muutama asia: Onko lääketieteessä ongelmia joihin meidän täytyy puuttua ammattiryhmänä? On ehdottomasti. Samaan aikaan, tällä hetkellä tiedevastaisuus on kiihkeää ja kovaäänistä. Mielestäni vihoviimeisin päätelmä vedettäväksi tästä käymästämme keskustelusta on se, että kaikki lääketiede olisi pahaa, kaikki tiede viallista ja ettei kannattaisi uskoa mitään mitä lääkäri sanoo. Tällaiselle ajattelulle löytyy joitakin häpeilemättömiä hyötyjiä jotka haluavat sinunkin uskovan näin. He ovat väärässä. Tiede ja lääketiede ovat parhaita asioita mitä ihmisille on tapahtunut. Ne ovat myös paras polku eteenpäin. Lääketieteen ongelmia tulee hoitaa skalpellilla eikä miekalla. Ongelmat tulee ymmärtää ja korjata, lasta ei tule heittää pesuveden mukana.” (55:01-55:47)

Olen itsekin suurin piirtein samalla linjalla. Lääketieteelliseen tietoon on hyvä suhtautua monissa tapauksissa varauksella, mutta uskoakseni lääketiede on menossa pääpiirteittäin oikein hyvään suuntaan. 


9. Aiheeseen liittyviä linkkejä

Mikäli koit tämän blogitekstin aihealueen kiinnostavana, alla olevaan taulukkoon on koottuna tieteen kehittämiseen liittyviä ylimääräisiä lukusuosituksia.

Paremman tieteen etulinjaa
Twitter-tilejä

Painotus lääketieteessä:


Painotus psykologiassa:


Järjestöjä

Projekteja

Tieteellisiä suosituksia

Preprint-palveluja

Kursseja


Ei kommentteja:

Lähetä kommentti