N1-0197 Izboljšanje presejanja za rak dojke z analizo kvantitativnih slikovnih biomarkerjev kot množičnih podatkov

Raziskovalni projekt (so)financira Javna agencija za raziskovalno dejavnost RS.

Članica UL: Fakulteta za matematiko in fiziko

Šifra projekta: N1-0197

Naziv projekta: Izboljšanje presejanja za rak dojke z analizo kvantitativnih slikovnih biomarkerjev kot množičnih podatkov

Obdobje: 1. 1. 2021 - 31. 12. 2024

Letni obseg: 1,2 FTE cenovna kategorija: B

Vodja: Robert Jeraj

Veda: Naravoslovje

Sodelujoče RO, sestava projektne skupine, bibliografske reference

Vsebinski opis projekta:

Rak dojke je pomemben zdravstveni problem, ki ga uspešno omejujemo s presejalnimi testi. Slovenski in flamski presejalni program ustrezata kriterijem uspešnosti, ki jih navajajo temeljni dokumenti Evropske unije. V zadnjem času pa bodeta v oči dve dejstvi:

petkrat bolj pogosto pojavljanje raka med presejalnimi pregledi pri posameznicah z radiološko gostimi dojkami
petina odkritih rakov je prepoznavna že na predhodni mamografski sliki glede na tisto s klinično odločitvijo.

Oba primera predstavljata z mamogramom povezan in od ostalih dejavnikov neodvisni prispevek k ogroženosti z rakom dojke. Poleg njiju je tak dejavnik tudi radiološka gostota dojke.

Ti radiološki dejavniki so pri obravnavi bolnic v večini presejalnih programov prezrtih zaradi težav povezanih z zanesljivim in objektivnim vrednotenjem mamografskih slik. Tako posameznice s tovrstnim radiološkim tveganjem niso vključene v posebno obravnavo, kamor so napotene posameznice z genetskim in družinskim tveganjem za raka dojke.

V projektu predlagamo uporabo kvantitativnih slikovnih biomarkerjev (QIB) kot zanesljivih napovednih dejavnikov radiološke ogroženosti za rak dojke. Gre za iskanje vzorcev, ki so povezani z izbranimi kliničnimi znaki, bodisi iz (1) vrednosti v posameznih slikovnih elementih (vokslih), (2) vrednostih glede na izbrane referenčne točke (ang. landmarks), ter (3) razporeditve vrednosti v bližnji okolici izbranih vokslov ali kombinacije vseh treh. Takšne kombinacije so predstavljene kot slikovni filtri, ki jih lahko definiramo ročno ali pridobimo z metodami strojnega učenja iz podatkov. Ročno izdelani filtri vključujejo radiomske teksture in jih je lažje implementirati interpretirati ter prilagajati, vendar pogosto niso optimalni in/ali prilagodljivi za različne naloge. Filtri strojnega učenja so statistično pomembnejši in jih je mogoče uporabiti za različne naloge, vendar jih je težko intepretirati in za učenje potrebujejo veliko računalniške moči.

V projektu nameravamo izboljšati proces presejanja in izkoristek mamografskih slik s pomočjo slikovne analitike in z njo povezanih slikovnih biomarkerjev s poudarkom na longitudinalnih značilnostih, uporabljenih na bogatih podatkovnih bazah mamografskih slik Flamske in Slovenije, posebej:

dinamičnih spremembah med zaporednimi presejalnimi obiski (longitudinalna komponenta)
analitike na množičnih podatkih in iskanju vzorcev značilnih za rak dojke (prostorska komponenta)

Hipoteza: Dinamična analitika množičnih podatkov (ang. big data), ki prepoznava longitudinalne spremembe v gostoti dojke in z mamografsko sliko povezanih parametrov ogroženosti bo izboljšala napovedno moč mamografskega slikanja.

Rezultati in dosežki projekta:

Cilj 1: Ureditev podatkovnih baz v Sloveniji in Flandriji

Na Onkološkem inštitutu v Ljubljani je bila postavljena vsa potrebna infrastruktura, ki zagotavlja varno in avtomatizirano shranjevanje mamografskih slik, do katerih lahko člani projekta dostopajo tudi na daljavo. Za vse pacientke (≈300k), ki so bile kadarkoli slikane v presejalnem programu so bile pridobljene identifikacijske kode, preko katerih se je možno s pomočjo specifične poizvedbe dokopati do vseh slik in pripadajočih metapodatkov. Prav tako je za vsako pacientko, ki je do leta 2023 zbolela za rakom (≈4k) na voljo informacija o tem, kdaj točno je bila diagnoza postavljena, na kateri dojki se je rak pojavil in za katerim tipom/podtipom raka je pacientka zbolela. Za uporabo slik so bila pridobljena vsa potrebna soglasja.

Cilj 2 in 3: Ponovljivost ter odziv kvantitativnih slikovnih biomarkerjev

Pred pričetkom razvoja vse nadaljnje metodologije se je kot ključni prvi korak pojavila potreba po zanesljivi odstranitvi pektoralne mišice iz mamografskih slik. V ta namen je bil izdelan segmentacijski model, ki iz mamografskih slik odstrani pektoralno mišico in zraven poda oceno negotovosti. Jedro segmentacijskega modela je konvolucijska nevronska mreža ResNet18 z dodanimi Monte Carlo dropout plastmi, kar omogoči stohastično naravo modela. S povprečenjem več segmentacij in določitvijo standardne deviacije je možno oceniti negotovost segmentacije, ki nasprotno korelira z dejansko uspešnostjo segmentacije (Pearsonov korelacijski koeficient: 0.76 in p<0.001) [COBISS.SI-ID – 102789123]. V neodvisni simulaciji klinične validacije se je izkazalo, da predlagana metrika za oceno negotovosti zelo dobro ločuje med nesprejemljivimi in sprejemljivimi segmentacijami (AUC = 0.98, CI: 0.96, 1.0) [COBISS.SI-ID – 150959363]. Na preverjenih 200 slikah z natančno določeno regijo pektoralne mišice je model dosegel visoko uspešnost segmentacije (Dice Similarity Coefficient = 0.95±0.07) [COBISS.SI-ID – 150931203].

MC dropout metoda za oceno negotovosti segmentacij je bila primerjana z ansambelskim pristopom, kjer je bila dosežena podobna uspešnost segmentacije (Dice Similarity Coefficient = 0.94±0.10), vendar s signifikantno slabšim ločevanjem med nesprejemljivimi in sprejemljivimi segmentacijami (AUC = 0.90, CI: 0.84, 0.95) [COBISS.SI-ID – 150980355].

Ponovljivost kvantitativnih slikovnih biomarkerjev je bila preverjena za 93 radiomskih značilk. Za vsako izmed radiomskih značilk je bil testiran razpon različnih parametrov. Ponovljivost je bila preverjena za mamografske slike v kranio-kaudalnem (CC) pogledu, kjer je vpliv pektoralne mišice manjši. Izvedena sta bila dva testa: primerjava med radiomskimi značilkami izluščenimi iz leve in desne dojke ter primerjava med izluščenimi radiomskimi značilkami iz 4 perturbiranih slik. Kvantifikacija ponovljivosti je bila merjena z znotraj-razrednim koeficientom korelacije (ICC). Ker je maksimalna ponovljivost trivialno dosegljiva z izbiro ekstremnih vrednosti parametrov, je kot dodatna mera za izbor optimalne ponovljivosti bila izbrana tudi biološka senzitivnost. Le-ta je bila definirana kot moč ločevanja med razredoma z nizko in visoko verjetnostjo za pojavitev raka na dojki (AUC). Za vse možne izbore parametrov je zgolj 12/93 radiomskih značilk doseglo sprejemljivo ponovljivost (ICC > 0.75) ob sprejemljivi biološki senzitivnosti (AUC > 0.7) [COBISS.SI-ID – 102828291].

Primerjava radiomskih značilk izluščenih iz slik za prezentacijo (FOR PRESENTATION) in slik za obdelavo (FOR PROCESSING) je pokazala, da izračunane vrednosti radiomskih značilk višjih redov za ta dva tipa slik niso ponovljive (ICC < 0.5). Rezultati so pokazali (ICC > 0.5), da je 70/93 radiomskih značilk ponovljivih med mamografskimi slikami za prezentacijo in centralno rezino digitalne tomosinteze [COBISS.SI-ID – 150974723].

Pri ocenjevanju gostote dojk (neodvisni napovedovalec tveganja za raka dojke) s pomočjo ponovljivih radiomskih značilk se je izkazalo, da se uspešnost napovedovanja gostote izboljša z uporabo longitudinalnih podatkov. Vrednost Cohen kappa rezultata se je iz 0.63±0.01 izboljšala na 0.67±0.01 v primeru uporabe dodatnih radiomskih značilk izluščenih iz še ene starejše preiskave [COBISS.SI-ID – 108298499].