Od genomu człowieka po epigenom raka – zastosowanie wysokowydajnych technologii w onkologii molekularnej
Marzena Anna Lewandowska 1 , Łukasz Żołna 1 , Krzysztof Roszkowski 2 , Janusz Kowalewski 1Streszczenie
Piętnaście lat po opublikowaniu pełnej sekwencji genomu człowieka, który zrewolucjonizował medycynę i biotechnologię, szczegółowe wyjaśnienie molekularnych mechanizmów chorób genetycznych nadal pozostaje wyzwaniem. Krajowe i międzynarodowe instytucje przeprowadzają wiele projektów badawczych w dziedzinie genomiki. Część z nich koncentruje się na charakterystyce elementów funkcjonalnych genomu (np. Genome Browser), niektóre zespoły zbierają informacje dotyczące polimorfizmów (np. projekty: „HapMap” i „1000 genomów”) czy mutacji (np. baza danych HGMD), podczas gdy praca pozostałych zespołów badawczych skupia się na charakterystyce genomu raka (np. projekty: „The Cancer Genome Atlas”, „Pediatric Cancer Genome Project”) czy badań asocjacyjnych całego genomu (GWAS). Dalsze pozyskiwanie i analiza danych pozwoliła na rozróżnienie zmian synonimicznych i niesynonimicznych, które stały się podstawą do badań epidemiologicznych różnych typów zaburzeń genetycznych. Również wyniki sekwencjonowania całego genomu i transkryptomów wydają się niezwykle przydatne w identyfikacji nowych markerów prognostycznych i predykcyjnych, zwłaszcza w onkologii molekularnej. Dlatego wydaje się prawidłowe rozważenie potencjału wybranych analiz SNP czy mutacji do rutynowej diagnostyki, jak i wykorzystanie obecnych wzorców metylacji DNA i ekspresji genów w nowotworach do badań z zakresu medycyny translacyjnej.
Od genomu człowieka po genom raka
W kwietniu 2018 r. minęło 15 lat od opublikowania sekwencji ludzkiego genomu, które miało pomóc w wyjaśnieniu udziału czynników genetycznych w chorobach człowieka, jednocześnie torując drogę nowym strategiom rozpoznawania, leczenia i profilaktyki tych chorób. Projekt „Poznania Ludzkiego Genomu” (Human Genome Project) zrewolucjonizował medycynę i biotechnologię dzięki udostępnieniu wygenerowanych danych naukowcom na całym świecie.
Według danych Narodowego Instytutu Poznania Ludzkiego Genomu (National Human Genome Research Institute; NHGRI) informacje uzyskane z zsekwencjonowanego genomu pozwoliły dotąd na odkrycie ponad 1800 nowych chorób i stworzenie ponad 2000 testów genetycznych wykorzystywanych w diagnostyce molekularnej, a co najmniej 350 produktów biotechnologicznych będących wynikiem odkryć dokonanych w ramach projektu jest na etapie prób klinicznych.
Po 15 latach od uzyskania pełnej sekwencji genomu człowieka wyzwaniem jest dogłębne poznanie molekularnych mechanizmów poszczególnych chorób. Próby osiągnięcia tego celu są podejmowane m.in. przez realizowanie celów konsorcjum ENCODE (The Encyclopedia of DNA Elements Consortium). ENCODE to międzynarodowe konsorcjum badawcze utworzone w 2003 r. i finansowane przez NHGRI. Jego zadaniem było stworzenie kompletnej bazy danych (Genome Browser) zawierającej 1% (około 30 MB) genomu ludzkiego, który będzie reprezentował elementy funkcjonalne całego genomu. Szczegółowa baza danych UCSC Genome Browser ma wiele odsłon obejmujących fizyczną lokalizację i mapowanie, analizę miejsc przyłączania się czynników transkrypcyjnych, badania GWAS czy informacje o polimorfizmie pojedynczych nukleotydów (single nucleotide polymorphism, SNP) (http://genome.ucsc.edu/).
W ramach projektu „Hap Map” prowadzonego przez międzynarodowe konsorcjum HapMap założone w 2001 r., przygotowano katalog zmienności genetycznej (lub katalog haplotypów) w ludzkim genomie, badając genom tak zróżnicowanych grup etnicznych, jak Masajowie z Kinyawa w Kenii, Japończycy z Tokio czy Amerykanie o meksykańskich korzeniach z południa Kalifornii. Wprawdzie w pierwszej i drugiej fazie projektu powstały dokładne mapy jedynie 4 populacji [1, 2], to w 2010 r. opublikowano wyniki trzeciej fazy z dodatkowymi danymi, które rozszerzyły zakres badań projektu do 11 populacji. Przeprowadzona analiza obejmowała nie tylko SNP, które tworzą zmianę sekwencji nukleotydów występującą częściej niż u 1% populacji, ale również polimorfizm liczby kopii (CNP, copy number polymorphism) [13]. Narzędzia, które zostały stworzone w ramach każdego z tych projektów, służą nie tylko do poznania ludzkiego genomu, ale też są podstawą badań molekularnych na zwierzętach modelowych. Znacznym rozszerzeniem projektu HapMap jest projekt sekwencjonowania 1000 genomów ludzkich (http://www.internationalgenome.org/home, https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes) [1], w którym zwiększono wielkość prób i liczbę grup docelowych. Umożliwia porównanie złożonych fenotypów (np. związanych z odpowiedzią na lek) w całej populacji, z uwzględnieniem np. populacji chińskiej Han, japońskiej z Tokio, kenijskiej, gambijskiej i afroamerykańskiej, meksykańskich Amerykanów i Portorykańczyków, a w Europie – Finów, iberyjskiej populacji z Hiszpanii, brytyjskiej z Anglii i Szkocji, a także włoskiej z Toskanii. Projekt przewidywał wykrycie większości wariantów o częstości występowania powyżej 1%. Pierwsze wyniki opierały się na sekwencjonowaniu genomu 179 osób z 4 populacji. Następnie przeprowadzono sekwencjonowanie z wysokim poziomem pokrycia u członków dwóch rodzin (rodzice + jedna córka) – jednej z Nigerii, a drugiej ze stanu Utah, o europejskich korzeniach. Trzecia analiza dotyczyła 697 osób z 7 populacji, u których dokonano sekwencjonowania eksonów. Jednym z wyników analiz było oszacowanie różnicy między genomem każdej badanej osoby a sekwencją referencyjną genomu ludzkiego na 10 000-11 000 zmian niesynonimicznych oraz dodatkowo 10 000-12 000 zmian synonimicznych, w których zmiana nukleotydu w genie nie powoduje zmiany aminokwasu w kodowanym białku. Autorzy ocenili również, że każdy genom człowieka jest heterozygotą względem 50-100 wariantów zakwalifikowanych w bazie danych HGMD (The Human Gene Mutation Database) jako mutacje warunkujące choroby dziedziczne [1]. Ostatnia faza projektu została zakończona w 2015 r., a analizy danych są prowadzone nie na 1000, ale na 2504 genomach z 26 populacji. Porównanie wyników projektu 1000 genomów z wynikami sekwencjonowania uzyskanymi w ramach projektu ENCODE powinno umożliwić bardzo dokładną ocenę polimorfizmów, które nie zostały wykryte we wcześniejszych fazach sekwencjonowania. Wiedza zdobyta w tych projektach już dziś odgrywa kluczową rolę przy klasyfikacji wariantów germinalnych według American College of Medical Genetics and Genomics. Ostatnim projektem związanym z sekwencjonowaniem genomu, którego wyniki bezpośrednio wpływają na postępy w personalizacji medycyny, jest projekt stworzenia atlasu genomu raka: „The Cancer Genome Atlas (TCGA)” (http://cancergenome.nih.gov). Pierwsze analizy w ramach tego projektu dotyczyły glejaka wielopostaciowego [5], a po sukcesie tego projektu pilotażowego, NIH przyznał środki finansowe na rozwój badań nad dalszymi 33 nowotworami, w tym rakiem zrazikowym piersi, gruczolakorakiem jelita grubego, rakiem trzonu macicy, płaskonabłonkowym głowy i szyi, brodawkowatym nerki, gruczolakorakiem płuca; w projekcie uwzględniono 10 nowotworów rzadkich. Materiał biologiczny (tkanka nowotworowa i tkanka zdrowa) został pobrany od 11000 pacjentów onkologicznych. Badania obejmowały szeroko rozumianą analizę DNA/RNA/miRNA, a także analizę ekspresji genów, metylacji DNA oraz SNP wraz z liczbą kopii genów. Bogactwo danych w bazach TCGA z zakresu genomiki, transkryptomiki i epigenetyki jest jedynie punktem wyjścia do głębszego zrozumienia karcynogenezy. Dodatkowym projektem w zakresie poznawania genomu raka był przygotowywany przez zespół szpitala St. Jude Children’s Research Hospital oraz z Uniwersytetu Medycznego w St. Louis (Washington University School of Medicine) „The Pediatric Cancer Genome Project”.
Również w tym ambitnym projekcie, celem było zrozumienie zmian genetycznych w nowotworach wieku dziecięcego, aby docelowo móc zaproponować odpowiednie terapie lub rozpocząć nowe badania nad lekami. Analiza porównawcza genomu komórek nowotworowych z genomem komórek prawidłowych od tego samego pacjenta była przeprowadzona u 800 osób [11]. Choć projekty związane z genomem człowieka, HapMap, baza HGMD, TCGA czy sekwencjonowanie genomu wybranego nowotworu są odrębnymi przedsięwzięciami, warto zauważyć, że mutacje somatyczne w danym nowotworze mogą występować w tym samym kodonie, co mutacje dziedziczne, które warunkują inne choroby.
Badania asocjacyjne całego genomu (Genome-Wide Association Studies) prowadzone w różnych grupach badawczych oraz projekt sekwencjonowania 1000 genomów wykazały, jak wiele potencjalnych SNP (również tych nowo odkrytych) powoduje powstanie funkcjonalnych wariantów genów. Pierwsze wyniki badań nad różnicami w ludzkim genomie wykazały występowanie około 15 milionów nowych SNP, miliona krótkich insercji i delecji oraz około 20 tys. wariantów strukturalnych, które nigdy wcześniej nie zostały opisane [36]. Dogłębna analiza obejmująca eksplorację danych genetycznych (data mining) u osób biorących udział w wyżej wymienionym badaniu wskazuje, że 250-300 heterozygotycznych zmian związanych jest z utratą funkcji (loss of function) dotychczas poznanych genów, a każda z osób jest w układzie heterozygotycznym wobec 50-100 zmian w genach związanych z chorobami dziedzicznymi [1]. Dalsza obróbka danych obejmowała wyodrębnienie ze wszystkich wykrytych SNP tylko tych polimorfizmów, które mogą powodować powstanie funkcjonalnych wariantów genów. Wykryto 60 157 takich potencjalnie synonimicznych SNP, 68 300 niesynonimicznych SNP, z których połowa została zidentyfikowana po raz pierwszy, a także 517 SNP modyfikujących miejsca donorowe i akceptorowe [1]. Te wyniki służą jako matryca do dalszych analiz epidemiologicznych GWAS [22], badań nad stwardnieniem rozsianym [29] czy dalszych badań nad jednogenowymi chorobami dziedzicznymi, a także do sekwencjonowania genomów poszczególnych nowotworów. Co więcej, po badaniach asocjacyjnych całego genomu – badania funkcjonalne wskazują, że zarówno bez metod o dużej przepustowości, takich jak CHIP-seq czy analiz konformacji chromatyny trudno będzie w pełni zinterpretować i wykorzystać uzyskane dane genetyczne [33].
Od poszukiwania nowych SNP i mutacji po analizy wielogenowe
Wyniki sekwencjonowania całych genomów i transkryptów po odpowiednim przygotowaniu danych i odsianiu fałszywie pozytywnych sygnałów mogą się przyczynić do identyfikacji wielu nowych potencjalnych markerów prognostycznych i predykcyjnych. W związku z tym ważna jest nie tylko analiza SNP, ale również dogłębne poznanie ich funkcji i prawidłowe odróżnienie polimorfizmu (zmiana genetyczna występująca w populacji z częstością większą niż 1%) od mutacji. Ważną analizą obejmującą wyszukanie nowych SNP związanych z rakiem piersi była metaanaliza danych uzyskanych od 10 052 pacjentek z rakiem piersi i 12 575 pacjentek z grupy kontrolnej pochodzenia europejskiego. W ramach tych badań przeanalizowano 35 084 SNP i zidentyfikowano 41 nowych loci związanych ze zwiększonym ryzykiem zachorowania na raka piersi wykazującym istotność statystyczną na poziomie całego genomu (p<5×10-8). Późniejsze analizy wskazały na występowanie około 1000 innych loci także związanych ze zwiększoną podatnością na zachorowanie na raka piersi [25].
Badania nad genem TERT [14, 16], zwłaszcza nad mutacjami somatycznymi w raku pęcherza, również wskazują, że gen ten jest najczęściej zmutowanym genem w inwazyjnym raku pęcherza z dotychczas zidentyfikowanych genów (mutacja występowała w 2/3 przypadków) [17]. Biorąc pod uwagę wciąż wysoki wskaźnik śmiertelności w tej grupie chorych [6], ocena mutacji w promotorze genu TERT jest bardzo obiecującym biomarkerem zarówno w rozpoznaniu początkowym, jak i podczas dalszego monitorowania choroby, zwłaszcza przy jej progresji i nawrotach [17, 23, 39]. Innym przykładem diagnostycznego wykorzystania wyników zintegrowanej analizy genomowej glejaka wielopostaciowego jest ocena mutacji w genie IDH1 [19]. Mutacja R132H w silnie konserwatywnej ewolucyjnie sekwencji genu IDH1 była częściej wykrywana u pacjentów w młodym wieku i wiązała się z lepszymi rokowaniami klinicznymi. Ma nie tylko wartość prognostyczną, ale i predykcyjną w przypadku leczenia temozolomidem.
W diagnostyce molekularnej zaczęto wykorzystywać technologie wysokoprzepustowe choć czasochłonność i koszt przygotowania bibliotek i analizy bioinformatycznej sekwencjonowania nowej generacji jest na tyle znacząca, że metody z wykorzystaniem PCR w czasie rzeczywistym są nadal najczęstszym standardem w onkogenetyce. Już dziś rutynowo wykonuje się analizy mutacji somatycznych genu EGFR w tkance nowotworowej u pacjentów z rakiem płuca [18], a w licznych badaniach naukowych do monitorowania terapii inhibitorami kinazy tyrozynowej materiałem badawczym jest krażące DNA nowotworowe. Kwalifikacja pacjentów z rozpoznanym rakiem jelita grubego wymaga coraz szerszej analizy genetycznej. Jeszcze parę lat temu oceniano najczęstsze mutacje w kodonie 12 i 13 genu KRAS [20], dziś rutynowa analiza genetyczna z wykorzystaniem metody PCR – w czasie rzeczywistym obejmuje trzy geny: KRAS, NRAS i BRAF. Analiza genetyczna zmian w dużych genach BRCA1 i BRCA2 w tkance nowotworowej jest wykonywana z zastosowaniem sekwencjonowania nowej generacji. Ważne jest, aby nie tylko stosować zestawy medyczne do diagnostyki in vitro (oznakowane certyfikatem CE IVD), ale dobrze jest korzystać z różnych bioinformatycznych narzędzi wspomagających decyzje specjalisty. Bioinformatyczne narzędzia często są proponowane razem z zestawem odczynników NGS dla pojedynczych genów BRCA1/2 (Entrogen), zestawu genów badanych w kierunku terapii anty-EGFR (Generi biotech), czy wielogenowych analiz diagnostycznych wykorzystywanych diagnostyce guzów litych lub diagnostyce hematoonkologicznej (NGeneBio), gdzie materiałem biologicznym jest zarówno DNA jak i RNA. Należy jednak pamiętać, że wysokoprzepustowe technologie nie tylko szybko generują dużą ilość danych, ale są też nowym źródłem wielu trudnych do zinterpretowania wariantów. . Poza narzędziami bioinformatycznymi, niezbędna jest wiedza i doświadczenie w laboratoryjnej genetyce medycznej. O ile od 2015 roku klasyfikacja wariantów patogennych, potencjalnie patogennych, o nieznanej patogenności, potencjalnie łagodnych oraz wariatów łagodnych jest powszechnie używana zgodnie z wytycznymi American College of Medical Genetics and Genomics oraz American Association for Molecular Pathology, to klasyfikacja zmian somatycznych nie jest jeszcze powszechnie stosowana w praktyce. Wspólnie wypracowane rekomendacje Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists wskazują czteropoziomowy system do klasyfikowania zmian somatycznych oparty na ich znaczeniu klinicznym: poziom I, warianty o dużym znaczeniu klinicznym; poziom II, warianty o potencjalnym znaczeniu klinicznym; poziom III, warianty o nieznanym znaczeniu klinicznym i IV poziom, warianty uznane za łagodne lub prawdopodobnie łagodne [20]. Wydaje się, że klasyfikacja ta jest warta przedyskutowania i stosowania w zakresie badań genetycznych niehematologicznych nowotworów nabytych. Przykładowo wariant I klasyfikuje te zmiany, które mają znaczenie na poziomie terapeutycznym lub prognostycznym – dla określonych nowotworów. Co więcej, w przypadku braku możliwości odróżnienia wariantów somatycznych od konstytucjonalnych w danym badaniu genetycznym – sugeruje się, aby zastosować wyżej opisaną ocenę kliniczną przy zgłaszaniu potencjalnie patogennych wariantów w tkance nowotworowej [20]. Niemniej jednak powinno się dążyć do identyfikacji czy zmiana jest somatyczna czy germinalna w nowym badaniu genetycznym poprzez sekwencjonowanie tkanki nienowotworowej.
Analiza metylacji DNA – potencjalne zastosowanie w diagnostyce
Jednym z zasadniczych mechanizmów związanych często z inaktywacją transkrypcji w danym regionie chromatyny jest metylacja DNA, odgrywająca główną rolę w wielu procesach biologicznych, w tym w inaktywacji chromosomu X [4], zjawisku piętnowania genomu (genomic imprinting) [21], męskiej niepłodności [22] i rozwoju nowotworów [7]. Badania nad różnymi nowotworami również wykazały nieprawidłową metylację w wielu genach. Wpływ hipometylacji na onkogenezę wyraża się nadekspresją onkogenów spowodowaną demetylacją ich regionów promotorowych. W ten sposób dochodzi do nadmiernej stymulacji proliferacji komórkowej [7]. Zjawisko hipermetylacji zachodzi w obrębie wysp CpG umiejscowionych w regionie promotorów genów supresorowych [12], które prawidłowo w genomie pozostają niezmetylowane [27, 32]. Dotychczas zbadano profile hipermetylacji wielu nowotworów: okrężnicy, żołądka, trzustki, wątroby, nerki, płuca, regionu głowy i szyi, piersi, jajników, pęcherza moczowego, endometrium i mózgu, a także chłoniaków i białaczki. W większości analizy metylacji są prowadzone na świeżym materiale pooperacyjnym lub biopsyjnym, jednak warto zauważyć, że w ostatnich latach jednocześnie rozwija się analiza metylacji promotorów wybranych genów w surowicy krwi (analiza swobodnie krążących kwasów nukleinowych, circulating nucleic acids in plasma or serum – CNAPS) ze względu na łatwiejszą dostępność materiału i ogromny potencjał zastosowania wyżej wymienionej analizy w diagnostyce molekularnej [41, 44]. Pojedyncze analizy metylacji były wykonywane z użyciem sekwencjonowania w tym pirosekwencjonowania, metyloswoistej reakcji PCR (methylation specific PCR – MSP) w tym ilościowej analizy MSP (real-time quantitative methylation specific PCR – RTQMSP) [30, 44] i najczęściej obejmowały geny supresorowe (TP16, TP15, TP14, TP73, APC i BRCA1) [40, 44], geny odpowiedzialne za naprawę DNA (hMLH1, GSTP1 i MGMT) [43, 46], a także geny odpowiedzialne za inwazyjność i przerzuty (CDH1, TIMP3 i DAPK) [34]. Pełne profilowanie metylacji w wybranych nowotworach było prowadzone w badaniach EWAS, w których w minionych latach wykorzystywano mikromacierze Infinium Human Methylation 27 Bead Chip (Illumina) do jednoczesnej analizy około 27,5 tys. loci CpG w obrębie ponad 14 tys. genów, a obecnie najnowsze mikromacierze Infinium Human Methylation 450 Bead Chip umożliwiają ocenę już ponad 485 tys. miejsc metylacji na próbkę przy rozdzielczości na poziomie pojedynczych nukleotydów [24, 37].
Porównanie profilu metylacji i profilu ekspresji genów w komórkach glejaka złośliwego wykazało, że geny biorące udział w wyciszaniu transkrypcji, modyfikacji struktury chromatyny i aktywacji komórkowych procesów metabolicznych miały zwiększoną ekspresję w komórkach G-CIMP (glioma-CpG island methylator phenotype) [27]. We wcześniejszych badaniach nad rakiem jelita grubego zidentyfikowano również profil metylacji wysp CpG charakterystyczny dla tego typu raka [38, 42]. Analizy metylacji nie są jeszcze szeroko rozpowszechnione w rutynowej diagnostyce i dotyczą pojedynczych badań, takich jak ocena metylacji genu MGMT w glejakach, ale powyższe wyniki wskazują na możliwość zastosowania profili metylacji dla wybranych nowotworów bądź analizy metylacji promotora wybranych genów w diagnostyce molekularnej.