Informacija

Udio genoma koji je evolucijski očuvan selekcijom pročišćavanja manji je od 10%?

Udio genoma koji je evolucijski očuvan selekcijom pročišćavanja manji je od 10%?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bio bih zahvalan na pomoći u razumijevanju značenja, logike, a posebno, kako tumačiti izraz:

Udio genoma koji je evolucijski očuvan selekcijom pročišćavanja je manji od 10%

Mogao bih postaviti brojna pitanja u vezi s biologijom (uključujući što se događa s ostatkom genoma i pozitivnom selekcijom) i formalnom logikom ove izjave, ali možda bih mogao nametnuti i prepustiti to onome tko ljubazno odgovori.

Ova primjedba dolazi iz sažetka Grauer & al. "O besmrtnosti televizora:" funkcija "u ljudskom genomu prema evolucijskom evanđelju ENKODE"

I sam sažetak:

Nedavni niz publikacija Konzorcija ENCyclopedia Of DNA Elements (ENCODE), posebno članak koji su potpisali svi članovi Konzorcija, iznio je ideju da je više od 80% ljudskog genoma funkcionalno. Ova tvrdnja ne odgovara sadašnjim procjenama prema kojima je dio genoma tj evolucijski očuvan selekcijom pročišćavanja je manje od 10%. Prema Konzorciju ENCODE, biološka funkcija može se održavati neograničeno dugo bez odabira, što podrazumijeva da je najmanje 80 - 10 = 70% genoma savršeno neranjivo na štetne mutacije, bilo zato što se u tim "funkcionalnim mjestima nikada ne može dogoditi mutacija" "ili zato što nijedna mutacija u tim regijama nikada ne može biti štetna. Do ovog apsurdnog zaključka došlo se na različite načine, uglavnom korištenjem rijetko korištene definicije biološke funkcije "uzročne uloge", a zatim je nedosljedno primjenjujući na različita biokemijska svojstva, čineći logičku zabludu poznatu kao "potvrđivanje posljedice", propuštajući cijeniti ključna razlika između "bezvrijedne DNK" i "smeća DNK", korištenjem analitičkih metoda koje donose pristrane pogreške i napuhuju procjene funkcionalnosti, favoriziranjem statističke osjetljivosti nad specifičnošću i naglašavanjem statističke značajnosti, a ne veličine učinka. Ovdje detaljno opisujemo mnoge logičke i metodološke prijestupe uključene u dodjeljivanje funkcionalnosti gotovo svakom nukleotidu u ljudskom genomu. Jedan od autora predvidio je da će rezultati ENCODE -a zahtijevati prepisivanje udžbenika. Slažemo se, mnogi udžbenici koji se bave marketingom, bukom masovnih medija i odnosima s javnošću možda će se morati prepisati.

Hvala


Pokušat ću se prvo pozabaviti terminologijom

  • Očuvano: To ostaje identično (ili barem vrlo slično) među vrstama.

  • Pročišćavanje odabira: Jedna je od mogućih sila koja dovodi do očuvanja važnih sekvenci DNK, uklanjanjem štetnih alela.

Dakle, izraz jednostavno znači da je udio genoma koji je u slijedu vrlo sličan genomu drugih vrsta (tj. Evolucijski očuvan) manji od 10%.

Ovo je odgovor na vaše pitanje. Zatim, samo želim dodati da dijelim Davidovo mišljenje o sažetku.


Nevjerojatno istraživanje

Projekt ENCODE (čiji je cilj “ identificirati sve funkcionalne elemente u slijedu ljudskog genoma “) izazvao je mnogo kritika. Dan Graur, član Luxuryant Former Hair Club for Scientists (LFHCfS), i njegove kolege dali su veliki doprinos toj rijeci kritika:

“O besmrtnosti televizora: ‘funkcija ’ u ljudskom genomu prema evolucijskom evanđelju ENCODE, ” Dan Graur, Yichen Zheng, Nicholas Price, Ricardo BR Azevedo, Rebecca A. Zufall i Eran Elhaik, Biologija i evolucija genoma, sv. 5, br. 3, 2013, str. 578-590. Autori pišu:

Nedavni niz publikacija Konzorcija ENCyclopedia Of DNA Elements (ENCODE), posebno članak koji su potpisali svi članovi Konzorcija, iznio je ideju da je više od 80% ljudskog genoma funkcionalno. Ova tvrdnja ne odgovara sadašnjim procjenama prema kojima je dio genoma koji je evolucijski očuvan selekcijom pročišćavanja manji od 10%. Prema tome, prema ENCODE konzorciju, biološka funkcija može se neograničeno održavati bez odabira ….

“Bio bih vrlo ponosan da sam bio član odbora koji je dizajnirao genom E. coli. Međutim, ne postoji način na koji bih priznao da sam član odbora koji je dizajnirao ljudski genom. Čak ni sveučilišni odbor ne bi mogao tako loše pogriješiti. ” —David Penny (osobna komunikacija) …

“Test luka je jednostavna provjera stvarnosti za svakoga tko misli da može dodijeliti funkciju svakom nukleotidu u ljudskom genomu. Koje god bile vaše predložene funkcije, zapitajte se sljedeće: zašto luku treba genom koji je otprilike pet puta veći od našeg? " —T. Ryan Gregory (osobna komunikacija) …

Apsurdna alternativa, koju je ENCODE nažalost usvojio, je pretpostaviti da se nikada ne mogu dogoditi štetne mutacije u regijama za koje su smatrali da su funkcionalne. Takva je pretpostavka slična tvrdnji da će televizor ostavljen uključen i bez nadzora i dalje biti u radnom stanju nakon milijun godina jer na njega ne mogu utjecati nikakvi prirodni događaji, poput hrđe, erozije, statičkog elektriciteta i potresa. Zamršeno obrazloženje odluke o odbacivanju evolucijskog očuvanja i ograničenja kao sudaca funkcionalnosti koje je iznio vodeći autor ENCODE-a (Stamatoyannopoulos 2012) je neutemeljeno i samoživo.

Podijeli ovo:

Objavio Marc Abrahams na Subota, 6. prosinca 2014. u 9:59 pod, ispod Umjetnost i znanost, istraživačke vijesti.


Opcije pristupa

Omogućite potpuni pristup časopisu 1 godinu

Sve cijene su NETO cijene.
PDV će biti dodat kasnije na blagajni.
Izračun poreza bit će dovršen tijekom plaćanja.

Nabavite vremenski ograničen ili potpuni pristup članku na ReadCube -u.

Sve cijene su NETO cijene.


Rezultati

Obilje i raznolikost

Većina preuzetih elemenata fragmentirana je i krnja, a ugniježđeni umetaci uobičajeni su osobito među pericentrometrijskim elementima koji pripadaju Athila superporodici, iako same jezgre centromera nisu bile dostupne. Zapravo, veličina A. thaliana genom je nedavno procijenjen na približno 157 Mbp (oko 20% veći od procjene objavljene sa slijedom genoma), a čini se da je dodatna veličina posljedica (nesekvencirane) heterokromatske repetitivne DNA u centromerama, telomerima i regijama koje organiziraju jezgru [ 24]. Tablica 1 prikazuje relativnu brojnost svake nadporodice i broj kompletnih i solo-LTR elemenata identificiranih u genomu. Athila je najbrojnija nadporodica, a slijedi je Copia-Kao, Ciganin-like, i TRIM (retrotranspozoni s terminalnim ponavljanjem u minijaturi). Omjer solo-LTR-a i kompletnih elemenata je oko 2: 1. Osim stvaranja solo-LTR-a, brisanje i fragmentacija retrotranspozonske DNA u A. thaliana također se javljaju putem drugih mehanizama: 36% DNK u Athila, 38% u Ciganin-slično, 32% u Copia-slično, a 21% u potporodicama TRIM-a odgovaraju degradiranim umetcima koji nisu niti 'potpuni' elementi niti solo-LTR-ovi.

Raspodjela prema dobi

Da bi se dobila dobna raspodjela po cijelom genomu za svaku natporodicu (osim TRIM-a), 564 para LTR-a unutar elemenata je (u parovima) poravnano i procijenjena je divergencija njihova slijeda. Mnogi od cjelovitih elemenata TRIM-a imaju vrlo različite LTR-ove i sumnjam da je došlo do opsežne rekombinacije između LTR-ova među elementima. U stablima koja spajaju susjede LTR sekvenci (kompletnih i solo elemenata) iz obitelji TRIM Katydid-At1 i Katydid-At2, većina LTR parova unutar elemenata nije se grupirala. Nasuprot tome, kada su stabla izgrađena za predstavnike Athila (athila2), Ciganin-Kao (atlantys2), i Copia-Kao (meta1, atkopija49, atcopia78) superporodice, parovi LTR unutar elemenata uvijek grupirani (podaci nisu prikazani), pružajući dokaze o nedostatku rekombinacije među elementima u tim 'obiteljima'.

Superporodice se značajno razlikuju po prosječnoj dobi umetanja. Athila umetci su znatno stariji od Ciganin-slično (Wilcoxon test zbroja ranga, str & lt 0,0005), Ciganin-kao stariji od Copia-Kao (str & lt 0,0001). Raspodjela po godinama sažeta je na slici 1.

Dobna distribucija nadporodica LTR-retrotranspozona. Athila umetci su u prosjeku znatno stariji, i Copia-poput onih mlađih, od onih iz drugih superporodica. Ima ih 34 Copia-kao, četiri Athila, i tri Ciganin-lički umetci s identičnim LTR-ovima unutar elemenata. Širina vodoravnih okvira iznad histograma označava srednjih 50% dobnih vrijednosti u svakoj nadporodici. Crvena traka označava 95% granica pouzdanosti na medijani, a zelena pruga srednju vrijednost.

Copia-slični umetci mlađi su od vrsta domaćina

Koristeći stopu 1,5 × 10 -8 zamjena po mjestu godišnje [25], 97% od 215 je dovršeno Copia-slični elementi mlađi su od 3 milijuna godina (Myr), 90% mlađi od 2 Myr, a samo su dva umetaka procijenjena da su starija od 4 Myr. To pokazuje da su potpuni umetci iz poznatih Copia-slične obitelji u A. thaliana genom su mlađi od same vrste, čije je vrijeme odstupanja od najbližih srodnika, kao npr A. lyrata procijenjeno je (s istom brzinom evolucije) prije 5,1-5,4 milijuna godina [25]. Situacija je manje jasna za Athila (i Ciganinslične TE), jer je procijenjeno da je 7% od 219 parova LTR unutar elemenata starije od 5 Myr (3% Ciganin-Kao). Nadalje, Athila i Ciganin-nalik superporodica ima višak degradiranih umetaka u odnosu na Copia-slično (Tablica 1). Kompletni elementi čine oko 50% ukupne količine DNK Athila i Ciganin-slično, što ukazuje da je većina preostalih umetaka u genomu razgrađena ili su postala solo-LTR. Neki od njih vjerojatno će biti stariji od cjelovitih umetaka. Pokazalo se da se gubitak DNK (iz LTR-RT) javlja u A. thaliana [26], a najstariji umetci možda su degradirani izvan otkrivanja. S druge strane, postoje neki dokazi da su sinonimne stranice u Arabidopsis ne razvijaju se na potpuno neutralan način [27]. Da je to slučaj sa halkon sintazom (Chs) i alkohol dehidrogenazu (Adh) lokusi, njihova bi se sinonimna mjesta razvijala sporije od fosila LTR-RT, a gore opisana metoda datiranja sustavno bi precijenila starost njihovih događaja umetanja.

Athila i Ciganin-slični elementi bili su aktivniji u prošlosti

Dobna raspodjela potpuna CopiaČini se da slični elementi pokazuju nedavni nalet aktivnosti (slika 1), ali navodim dokaze (ispod) da je višak vrlo mladih elemenata rezultat brzog (u odnosu na umetanja Metaviridae) uklanjanja ovih elemenata iz genoma. Nasuprot tome, dobna raspodjela potpuna Athila i Ciganin-slični umetci imaju vrhove između 1 i 2 Myr (slika 1). Štoviše, dok ih ima 34 Copia-nalik umetanja sa svojim unutar-elementnim LTR-ima identičnim u slijedu, samo četiri takva Athila i tri takva Ciganin-prisutni su slični umetci. Ovi rezultati ukazuju na to da su razine transpozicijske aktivnosti Athila i Ciganin-slični elementi su opali od svog vrhunca između 1 i 2 Myr prije.

Fizička distribucija

Kromosomska raspodjela retrotranspozona (i drugih TE) u A. thaliana je poznato da nije slučajno i da dominira visoka koncentracija elemenata u heterokromatskim pericentromerijskim regijama [14]. Međutim, ovo je istraživanje otkrilo značajne razlike u kromosomskim lokacijama LTR-RT superporodica. Analizirao sam raspodjelu potpunih elemenata i solo-LTR-a u svakoj nadporodici duž svih krakova kromosoma zajedno, u odnosu na položaj centromera (to jest, raspodjelu udaljenosti između svakog umetanja i centromere, podijeljenu s duljinom odgovarajućeg kraka), a rezultati su sažeti na slici 2.

Diferencijalno pericentromerijsko grupiranje cjelovitih elemenata i solo-LTR-ova duž 10 krakomosomskih krakova zajedno. Okomita os mjeri udaljenost od centromere, podijeljenu s duljinom kraka kromosoma u koji je umetnut dati element: vrijednost 0,0 odgovara položaju centromera, a 1,0 telomerima. Visine okvira označavaju raspon među kvartilima, a širine su proporcionalne veličini uzorka. Crvene trake predstavljaju 95% granice pouzdanosti na medijani, a zelena traka označava srednju vrijednost svakog uzorka. Koordinate za približna središta centromera na kromosomskim nizovima postavljene su na 14,70 Mbp za kromosom I (ukupna duljina 30,14 Mbp), na 3,70 Mbp za II (19,85 Mbp), na 13,70 Mbp za III (23,76 Mbp), na 3,10 Mbp za IV (17,79 Mbp) i pri 11,80 Mbp za V (26,99 Mbp).

Athila elementi su gotovo isključivo umetnuti u pericentromerijska područja, a ostale nadporodice u značajno i postupno manje proksimalnim regijama krakova kromosoma (Wilcoxonovi zbrojni testovi: Athila bliže od Ciganin-Kao, str & lt 0,0001 Ciganin-liko bliže od Copia-Kao, str & lt 0,0001 dovršeno Copia-slični elementi bliži od kompletnih TRIM elemenata, str & lt 0,05 nema razlike između Copia-like i TRIM solo-LTR-ovi). Nadalje, osim za TRIM, unutar svake nadporodice solo-LTR su znatno udaljeniji od kompletnih elemenata (Wilcoxonovi zbrojni testovi, str & lt 0,001), što upućuje na to da se veća vjerojatnost stvaranja solo-LTR-a javlja u distalnim regijama. Raspodjela kompletnih elemenata TRIM-a u odnosu na centromeru ne razlikuje se značajno od slučajnih (test dobrote, χ 2 = 4,22, df = 3, str & gt 0,2), iako je veličina uzorka mala, dok su njihovi solo-LTR-ovi značajno grupirani (test dobrote, χ 2 = 10,70, df = 3, str & lt 0,02).

Akumulacija u proksimalnim regijama pomoću različitih evolucijskih mehanizama: pročišćavanje odabira i pristranost umetanja

Gore navedeni rezultati ukazuju na to da što je starija nadporodica, to su njeni elementi više koncentrirani u proksimalnim regijama. To sugerira da će umetanja u proksimalne (heterokromatske) regije vjerojatnije trajati dulje vrijeme. Ovo tumačenje pretpostavlja da je stopa neutralne mutacije ista za distalne (eukromatske) i proksimalne (heterokromatske) dijelove genoma. Između dva spolna kromosoma cvjetnice zabilježene su intragenomske varijacije u stopi mutacije po replikaciji [28] (iako se razlika ne može objasniti njihovim različitim stupnjem metilacije DNA, značajkom koja se često povezuje s heterokromatinom). S obzirom na to da se ovdje korištena metoda datiranja temelji na divergenciji neutralnog slijeda (između LTR unutar elemenata), većoj stopi mutacije u heterokromatinu u A. thaliana utjecalo bi na usporedbu dobi među različitim skupinama elemenata, jer pokazuju različite stupnjeve grupiranja u pericentromerični heterokromatin. Međutim, starije procjene starosti heterokromatskih elemenata u skladu su s hipotezom da je heterokromatin "sigurno utočište" u kojem umetanja TE traju dulje vrijeme. Ovdje pokazujem da su mehanizmi koji su doveli do nakupljanja LTR-RT u proksimalnim regijama različiti za različite skupine: elementi najmlađe superporodice (Copia-nalik) nasumično ubacuju u genom (u odnosu na mjesto pericentromeričnog heterokromatina), ali postoji negativna selekcija (na genomu domaćina) nasuprot njihovom umetanju u euhromatinske elemente starijih superporodica (Athila, Ciganin-like) poželjno umetnuti u pericentromerijska područja. Ovi različiti mehanizmi postaju očiti kombiniranjem vremenskih i prostornih podataka (slika 3), te kromosomskom raspodjelom mladih elemenata u usporedbi s raspodjelom starijih elemenata (unutar svake nadporodice).

Odnos između dobi i fizičke raspodjele cjelovitih elemenata. Radi jasnoće isključeni su umetci u kratke krakove kromosoma II i IV. Ovi krakovi sadrže opsežan heterokromatin udaljen od centromera, u regijama koje organiziraju nukleolare, a koje se nalaze pored njihovih telomera, i u gumbu [14]. Osim toga, njihova kratka duljina implicira da pericentromerni heterokromatin, koji se proteže oko 1-1,5 Mbp u svakom kraku [68], odgovara znatno većem udjelu njihove ukupne duljine nego u ostalih osam krakova.

Za potpunu Copia-sličnih elemenata postoji vrlo značajna negativna korelacija između relativne udaljenosti od centromere i starosti umetaka (Spearmanova korelacija ranga, ρ = -0,39, str & lt 0,0001). Nadalje, distribucija duž krakova kromosoma 34 Copia-slični umetci bez odstupanja između njihovih LTR-ova unutar elemenata ne razlikuju se značajno od slučajnih (test dobrote, χ 2 = 3,12, df = 3, str & gt 0,3). Ovo je dokaz da Copia-slični elementi integriraju se nasumično u odnosu na mjesto centromera, ali se nastoje eliminirati s distalnog područja i pasivno akumulirati u proksimalnim regijama.

Prosječno vrijeme fiksiranja (t) za neutralni alel daje se t = 4N e, gdje N eje efektivna veličina populacije. Za A. thaliana t može se procijeniti korištenjem prosjeka procjena raznolikosti nukleotida (θ) za 8 različitih A. thaliana geni, θ = 9 × 10 -3 [29], i sinonimna stopa zamjene po mjestu po generaciji, μ = 1.5 × 10 -8 [25]. t = 2θ/μ, dajući procjenu od t ≈ 1,2 mil. Ova vrijednost za t u skladu je s neovisnom procjenom koja je smjestila vrijeme od divergencije između A. thaliana i A. lyrata između 3.45t i 5.6t [30]. S obzirom da je 75% svih završeno Copia-slični umetci mlađi su od 1,2 Myr, većina će vjerojatno biti polimorfna. Uzeti zajedno s izrazito značajnom negativnom korelacijom između dobi i udaljenosti od pericentromerijskih regija, ovi rezultati ukazuju na potpunost Copia-manja je vjerojatnost da će se slični umetci fiksirati u distalnim, euhromatskim dijelovima krakova kromosoma nego u pericentromeričnom heterokromatinu.

Nasuprot tome, nema potpune korelacije između dobi i relativne udaljenosti od centromera Athila elementi (Spearmanova rang korelacija, ρ = 0,01, str = 0,9), budući da se i mladi i stari umetci nalaze samo u proksimalnim regijama (slika 3), podijeljeni u pericentromerični heterokromatin. To snažno sugerira da su elementi u nadporodici evoluirali kako bi prvenstveno ciljali pericentromerični heterokromatin i njihovu genomsku raspodjelu, za razliku od one Copia-nalik elemenata, nije rezultat pasivne akumulacije u njima. Samo ako Athila umetanja bila su mnogo štetnija od Copia-slične, kako bi se vrlo brzo uklonile pročišćavanjem selekcije, mogla bi biti pasivna akumulacija.

Ciganin-slični umetci prikazuju sličan uzorak Athila. Iako za potpune elemente postoji značajna, negativna korelacija između relativne udaljenosti od centromera i starosti, to je posljedica viška nedavnih umetaka u blizini telomera kratkog kraka kromosoma II (podaci nisu prikazani). Ako je ruka isključena iz analize, nema značajne korelacije (Spearmanova rang korelacija, ρ = -0,09, str & gt 0,3). To sugerira da je za Ciganin-također postoji i umešana pristranost prema proksimalnim regijama. Ova pristranost nije toliko jaka kao za Athila, kao potpuna Ciganin-slični umetci ne nalaze se isključivo oko centromera, a grupiraju se (u znatno manjoj mjeri) u barem jednoj drugoj heterokromatskoj regiji (telomer kratkog kraka kromosoma II). Uključeno u Ciganin-poput 'superporodice' je skupina elemenata, poznata kao Tat, koja je sestrinska grupa za Athila do isključenja preostalih Ciganin-sličnih elemenata [31]. Dob i tjelesna raspodjela Tat ne razlikuje se od preostalih Ciganin-slični elementi (Wilcoxonovi testovi zbroja ranga, str & gt 0.4) Tat pokazuju pristranost umetanja prema pericentromerijskim regijama, ali opet u manjoj mjeri od one Athila.

Poluvrijeme potpunog Copia-poput umetanja

S obzirom na to Copia-slični elementi bili su aktivni do nedavno, ali se nastoje eliminirati pročišćavanjem selekcije, njihova dobna raspodjela (slika 1, dolje) odražava proces nastanka i gubitka potpunih elemenata, kada se prosječno izračuna na evolucijskim vremenskim skalama (i na svim lozama Pseudoviridae) . Ako se pretpostavlja da je to stacionarni proces, to se može modelirati pomoću funkcije preživljavanja: N(K) = N oe -aK , gdje N (K) je broj elemenata promatranih s unutar-elementnom LTR divergencijom K, i N oi a jesu li konstante koje treba ugraditi. Brzina eliminacije tada se može procijeniti linearnom regresijom log-transformiranih podataka (poluvrijeme umetanja dano je ln2/a). Slika 4 prikazuje prikladnost za sve potpune Copia-poput umetanja (R 2 = 0,94), a za potpuna umetanja izvan proksimalnih područja (tj. S relativnom udaljenošću od centromera & gt0,2 R 2 = 0,95). Potpuno Copia-slični elementi se eliminiraju iz genoma s poluživotom od 648.000 godina (JI = 48.000 godina). Umetci isključivo izvan proksimalnih (heterokromatskih) regija gube se brže, s poluživotom od 472 000 godina (JI = 46.000 godina).

Gubitak potpunog Copia-slični elementi. Poluvrijeme potpunog Copia-slični elementi u cijelom genomu (log-transformirani brojevi označeni plavim krugovima, plava regresijska linija) procjenjuju se na oko 650.000 ± 50.000 godina. Potpuni umetci izvan proksimalnih područja (crveni kvadrati, crvena regresijska linija) gube se brže, s poluživotom procijenjenim na oko 470.000 ± 50.000 godina.


Rezultati

Uzorci polimorfizma u cijelom genomu u crossover regijama

Tablica 1 prikazuje sažetke obrazaca polimorfizma za autosomne ​​(A) i X-povezane (X) lokuse smještene u genomskim regijama gdje dolazi do križanja (C regija). Radi lakšeg predstavljanja pozvat ćemo se na raznolikost nukleotida, π, izračunato korištenjem stranica s 0 stranica, stranicama sa 4 mjesta i stranicama SI (pozicije 8 � s 5 ′ kraja kratkih introna � 𠂛p) kao π0, π4 i πSI, odnosno slična oznaka notacije će se koristiti za ostale statistike. I za A i X, i za uzorke iz Ruande (RG) i Francuske (FR), π0, Tajima's D0 (Tajima 1989.) i MAF0 znatno su manje od odgovarajućih procjena dobivenih s 4-strukih i SI stranica (Ppermutacijaπ.001 u svim slučajevima), u skladu s dobro poznatom činjenicom da je većina nesinonimnih mutacija štetna (Pal et al., 2006. Eyre-Walker i Keightley, 2007.), te se stoga drže na niskim frekvencijama u populaciji pročišćavanjem selekcije (Kimura, 1983.). Prethodne studije sugerirale su da se SI mjesta mogu neutralno razvijati (Halligan i Keightley, 2006 Parsch et al., 2010.). U našem skupu podataka, πSI čini se da je nešto manji od π4, što može biti posljedica strogog postupka filtriranja podataka koji smo primijenili (vidi Materijali i metode), ili većeg sadržaja GC-a na četverostrukim mjestima u usporedbi s intronskim mjestima, što zauzvrat očekuje povećanje stope mutacije u 4- presavijene stranice (Singh et al., 2005. Keightley et al., 2009.). Ne postoje, međutim, statistički uočljive razlike u odnosu na MAF ili Tajima D između četverostrukih i SI stranica (Tablica 1 PpermutacijaϠ.1 za A i X).

Stol 1

ChrWeb mjestoUnutar populacije a Između populacija b
  Pop. c πTajima DMAFŽ UŽ W
A0-putaRG0.0012𢄠.83970.12220.15160.1709
  FR0.0010𢄠.2586   
 4 putaRG0.0154𢄠.10690.16530.16840.1743
  FR0.01190.1116   
 SI d RG0.0145𢄠.13800.16300.16770.1766
  FR0.01130.1413   
x0-putaRG0.0012𢄡.19070.10730.16530.2924
  FR0.0005𢄠.2293   
 4 putaRG0.0166𢄠.46790.13670.19030.2879
  FR0.00680.1412   
 SI d RG0.0160𢄠.45610.13790.20330.3173
  FR0.00610.3414   

Kratice: MAF, minorna alelna frekvencija

Uzorak FR -a ima nižu razinu raznolikosti od RG -a za sve tri vrste lokaliteta (Tablica 1), što odražava gubitak genetskih varijacija uzrokovanih uskim grlima u populaciji za koje se vjeruje da su se dogodile dok je vrsta migrirala iz Afrike (Haddrill et al., 2005b Li i Stephan, 2006 Thornton i Andolfatto, 2006 Hutter et al., 2007. Duchen et al., 2013.). Razlika u π0 između dviju populacija nešto je manje od onih uočenih za π4 i πSI (na primjer, na A, π0(FR)/π0(RG) = 0,83 u odnosu na π4(FR)/π4(RG) = 0,77). To je vjerojatno zato što je više stranica s 0 stranica pod jakim selektivnim ograničenjem, pa se varijante na tim stranicama ponašaju gotovo deterministički, pa su stoga manje osjetljive na demografske promjene (na primjer, Zeng, 2013.).

Izračunali smo da bismo pregledali ukupne obrasce genetske diferencijacije između populacija RG i FR ŽSV (ovdje skraćeno Ž vidi jednadžbu (1) u materijalima i metodama), kako su je definirali Weir i Cockerham (1984.), koristeći Hudsonovu procjenu et al. (1992.). Za kombiniranje informacija o više SNP-a korištena su dva pristupa: ne-ponderirana sredina Ž (Jednadžba (5)) i ponderirana sredina Ž (Jednadžba (6)), koja će se nazivati ​​kao Ž U i Ž W , odnosno. Budući da će većina nesinonimnih mutacija vjerojatno biti štetna, očekuje se da bi razine diferencijacije populacije na tim selektivno ograničenim mjestima trebale biti niže od onih na manje ograničenim mjestima (na primjer, četverostruka mjesta) (Barreiro et al., 2008. Maruki et al., 2012.). Iznenađujuće, vrijednosti , procijenjene pomoću autosomnih ili X-povezanih podataka, statistički se ne razlikuju od podataka bilo kojeg od njih ili ( Stol 1 PpermutacijaϠ.1 u svim slučajevima). Također ne postoji zamjetljiva razlika između i (PpermutacijaϠ.1 i za A i za X). U kontrastu, Utvrđeno je da je znatno manji od oba i (Ppermutacijaπ.001 za A i X), dok su razlike između i ostaju beznačajni (PpermutacijaϠ.1 za A i X). Uzorci dobiveni iz Ž U stoga su kompatibilniji sa apriorno očekivanje da su stranice s 0 stranica u prosjeku ograničenije od stranica s 4 mjesta i SI. Istražit ćemo uzroke nedostatka razlike između i ili ili u kasnijem odjeljku.

Vrijedi primijetiti nekoliko razlika između A i X (Tablica 1). Prvo, u skladu s prethodnim izvješćima (Caracristi i Schlotterer, 2003. Hutter et al., 2007. Charlesworth, 2012b Pool et al., 2012. Campos et al., 2013.), omjer X: A u raznolikosti na navodno neutralnim mjestima (to jest, četverostrukim i SI mjestima) je oko 1 u populaciji RG (π4(X)/π4(A) = 1,08 i πSI(X)/πSI(A) = 1,10), više od null očekivanje 3/4. Drugo, smanjenje raznolikosti u FR izraženije je za X nego za A za sve tri vrste mjesta (na primjer, π4(FR)/π4(RG) = 0,41 i 0,77 za X odnosno A), kako je izviješteno u prethodnim istraživanjima (Caracristi i Schlotterer, 2003 Hutter et al., 2007.). Konačno, opseg diferencijacije stanovništva na 4-kratnim i na SI mjerenjima, mjereno bilo kojim od njih Ž U ili Ž W , značajno je veći na X nego na A (Ppermutacijaπ.001 za sve usporedbe). To je vjerojatno uvelike potaknuto većim smanjenjem raznolikosti na X u neafričkoj populaciji, kao vrijednosti Dxy, srednji broj nukleotidnih supstitucija između sekvenci uzetih iz različitih subpopulacija (Nei i Miller, 1990), usporediv je između A i X u ovoj studiji: Dxy,4= 1,65 i 1,64 %, i Dxy,SI= 1,51 i 1,58 %. Sustavno ispitivanje mogućih uzroka prividnih razlika između A i X izvan je opsega ove studije, zainteresirani čitatelj se može pozvati na prethodna istraživanja ove teme (Charlesworth, 2001 Pool i Nielsen, 2007 Singh et al., 2007 Pool i Nielsen, 2008 Yukilevich et al., 2010. Charlesworth, 2012.b Campos et al., 2013.). U nastavku će rezultati dobiveni iz A i X biti prikazani zasebno.

Ograničeni dokazi za odabir pristranosti korištenja kodona koji utječu na obrasce diferencijacije populacije na 4 puta degeneriranim mjestima

Da bismo istražili utječe li odabir pristranosti korištenja kodona na obrasce diferencijacije na četverostrukim mjestima, prvo smo ispitali odnos između i Fop, budući da je dobro poznato da je potonji u korelaciji s intenzitetom odabira prema pristranosti korištenja kodona (pregledano u Hershberg i Petrov, 2008. Zeng i Charlesworth, 2009.). S obzirom na veliku varijaciju Ž procjenitelje i nedostatak SNP-a u pojedinim genima, gene smo grupirali u kante jednake veličine sa sličnim brojem SNP-a na 4-mjesta. Kao što je prikazano na dopunskoj slici S2A, Fop i nisu povezane s A (Kendallova τ= 𢄠.01, PϠ.1). Na X -u su dobiveni neki dokazi o slaboj negativnoj korelaciji (dopunska slika S2B), ali oni nisu statistički značajni (Kendall's τ= 𢄠.6, P= 0,13). Kada je razmatrana, nije pronađena korelacija ni na A ni na X (dodatne slike S2E i F). Kako bismo to dodatno istražili, za gene unutar svake kante na X -u, testirali smo je li razlikovao od statistički. Među šest spremnika, nisu pronađeni dokazi o značajnoj razlici za prva četiri spremnika, dok su razlike bile marginalno značajne za posljednja dva spremnika s najvećim Fop -om (Ppermutacija= 0,04 odnosno 0,05). Slično, nismo otkrili nikakvu povezanost između KS i ili ili (Dopunska slika S2).

Općenito, postoje ograničeni dokazi da je odabir prema pristranosti korištenja kodona dovoljno snažan da bitno promijeni obrasce genetske diferencijacije na 4-mjesta. S obzirom na to da su četverostruka i SI mjesta u regijama C usporediva s obzirom na MAF i Ž, u nastavku ćemo koristiti uzorke diferencijacije stanovništva dobivene s dvije vrste web mjesta kao neutralne standarde, a nazivat ćemo ih navodno neutralnim mjestima.

Evolucijski očuvani geni su pod jačom selekcijom pročišćavanja i smanjeni su Ž na 0-puta degeneriranim mjestima

Geni u C regijama podijeljeni su u kante jednake veličine (sa sličnim brojem SNP-ova) na temelju njihovih KA vrijednosti između D. melanogaster i D. yakuba. Ispitivali smo uzorke polimorfizma u uzorku RG u funkciji KA kvalitativno identičan skup rezultata dobiven je pomoću uzorka FR (dopunska slika S3). I na A i X, KA Utvrđeno je da je značajno pozitivno povezan s obojicom π0 (Slike 1a i b A: Kendall's τ= 0,989 i Pπ.001 X: Kendall's τ= 1 i P= 0,009) i Tajima D0 (Slike 1c i d A: Kendall's τ=0.884, Pπ.001 X: Kendall's τ= 0,867 i P= 0,024). Prilikom usporedbe nije pronađena statistički značajna veza KA s Tajima D4 (Slike 1c i d Kendall's τ= 𢄠.2 i 𢄠.333, PϠ.1, za X i A), iako postoji negativna korelacija između KA i π4 na A (slika 1a Kendall's τ= 𢄠.6, Pπ.001) (vidi također Andolfatto, 2007. Haddrill et al., 2011.). Konkretno, na A i X, π0 i Tajima D0 pristup π4 i Tajima D4, odnosno, kao KA povećava. Nasuprot tome, vrijednosti π4 i Tajima D4, bez obzira na KA kante iz koje su dobivene, ostaju slične vrijednostima πSI i Tajima DSI. Ovi rezultati ukazuju na to da su 0-kratna mjesta pod jačim ograničenjima od 4-strukih i SI-mjesta, te da 0-kratna mjesta u genima imaju manje KA su u prosjeku pod jačim odabirom pročišćavanja. Iste smo rezultate dobili kada smo koristili D. simulans genom kao van-grupa (dopunska slika S4).

Obrasci polimorfizma unutar 17 Ruande D. melanogaster linije za kodiranje slijeda (CDS) binned by KA vrijednost (do D. yakuba), a za web lokacije u 8 � 𠂛p regijama kratkih introna � 𠂛p (SI web mjesta). (a) Raznolikost nukleotida (π) za autosomne ​​CDS-C i (b) X-vezane regije CDS-C (c) Tajima's D za autosomne ​​regije CDS-C i (d) X-vezane CDS-C regije. The x osi pokazuju maksimum KA vrijednost u svakoj kanti. Simboli: 0-puta degenerirana mjesta —otvorite krugove 4-puta degenerirana mjesta —otvorite trokute SI web-mjesta —otvorite crvene kvadrate.

Slike 2a i b pokazuju da su evolucijski očuvani geni znatno manji (O: Kendallova τ=0.663, Pπ.001 X: Kendall's τ=0.867, P= 0,02). Ponovno smo dobili isti rezultat pri korištenju D. simulans kao izvan-grupa (dopunska slika S5). Uzorak ostaje statistički značajan za autosome kada je razmatrana (dopunska slika S6). Smanjenje u Ž0 za gene s manjim KA povezan je sa snažnim smanjenjem MAF -a0 (Slike 2c i d) i povećanje udjela 0-strukih SNP-a koji su privatni za jednu od dvije populacije (slike 2e i f), a obje su obilježja selekcije protiv štetnih mutacija (usp. Nedavni nalazi u ljudi Nelson et al., 2012. Fu et al., 2013.), a očekuje se da će voziti oboje Ž U i Ž W prema dolje, kako je prikazano u Materijali i metode (vidi također Maruki et al., 2012. Bhatia et al., 2013. Jakobsson et al., 2013.). Za četverostruka mjesta na A i X, nema korelacije s KA promatrano je za Ž U , Ž W , MPŠ i udio privatnih SNP -ova (slika 2 PϠ.1 u svim slučajevima na temelju Kendallove τ).

Uzorci diferencijacije između 7 francuskih i 17 ruandskih D. melanogaster linije za kodiranje slijeda (CDS) binned by KA vrijednost (do D. yakuba), a za web mjesta SI. (a) Neponderirana srednja vrijednost ŽSV (Ž U Jednadžba (5)) za autosomno kodiranje CDS-C i (b) X-vezane regije CDS-C (c) prosječno populacijski MAF za autosomne ​​regije CDS-C i (d) X-vezane regije CDS-C (e) udio SNP -ova po kanti u kojem je jedan alel bio privatan za jedan od D. melanogaster populacije za autosomne ​​regije CDS-C i (f) X-vezane CDS-C regije. Simboli: 0-puta degenerirana mjesta —otvorite krugove 4-puta degenerirana mjesta —otvorite trokute SI web-mjesta —otvorite crvene kvadrate.

Podaci prikazani na slikama 1 i ​ i2 2 ukazuju na nedostatak razlika između i ili ili izviješteno u prethodnom odjeljku vjerojatno je zbog činjenice da Ž W daje veću težinu SNP -ovima s većom očekivanom razinom polimorfizma (na primjer, gotovo neutralne varijante), kao što smo pokazali u Materijali i metode. Drugim riječima, kada su zajedno analizirana sva 0-kratna mjesta u C regijama (Tablica 1), učinci selekcije pročišćavanjem na značajan dio 0-strukih mjesta vjerojatno su bili prikriveni onim 0-strukim mjestima koja se gotovo neutralno razvijaju. Slijedom toga, ukupna raspodjela čini se ne razlikuje od onih u i . U kontrastu, Ž U daje jednaku težinu svim SNP -ovima. S obzirom da je vrijednost Ž kada se izračunava pomoću jednog SNP -a ograničeno je MAF -om (vidi jednadžbu (3) u materijalima i metodama), Ž U očekuje se da će biti osjetljiviji na djelovanje pročišćavajuće selekcije od Ž W , u skladu s gore navedenim zapažanjem. U raspravi ćemo dalje istražiti implikacije ovih statističkih svojstava Ž, koji nastaju kada se kombiniraju informacije iz više SNP -ova.

Dulji introni su pod jačim selektivnim ograničenjima i manje se razlikuju

U skladu s ranijim nalazima (Haddrill et al., 2005a Halligan i Keightley, 2006), duži introni imaju manju divergenciju (K) između D. melanogaster i D. simulans (O: Kendallova τ= 𢄠.635, Pπ.001 X: Kendall's τ= 𢄠.486, Pπ.001 Slike 3a i b), vjerojatno kao posljedica prisutnosti funkcionalnih elemenata koji podliježu selekciji pročišćavanja (Bergman i Kreitman, 2001 Parsch, 2003 Andolfatto, 2005 Haddrill et al., 2005.a Halligan i Keightley, 2006. Casillas et al., 2007. Roy et al., 2010.). Ovdje izvještavamo o daljnjoj potpori ovoj hipotezi ispitivanjem obrazaca polimorfizma unutar populacije kao funkcije duljine introna. U skladu s djelovanjem pročišćavajuće selekcije, duži introni imaju niže vrijednosti π (Slike 3c i d) i više negativnih Tajima D (Slike 3e i f) u usporedbi s 4-kratnim i SI mjestima (slični rezultati primijećeni su u uzorku FR-a, vidi Dodatnu sliku S7). Zanimljivo je da se obrasci divergencije i polimorfizma izravnavaju za introne duže od 2000 𠂛p. Koristeći uzorak RG, vrijednosti π i Tajima D dobiveni iz introna duljih od 2000 𠂛p su 0,0072 i 𢄠,5476 za A, odnosno 0,0076 i 𢄠,9013 za X, odnosno sve su te vrijednosti znatno niže od odgovarajućih vrijednosti uočenih na 4-strukim i SI mjestima, ali su veće od onih dobivenih s stranica s 0 puta (vidi tablicu 1). Nadalje, KA vrijednosti za CDS u regijama C između D. melanogaster i D. simulans su 0,015 odnosno 0,018 za A i X, što je značajno manje od vrijednosti K za duge introne � 𠂛p na A i X, koji su 0,061 i 0,074, respektivno (Mann –Whitneyjev U test, Pπ.001). Ovi rezultati impliciraju da su dugi introni, osobito oni � 𠂛p, ograničeniji od 4-kratnih i SI web-mjesta, ali vjerojatno sadrže manje strogo odabranih web-mjesta od 0-strukih.

Uzorci divergencije i polimorfizma za intronska mjesta ograničena duljinom introna. (a) Divergencija (K) između D. melanogaster i D. simulans za autosomne ​​introne i (b) X-povezani introni (c) raznolikost nukleotida (π) za autosomne ​​introne i (d) X-povezani introni (e) Tajima's D za autosomne ​​introne i (f) X-povezani introni. The x osi prikazuju najveću duljinu introna u svakoj ladici. Imajte na umu da je broj SNP-a u svakom spremniku za autosomni intron otprilike isti kao i u autosomnom SI spremniku, isto se odnosi i na podatke povezane s X. Simboli: Duga intronička mjesta —otvorenih krugova na pozicijama 8 � 𠂛p mjesta kratkih introna � 𠂛p (SI mjesta) —otvorenih crvenih kvadrata.

Procjene od Ž W , kada su izračunate pomoću web mjesta iz introna duljine veće od 65 𠂛p, bile su 0,171 i 0,283 za A odnosno za X, respektivno. Nije utvrđeno da se ništa od navedenog statistički razlikuje od odgovarajućih vrijednosti koje se procjenjuju pomoću četverostrukih i SI stranica navedenih u Tablici 1 (PpermutacijaϠ.1 u svim slučajevima). Ž U za introne 㹥 𠂛p iznosili su 0,157 odnosno 0,174 za A i X, oba su bila značajno manja od oba i (Ppermutacijaπ.001 u svim slučajevima). Postoji jasan negativan odnos između Ž U i duljine introna (slike 4a i b za A i X, Kendallove τ= 𢄠.356 i 𢄠.364 P= 0,010 i Pπ.001, respektivno), što odražava ono između MAF -a (ili prevalencije privatnih SNP -ova) i duljine introna (dopunska slika S8), te je u skladu s očekivanim učinkom pročišćavanja selekcije na genetsku diferencijaciju među populacijama. Odnos između diferencijacije i duljine introna slabiji je kada Ž W je analizirana (Dopunska slika S8 za A i X, Kendallova τ= 𢄠.271 i 𢄠.146, i P= 0,05 odnosno 0,16). Ove razlike između Ž W i Ž U može se objasniti činjenicom da se očekuje da će manje stranica u intronima 㹥 𠂛p biti snažno odabrano u usporedbi s stranicama s 0 puta. Kao što je objašnjeno u prethodnom odjeljku, Ž W , koji u podacima odražava obrasce razlikovanja na neutralnim mjestima, manja je vjerojatnost da će oporaviti potpise pročišćavanja odabira u usporedbi s Ž U .

Razlika između 7 francuskih i 17 ruandskih D. melanogaster linije za dugačka intronička mjesta ograničena duljinom introna i za SI mjesta. (a) Neponderirana srednja vrijednost ŽSV (Ž U Jednadžba (5)) za autosomne ​​introne i (b) X-povezani introni. Simboli: Dugačka intronička mjesta —otvoreni krugovi SI web mjesta —otvoreni crveni kvadrati.

Regije sa smanjenom rekombinacijom imaju tendenciju da budu veće Ž

Poznato je da genomska područja kojima nedostaje prelazak (NC regije) imaju vrlo različite obrasce divergencije i polimorfizma od onih viđenih u regijama C (Haddrill et al., 2007. Betancourt et al., 2009. Arguello et al., 2010. Campos et al., 2012. Campos et al., 2014.). U tablici 2 predstavljamo sažetu statistiku NC podataka relevantnih za tekuću studiju (pogledajte popis materijala i metoda razmatranih NC područja). Može se vidjeti da su za 0-kratna i 4-struka mjesta vrijednosti Ž u NC regijama općenito su veće od onih dobivenih korištenjem iste vrste web mjesta u C regijama, bez obzira na način na koji su kombinirane informacije iz više SNP -ova. Točnije, prosjek KA do D. yakuba iznosi oko 0,05 za NC lokuse (Campos et al., 2012). izračunati korištenjem autosomnih i X-vezanih NC podataka su 0,1817 odnosno 0,3012 (Tablica 2), više od vrijednosti 0,1569 i 0,1685 za autosomne ​​i X-povezane gene u regijama C koje obuhvaćaju iste KA vrijednosti (slike 2a i b Ppermutacija= 0,05 za A i Ppermutacijaπ.001 za X).

Tablica 2

ChrWeb mjestoUnutar populacijeIzmeđu populacija
  Pop.πTajima DMAFŽ UŽ W
A0-putaRG0.00036𢄠.67370.11520.18170.2302
  FR0.00032𢄠.7098   
 4 putaRG0.00129𢄠.52740.12080.19060.2281
  FR0.00122𢄠.5417   
x0-putaRG0.00056𢄠.63920.15560.30120.5673
  FR0.00023𢄠.3126   
 4 putaRG0.00327𢄠.00840.13950.23230.3485
  FR0.000900.2069   

Kratice: FR, francuski MAF, frekvencija manjih alela RG, Ruanda.

Statistika je dobivena na isti način kao u tablici 1, za više pojedinosti pogledajte materijale i metode.

Valja napomenuti da je nadmorska visina u Ž u NC regijama vjerojatno je uzrokovano ekstremnim smanjenjem raznolikosti unutar populacije uzrokovanom uskom vezom između velikog broja odabranih mjesta (Tablica 2 Kaiser i Charlesworth, 2009. O'Fallon et al., 2010. Seger et al., 2010. Zeng i Charlesworth, 2010.). Ovo je zbog Ž je relativna mjera diferencijacije (vidi jednadžbu (1)), pa su stoga sve ostale jednake, Ž očekuje se da će biti povišene silama koje smanjuju raznolikost unutar populacije (tj. πS u jednadžbi (1)), bez obzira na to je li diverzifikacija selekcije ili smanjeni protok gena utjecala na genomsku regiju koja se proučava (Charlesworth, 1998 Noor i Bennett, 2009).

Kako bismo dodatno ispitali učinke odabira na povezanim stranicama, ispitujemo povezanost između Ž na navodno neutralnim mjestima i lokalnim stopama rekombinacije u regijama C. Slika 5 prikazuje rezultate na temelju autosomnih lokusa, gdje se to može vidjeti smanjuje se češćom rekombinacijom (Kendallova τ= 𢄠.474, P= 0,004 podatkovna točka dobivena iz NC regija nije uključena u izračun). Međutim, ne postoji statistički značajna veza između stope rekombinacije i (Slika 5b Kendall's τ= 𢄠.179 i P= 0,28). Slabe negativne korelacije također su pronađene na X kromosomu za 4-kratna i SI mjesta (dopunska slika S9). Obrasci su ostali nepromijenjeni kada Ž W je korišten (dopunska slika S10).

Razlika između 7 francuskih i 17 ruandskih D. melanogaster linije za 4-puta degenerirana mjesta i SI mjesta u C regijama u funkciji lokalne rekombinacijske stope, te za 4-degenerirana mjesta u NC regijama. (a) Ž U za autosomne ​​regije CDS -a i (b) autosomne ​​regije SI.


ChIP-seq eksperimenti i analiza podataka

Za karakteriziranje profila vezanja CTCF -a u Mus musculus castaneus (CAST/EiJ) i M. spretus (SPRET/EiJ), proveli smo eksperimente imunoprecipitacije kromatina nakon čega je uslijedilo visokopropusno sekvenciranje (ChIP-seq) pomoću tkiva jetre odraslih. Knjižnice ChIP-seq i knjižnice za kontrolu unosa iz tri biološke replike svake vrste pripremljene su kako je opisano u [62]. Nakon toga, knjižnice su sekvencirane na HiSeq2000 (Illumina) kako bi se proizveli fragmenti sekvence uparenog kraja od 100 bp.

Osim toga, dobili smo objavljene podatke CTCF ChIP-seq iz jetre Mus musculus domesticus (C57BL/6J), Mus caroli/EiJ, i M. pahari/EiJ [35]. Korištene su tri biološke replike iz svake vrste.

Uskladili smo sekvencirana čitanja iz CAST -a i M. spretus referentnim sklopovima genoma CAST_EiJ_v1 i SPRET_EiJ_v1 [63], s BWA mem verzijom 0.7.12 [64] koja odbacuje čitanja s više od tri pojavljivanja. Mapirali smo i preuzete neobrađene ChIP-seq očitanja iz C57BL/6J, M. caroli, i M. pahari genomima GRCm38 (mm10), CAROLI_EIJ_v1.1 i PAHARI_EIJ_v1.1 [63, 65], koristeći istu metodu radi izvođenja podudarnih analiza kod svih vrsta. Vrhovi obogaćivanja CTCF -om nazvani su s MACS 1.4.2 [66] s a str vrijednosni prag od 0,001. Za nizvodne analize koristili smo vrhove identificirane u najmanje dvije replike svake vrste (dodatna datoteka 1: Tablica S1). Za izradu obvezujućih toplinskih karata (dodatna datoteka 1: slika S1B) koristili smo deeptools verzije 3.3.1 [67]. Najprije smo oduzeli odgovarajuću ulaznu knjižnicu iz svake knjižnice ChIP sekvenciranja pomoću alata bamCompare. Zatim smo za svaku vrstu napravili toplinske karte koje odgovaraju broju čitanja ChIP -a - unos očitanja unutar svih vrhova pronađenih u najmanje dva ponavljanja pomoću alata computeMatrix i plotHeatmap.

Također smo proveli ChIP-seq u jetri C57BL/6J kako bismo identificirali genomska područja obogaćena za kohezinsku podjedinicu RAD21, koristeći također ulaznu kontrolnu biblioteku iz jetre C57BL/6J iz Thyberta i sur. [35]. Priprema uzorka i imunoprecipitacija kromatina provedeni su kako je opisano u Schmidt et al. [34] pomoću 10 μg RAD21 antitijela (Abcam, ab992, lot GR12688-8). Imunoprecipitirana DNA i 50 ng ulazne DNK korišteni su za pripremu knjižnice pomoću protokola za pripremu knjižnice ThruPLEX DNA-Seq (Rubicon Genomics, UK). Veličina knjižničnog fragmenta određena je pomoću 2100 Bioanalyzera (Agilent). Knjižnice su kvantificirane qPCR -om (Kapa Biosystems). Skupljene knjižnice bile su duboko sekvencirane na HiSeq2500 (Illumina) prema uputama proizvođača za proizvodnju jednostrukih očitanja od 50 bp. Dobili smo sekvencirana očitanja i preslikali ih na sklop genoma miša GRCm38 koristeći BWA 0.6.1 [64]. Zatim smo nazvali RAD21 vrhove koristeći MACS2 2.1 sa zadanim opcijama [66].

Koristili smo granice TAD -a jetre miša koje su objavili Vietri Rudan i sur. [15]. Granice TAD -a smatrali smo početnim i završnim nukleotidima svakog TAD -a, dok smo u nekim analizama (gdje je naznačeno u sljedećem opisu metode) koristili prozor od ± 50 kb oko njih za proučavanje graničnih područja TAD -a.

Očuvanje veznih mjesta CTCF -a u Mus vrsta

Za istraživanje očuvanja vezanja CTCF -a u cijelom istraživanom Mus vrste, prvo smo pronašli ortologna poravnanja vrhova CTCF ChIP-seq u genomima druge vrste. Ove ortologne regije CTCF na miševima dobivene su korištenjem proširene verzije euterijskog sisavca Endo-Pecan-Ortheus (EPO) poravnanja više genoma, koje je također uključivalo genome CAST, M. spretus, M. caroli, i M. pahari [35]. Nakon što su ortologna područja mjesta CTCF -a identificirana u svim Mus vrste, unakrsno smo potvrdili vezivanje CTCF-a za svaku vrstu koristeći odgovarajuće podatke ChIP-seq. Konkretno, smatrali smo da je mjesto CTCF očuvano ako ima (a) ortološko poravnanje među vrstama i (b) ortologno poravnanje također sadrži CTCF ChIP-seq vrh (slika 1c).

Vezujući afinitet i ograničenje slijeda CTCF motiva

Da bismo identificirali motive vezanja CTCF -a, dohvatili smo FASTA sekvence svih vrhova CTCF -a u C57BL/6J, koristeći alatke za krevet getfasta v.2.25.0 [68], i skenirali te sekvence za primarni motiv vezanja CTCF (M1) iz baze podataka JASPAR [ 69] pomoću Find Find Individual Motif Occurrences (FIMO) iz paketa MEME v.4.12.0 [70, 71] sa zadanim parametrima. Proširili smo identificiranih 19 baznih motiva M1 na 20 baza uzvodno i 20 baza nizvodno kako bismo omogućili otkrivanje proširene verzije motiva (M1 i M2). Konačno, izračunali smo afinitet vezanja ovih sekvenci za CTCF koristeći DeepBind v.0.11 [72], kao u Aitken i sur. [55] te je uspoređen značaj razlike između raspodjele vrijednosti afiniteta među motivima koji se nalaze u vrhovima CTCF-a povezanim s granicom TAD-a i koji nisu povezani s granicom TAD-a na svakoj razini očuvanja (slika 2a, b).

Kako bismo dohvatili rezultate odbijene supstitucije (RS) za svaku poziciju svakog identificiranog 19 motiva M1 u bazi, u C57BL/6J, dobili smo unaprijed izračunate ocjene očuvanja GERP [42] za svaki nukleotid ovih mišjih M1 sekvenci iz Ensembla [73]. RS rezultat genomskog položaja izračunat je kao razlika uočenih i očekivanih zamjena. Zatim smo prosječili ocjenu RS po poziciji među svim motivima i usporedili te prosječne ocjene RS-a za M1 motive povezane s granicom TAD-a s motivima koji nisu povezani s granicom TAD-a (slika 2e, f).

Obogaćivanje ChIP-seq-a i čitanje pokrivenosti identificiranih vrhova CTCF-a

Mjesta CTCF -a koja smo identificirali u svakoj vrsti bila su presjek vrhova CTCF -a koji se nazivaju u ≥ 2 biološka ponavljanja. Izračunali smo obogaćivanje fragmenata ChIP-seq svakog CTCF mjesta prosjekom ocjena obogaćivanja ChIP-a, koje je izvijestio MACS, za replike. Zatim smo usporedili značaj razlike između raspodjela prosječnog obogaćivanja ChIP-a između TAD granica povezanih i ne-TAD granica povezanih CTCF mjesta svake razine očuvanja koristeći Mann-Whitney U ispitivanja (slika 2c, d).

Koristili smo alat za spavanje multicov v.2.25.0 za izračun broja očitanih poravnanja na TAD granici povezanim s ne-TAD granicom povezanim CTCF regijama vrha, u ukupno pet replika C57BL/6J (dodatna datoteka 1: slika S6). Kako bismo povećali robusnost naših opažanja, dodali smo dvije dodatne replike u tri početne, koje smo obradili na isti način kao i ostale replike (vidi odjeljak "Pokusi ChIP-seq i analiza podataka").

Analiza upotrebe riječi motiva

Skenirali smo sve vrhove CTCF -a iz svake od pet vrsta za primarni motiv vezanja CTCF -a (M1) koristeći FIMO iz paketa MEME kako je gore opisano. Od 19 primjera osnovnih motiva M1 identificiranih u svakoj vrsti, dohvatili smo središnji najinformativniji 14-mer i procijenili njegovu učestalost pojavljivanja kao broj pojavljivanja riječi 14-mer u veznim regijama CTCF podijeljen s brojem pojavljivanja riječ u cijelom genomu vrste primjenom postupka Schmidt et al. [34]. Filtrirali smo svaku motivsku riječ koja se pojavila manje od pet puta u cijelom genomu. Ilustrirali smo učestalost pojavljivanja riječi motiva u svakoj vrsti na toplinskoj karti koja je razvrstana prema udaljenosti do najbliže TAD granice (dodatna datoteka 1: slika S7).

Povezivanje CTCF veznih mjesta s klasama prijenosnih elemenata

Koristili smo cijeli skup CTCF mjesta identificiranih u svim vrstama i projicirali ih na genom C57BL/6J (GRCm38), kao i objavljene transponirane elemente u C57BL/6J (Thybert i sur. [35] https: // www. ebi.ac.uk/research/flicek/publications/FOG21).Presjekli smo središte svakog mjesta vezivanja CTCF -a s prijenosnim elementima i izvijestili o broju centara mjesta CTCF -a koji su se preklapali sa svakom klasom TE. Ukupna zastupljenost svake klase TE u cijelom genomu koja je prikazana kao referenca (označena kao "pozadina" na slici 3a) izračunata je kao ukupna duljina svih TE koje pripadaju svakoj klasi (SINE, LINE, LTR, DNA) sekvence podijeljene s ukupnom duljinom genoma.

Zastupljenost klasa TE u graničnim regijama TAD -a

Što se tiče slike 3b, definirali smo TAD granične regije kao genomske prozore od 50 kb uzvodno i 50 kb nizvodno od granica TAD -ova. Kako bismo procijenili zastupljenost svake klase TE, zbrojili smo duljinu sekvenci koja odgovara svakoj klasi TE koja se dogodila unutar svakog TAD graničnog područja i podijelili to s ukupnom duljinom TAD granične regije, tj. 100 kb. Da bismo dohvatili nasumične genomske regije slične duljine i raspodjele, promijenili smo granične regije TAD -a pomoću alatki za nasumično miješanje v2.2.5.0, isključujući prvo kromosom Y, skele genoma i krajeve kromosoma, gdje se TAD -ovi ne pozivaju. Ponovili smo isti izračun za reprezentaciju klase TE kao i gore za ove promiješane TAD granice, tj. Slučajne genomske regije. Zatim smo iscrtali raspodjelu ovih vrijednosti za TAD granična područja i slučajna genomska područja. Kako bismo odredili zastupljenost svake klase TE u pozadinskom genomu (isprekidana linija na slici 3b), ponovno smo podijelili ukupnu duljinu svih sekvenci koje odgovaraju svakoj klasi TE ukupnom duljinom genoma C57BL/6J (GRCm38), analogno gornju analizu klase CTCF TE.

Gustoća CTCF mjesta na granicama TAD i nakupina CTCF mjesta vezivanja

Kako bismo utvrdili obogaćivanje mjesta vezanja CTCF -a u graničnim regijama TAD -a (u usporedbi s okolnim genomom), izmjerili smo udaljenost svakog mjesta vezanja CTCF -a do njegove najbliže granice TAD -a koristeći najbliže alate za krevet. Zatim smo kategorizirali mjesta CTCF -a na temelju njihove razine očuvanosti. Za svaku razinu očuvanja mjesta CTCF -a grupirali smo sve vrijednosti udaljenosti do ± 300 kb u kante od 20 kb i iscrtali broj mjesta CTCF -a u svakoj kanti podijeljen s duljinom kante, tj. 20 kb (slika 4a). Kako bismo dodatno okarakterizirali gustoću CTCF mjesta na granicama TAD -a, grupirali smo CTCF mjesta i prema njihovoj razini očuvanja i povezanosti s granicom TAD -a (nasuprot povezanosti s bilo kojom granicom TAD -a), a za svaku od ovih kategorija pronašli smo udaljenost od svako mjesto CTCF -a s najbližeg mjesta CTCF -a koristeći najbliže alate za krevete (slika 4b).

Za identifikaciju skupina CTCF veznih mjesta upotrijebili smo cijeli skup veznih mjesta CTCF svih pet Mus vrste projicirane na genom C57BL/6J (GRCm38/mm10), kao što je prikazano na slici 1c. Identificirali smo slučajeve uzastopnih mjesta CTCF -a koji su bili međusobno udaljeni do 10 kb, koristeći skup gredica. Zatim smo utvrdili i usporedili obogaćivanje klasteriziranih i singleton CTCF mjesta na granicama TAD -a koristeći isti pristup kao na slici 4a, ali kategorizirajući CTCF mjesta na temelju toga pripadaju li grupi (klasteri) ili ne (singletons) (Sl. 4c).

Za sliku 4d, e ponovno smo definirali TAD granične regije kao TAD granicu ± 50 kb. Kategorizirali smo ove regije na temelju najviši razinu očuvanja svojih mjesta CTCF -a. Zatim smo za svaku kategoriju prebrojili njezin ukupni broj CTCF mjesta (slika 4d), kao i broj ovih graničnih područja TAD -a s grupisanim CTCF mjestima i samo s jednokrilnim mjestima (slika 4e).

Za dodatnu datoteku 1: Slika S8, definirali smo Mus-očuvana (5-smjerna) mjesta CTCF-a s udaljenošću do najbliže TAD granice> 80 kb kao granica koja nije povezana s TAD-om. Izračunali smo obogaćivanje jednosmjernih (za pojedine vrste), 2-smjernih, 3-smjernih i 4-smjernih očuvanih CTCF mjesta u njihovoj blizini na isti način kao i za granice TAD-a (slika 4a), ali koristeći usidriti sama 5-smjerna CTCF mjesta koja nisu povezana s TAD-om, umjesto granica TAD-a.

Klasteri u C57BL/6J i analize konzervacije klastera

Identificirali smo skupine CTCF veznih mjesta u C57BL/6J (dodatna datoteka 1: slika S9) na isti način kao i na slici 4c, ali koristeći samo vrhove CTCF koji se nazivaju u C57BL/6J. Koristili smo iste metode kao i na slici 4a, c za određivanje obogaćivanja CTCF mjesta različitih razina očuvanja na granicama TAD -a (dodatna datoteka 1: slika S9A), kao i obogaćivanje grupiranih u odnosu na singleton CTCF mjesta (dodatna datoteka 1 : Slika S9B).

Kako bismo procijenili očuvanje klastera CTCF mjesta (dodatna datoteka 1: slika S9D), identificirali smo sva genomska područja koja odgovaraju klasterima CTCF mjesta u svakoj od pet vrsta zasebno. Zatim smo projicirali poravnanja cijelog genoma (vidi “Očuvanje mjesta vezanja CTCF-a u Mus vrsta "), područja klastera svake vrste na genomu C57BL/6J i odredila preklapaju li se s ortološkim regijama klastera druge vrste.

RNA-seq podaci

Dohvatili smo objavljene podatke RNA-seq dobivene iz jetre iz šest bioloških replikata za svaku od vrsta C57BL/6J i M. m. castaneus [74], kao i iz četiri biološke replike M. caroli [75]. Kako bismo imali isti broj ponavljanja u svakoj vrsti, dodatno smo generirali i sekvencirali dvije dodatne RNA-seq knjižnice za M. caroli slijedeći metode opisane u Goncalves et al. [74] i Wong i sur. [75]. Ukratko, ukupna RNA je ekstrahirana iz dva neovisna uzorka jetre korištenjem Qiazola (Qiagen) i DNaze tretirane kompletom za uklanjanje DNA bez DNA (Ambion). Poliadenilirana mRNA je obogaćena, generirana je dvosmjerna cDNA usmjerena, fragmentirana ultrazvukom i pripremljena za sekvenciranje. Svaka od dvije knjižnice sekvencirana je na Illumina GAIIx radi generiranja fragmenata uparenog kraja od 75 bp.

Obrada i analiza podataka RNA-seq

Adapterske sekvence obrezane su žetelicom iz paketa alata Kraken [76]. Upareni RNA-seq čita iz svake replike C57BL/6J, CAST i M. caroli mapirani su u genome odgovarajuće vrste (vidi odjeljak “ChIP-seq eksperimenti i analiza podataka”) pomoću STAR 1.5.2 [77] sa zadanim postavkama. Mapiranje neobrađenih čitanja s označenim genima prebrojano je pomoću htseq-broja [78]. Zatim smo koristili sirovo brojanje čitanja za izvođenje diferencijalnih analiza izraza s DESeq2 1.20.0 [79] sa zadanim postavkama.

Kako bismo odredili obrasce ekspresije gena oko 5-putnih konzerviranih CTCF mjesta i gubitaka CTCF mjesta specifičnih za vrstu na granicama TAD-a (slika 7a, d, g), prvo smo identificirali najbliži uzvodni i nizvodni gen u svakoj vrsti koristeći gen bilješka iz Ensembl verzije 95 [65] i zatim izračunala relativnu ekspresiju gena od niže do uzvodno gena u svakoj vrsti. Nismo bili zainteresirani za relativnu ekspresiju genskog para koji okružuje CTCF mjesto samo po sebi, već za to je li ovaj omjer za svako mjesto CTCF dosljedan među vrstama kada se promijeni vezivanje CTCF koje ih razdvaja. Iz tog razloga, koristili smo samo CTCF mjesta koja su okružena ortološkim genima 1: 1 između tri vrste. Nastavili smo koristiti DESeq2 [79] za izračun dnevnika2(preklopna promjena) između silaznog i uzvodnog gena - kao mjera relativne ekspresije gena koji okružuju svako mjesto CTCF - u svakoj vrsti i za naknadno uspoređivanje ovog dnevnika2(promjena nabora) između vrsta. Budući da DESeq2 nije dizajniran za normalizaciju duljine gena, a cilj nam je bio generirati usporedive procjene uzoraka ekspresije između vrsta, također smo zahtijevali da svi ortološki geni koje smo koristili imaju sličnu duljinu među tri vrste (0,7 & lt len_ratio & lt 1.3, gdje len_ratio je duljina gena u vrsti A podijeljena s duljinom njegovog ortolognog gena u vrsti B). Na kraju smo usporedili izračunate vrijednosti log2 (promjena puta) za svaki par gena u C57BL/6J s odgovarajućom vrijednošću njegova ortolognog para gena u CAST -u (slike 7b, e, h) i u M. caroli (Slike 7c, f, i).


Metode

Pristup podacima

Identifikacija deMP -ova

Opća ideja identifikacije deMP -a je prvo identificiranje mutacija koje deaktiviraju kandidata koje remete navodno mjesto vezanja, a zatim ocjenjivanje tih kandidata koje deaktiviraju mutacije pomoću CAPE -a, alata koji smo razvili za identifikaciju uzročno -regulatorne varijante u regijama pojačivača [15]. CAPE je bodovao sve tri moguće mutacije na genomskom položaju, bez obzira na to postoje li kao ljudski SNP -i. Smatralo se da su mutacije sa značajnim ocjenama CAPE deaktivirane mutacije. Genomski položaji koji drže barem jednu deaktivirajuću mutaciju nazvani su deaktivirajućim mutacijskim položajima (deMPs).

Konkretno, koristili smo k-mjesni rječnici obučeni na pojačivačima ChIP-seq da zaključe specifičnosti slijeda TFBS-a. Obogaćeni k-mjese (k = 8) pretpostavlja se da su potencijalno funkcionalni TFBS-ovi [6] na pojačivačima ChIP-seq. Za identifikaciju obogaćenih k-mera u pojačivačima HepG2, prvo smo generirali skup kontrola za svaki niz pojačivača. Kontrole su nasumično uzorkovane iz cijelog genoma s istim sadržajem GC-a, sadržajem ponavljanja i duljinom kao i odgovarajući pojačivač. Za svaki pojačivač ekstrahirano je pet kontrolnih sekvenci. U slučajevima kada se sa našim strogim kriterijima (ΔGC-sadržaj ≤ 0,005, Δ-ponavljajući sadržaj ≤ 0,01) nije moglo identificirati dovoljno kontrola, stvorili smo dodatne kontrole promjenom redoslijeda pojačivača. Za svaki od mogućih 32.896 k-mjese (k = 8), koristili smo Fisherov egzaktni test za procjenu obogaćivanja k-merci u setu pojačivača HepG2 i identificirali su prvih 522 k-merci značajno obogaćeni pojačivačima (str ≤ 1e − 3 nakon Bonferronijeve korekcije) kao potencijalno funkcionalna k-mjeseci i 30.647 beznačajnih k-mjese (str & gt 1e − 3 bez Bonferronijeve korekcije) kao pozadinu k-mjeseci.

Kao što smo to učinili u našoj prethodnoj studiji [6], primijenili smo modificirani model intragenomskih replika (IGR) [38] kako bismo prepoznali mutacije koje deaktiviraju kandidat i mijenjaju vrh k-prije u pozadinu k-prije kad smo identificirali vrh k-korisnici u pozitivnom setu treninga. Kandidat koji deaktivira mutacije zatim je bodovan CAPE -om. Za staničnu liniju HepG2 samo su mutacije sa značajnim ocjenama CAPE (ocjena CAPE ≥ 0,57156, što odgovara FPR ≤ 0,01) smatrane deMs. Koristili smo promjenu pridruženih k-mera da identificiraju kandidata koji deaktivira mutaciju prije primjene CAPE -a zbog ograničenja ocjene CAPE. Ishod CAPE -a je vjerojatnost da je mutacija uzročno -posljedična regulatorna varijacija smanjenjem ili povećanjem aktivnosti pojačivača. Budući da smo posebno usredotočeni na mutacije koje deaktiviraju pojačivače, moramo ograničiti deaktivacijske mutacije kandidata na one koje bi mogle poremetiti potencijalno mjesto vezanja pomoću k-nekadašnji rječnici.

Za identifikaciju deMP -a u lijevoj klijetki, trenirali smo CAPE na ljudskim eQTL -ima lijeve klijetke integrirajući regulatorne signale ovog tkiva (H3K27ac, H3K4me1, H3K4me3, P300, DNaza, H3K36me3, H3K27me3, H3K9me3). Zatim smo bodovali sve moguće jedno-nukleotidne varijante (SNV-ove) u regiji pojačivača lijeve klijetke. Samo su mutacije s ocjenom CAPE ≥ 0,58276 (FPR ≤ 0,01) identificirane kao deM (dodatna datoteka 1: slika S14). Gornjih 20% pojačivača s najbrojnijim deMP -ovima odgovara krhkim, a donjih 20% pojačivača bez deMP -a odgovaraju stabilnim pojačivačima. Vrh 5% mutacija s najvišim ocjenama CAPE i 5% slučajnih mutacija dva stabilna pojačivača (hs1760 i ljudski ortolog mm69) navedene su u Dodatnoj datoteci 2: Tablice S6-S7.

Analiza funkcionalnog obogaćivanja pomoću GREAT -a

Funkcionalno obogaćivanje pojačivača izvedeno je pomoću mrežnog alata za obogaćivanje bilješki genomskih regija (GREAT) verzije 3.0.0 [21]. Na VELIKOJ slici (slika 3a), zadani parametar udaljenosti primijenjen je za dodjelu gena u regulatornoj domeni, a pravilo pojedinačnog najbližeg gena primijenjeno je za povezivanje pojačivača s genima. Termini biološkog procesa Gene Ontology (GO) uključeni su samo ako zadovoljavaju stroge kriterije u najmanje jednoj kategoriji pojačivača: (1) binom str vrijednost ≤ 1e − 4, (2) minimalni binomski promatrani regioni i hipergeometrijski promatrani genski pogodaci 10, i (3) minimalno binomsko područje i hipergeometrijski genski skup obogaćivanja 2. −log10 binomni str vrijednosti su iscrtane na y-os. Kako bi se pokazalo da je obogaćivanje GO i krhkih i stabilnih pojačivača robusno prema različitim pravilima udruživanja gena, primijenjene su i druge dvije mogućnosti udruživanja gena („bazalni produžetak“ i „dva najbliža gena“) (dodatna datoteka 1). Kako bi se nadoknadila pristranost uzrokovana dodjeljivanjem svih pojačivača njihovim najbližim genima, 45% pojačivača je nasumično premješteno prije nego što je 10 puta primijenjeno VELIKO (dodatna datoteka 1).

Analiza obogaćivanja svojstava GWAS -a

NHGRI GWAS katalog preuzet je u rujnu 2016. [1]. Osobine GWAS-a koje su se podudarale s polinemorfizmima s jednim nukleotidom (SNP) tri skupine pojačivača prvo su grupirane prema vrsti bolesti (dodatna datoteka 2: Tablica S4). Za proučavanje obogaćivanja niza SNP -ova koji se podudaraju s određenom vrstom bolesti, oznaka SNP -a koja se podudara s obilježjima GWAS -a dodatno je proširena neravnotežom povezivanja (LD) (r 2 & gt 0,8, maksimalna udaljenost 500 kb). Obogaćivanje stabilnih SNP -ova pojačivača koji se podudaraju s tipom bolesti u odnosu na krhke SNP -ove pojačivača ocijenjeno je kao -logP hipergeometrijske distribucije, i obrnuto.

Identifikacija potencijalnih TFBS -a u tri skupa pojačivača

U svrhu identifikacije lokacije potencijalnih mjesta vezanja, koristili smo profile mjesta vezivanja za TF kralježnjaka pohranjenih u Jasparu [39], CIS-BP [40], SwissRegulon [41], HOCOMOCO [42] i UniPROBE [43 ] baze podataka. Obučili smo interno razvijen alat pod nazivom tfbsFrag o nasumičnim nizovima za stvaranje optimiziranih matrica bodovanja specifičnih za položaj (PSSM) koje je identificirao FIMO [44] za održavanje stope lažno pozitivnih otkrića u stvarnom genomskom slijedu na oko pet lažno pozitivnih rezultata u 10 kb niza. Zatim smo koristili tfbsFrag i optimizirane PSSM -ove kralježnjaka za skeniranje pojačivača sekvenci tri klase. Referentni genom čovjeka hg19 bio je teško prikriven kako bi se uklonili transponirani elementi pri traženju potencijalnih TFBS-a. Generirano je pet slučajnih sekvenci za svaki niz pojačivača sa strogim kriterijima (ΔGC-sadržaj ≤ 0,005, Δ-ponavljajući sadržaj ≤ 0,01), koji su korišteni za identifikaciju PSSM-a i za određivanje obogaćivanja TFBS-a seta pojačivača u odnosu na pozadinu. Pojava određenog TFBS-a u skupu pojačivača/slučajnog slijeda normalizirana je ukupnom duljinom neponavljajućih pojačivača/slučajnih regija. Zatim, obogaćivanje TFBS -a TF A (tj. TFBS -a)A) u skupu pojačivača određuje se formulom 1.

Ako je pojačivač sadržavao najmanje tri potencijalna mjesta vezanja za TF koji se ne širi za više od 1 kb, pretpostavili smo da ovaj pojačivač ima najmanje jednu homotipsku skupinu TFBS. Analogno tome, ako je pojačivač sadržavao najmanje tri potencijalna mjesta vezanja za različite TF -ove koji se ne šire za više od 1 kb, pretpostavili smo da ovaj pojačivač ima najmanje jednu heterotipičnu skupinu TFBS -a.

CAPE rezultat particije

CAPE je strojno utemeljeni klasifikator vektora potpore usmjeren na predviđanje uzročne regulatorne varijante [15]. Ukratko, uči kôd sekvence iz velikih profila kromatinskih podataka višestrukih signalnih zapisa, uključujući DNase-seq, H3K27ac, H3K4me1, H3K4me2, H3K4me3, H2A.Z, P300 i glavne podatke o vezivanju TF odgovarajućeg tkiva. Dva potpisa sekvence, naime, remetilački učinak mutacije na glavno vezanje TF (Δ) i ko-vezanje TF-a u njegovoj blizini (S), osnovne su komponente značajki za svaki signal (slika 1a). Sve u svemu, CAPE integrira (Nk × NkmerPotpis × NsignalTrack) značajke. Nk (= 5) je broj k-veće veličine (k = 4, 6, 8, 10, 12). NkmerPotpis (= 2) je broj potpisa uključujući promjenu afiniteta vezanja potencijalnog mjesta vezanja zbog mutacije (Δ) i sveukupne sposobnosti vezivanja bliskog konteksta sekvence genetske varijante (S). NsignalTrack je broj podataka o kromatinu (slika 1b). Optimalne težine za značajke naučene iz peterostruke unakrsne provjere eQTL modela stanične linije HepG2 [15] navedene su u Dodatnoj datoteci 2: Tablica S8. Optimalna hiperravnina klasifikatora može se stoga podijeliti na dvije komponente-ponderirani zbroj ometajućeg učinka na srodni motiv (označen kao WS (Δ)) i ponderirani zbroj ko-vezanja drugih TF-ova u bočnom području (označeno kao WS (S)) (formula 2).

gdje w1kj i w2kj su optimalne težine naučene iz skupa treninga modela eQTL.

Testovi transgenih reporterskih miševa

Regije za pojačavanje čovjeka (vidi Dodatnu datoteku 2: Tablice S9-S10 za sekvence) PCR su amplificirane iz humane genomske DNA (divlji tip) ili kemijski sintetizirane pomoću Integrated DNA Technologies (IDT) (5% top deM i 5% slučajnih ne-deM mutacije) i klonirano u Hsp68-promotor-LacZ reporterski vektor [46] pomoću Gibson (New England Biolabs [NEB]) kloniranje [47]. Transgenski embriji miša nastali su pronuklearnom injekcijom, a F0 embriji su prikupljeni na E11.5 i obojeni za aktivnost LacZ kao što je prethodno opisano [45, 46]. Postupke za generiranje transgenih i inženjeriranih miševa pregledao je i odobrio Odbor za dobrobit i istraživanje životinja Lawrence Berkeley National Laboratory (LBNL).


Uvod

Brojni proteini u većini oblika života, ali osobito životinje i biljke, sadrže kompozicijski uređena područja koja se sastoje od ponavljajućih motiva, poput kratkih tandemskih ponavljanja, periodičnih struktura i ponavljajućih domena 1,2,3,4,5. U nastavku se na takve ponavljajuće motive pozivamo jednostavno kao na ponavljanja. Ponavljanja su od iznimne važnosti, osobito kao građevinski materijal za skele različitih makromolekularnih kompleksa, na primjer, nuklearne pore 6,7, proteasom 8 ili mehanotransdukcijski kanali 9. Primjeri najobilnijih ponavljanja sa funkcijama skele uključuju ankirin, tetratrikopeptid (TPR) i WD40 ponavljanja 10,11,12,13,14,15. Ponavljanja su također važna u bitnim biokemijskim funkcijama, kao što je regulacija transkripcije, kao što je prikazano iznimno uobičajenim ponavljanjima Zn-prsta 16,17.

Ponavljanja se mogu pojaviti klizanjem replikacije i rekombinacijom 18,19, prerasti u duže jedinice 20 i razići se nakupljanjem mutacija. Nova ponavljanja predstavljaju glavni izvor genetskih varijacija, često povezanih s brzom evolucijom i stjecanjem novih funkcija 21,22,23. Upečatljivi primjeri, različitih organizama, uloge povećanja i gubitka ponavljanja proteina u mikroevoluciji uključuju varijacije u satu razdoblje, koji je odgovoran za prilagodbu cirkadijskog sata temperaturi u Drosophila 24, godine Runx-2 gen, povezan s morfološkim promjenama kod pasa 25 i proteinima stanične stijenke, što dovodi do novih fenotipa adhezije stanica u gljivama i protistima, a smatra se da omogućuje izbjegavanje imunološkog sustava domaćina 26.

Nekoliko usporednih studija pokazalo je da se ponavljajuće regije u proteinima globalno čuvaju kod vrsta 27,28,29,30, što ukazuje na to da su ponavljanja funkcionalna, ali i da je brza evolucija rijetka 29. Unatoč snažnim dokazima o funkcionalnosti i evolucijskom očuvanju ponavljanja, ponovljena varijacija također je poznati molekularni pokretač genetske bolesti 31,32, što ukazuje na važnost brze promjene u ponavljajućim regijama proteina. Nadalje, brza evolucija ponavljanja proteina igra ključnu ulogu u različitim aspektima imuniteta, o čemu svjedoče repeti bogati leucinom, koji su ključne strukturne komponente proteina urođene imunosti, poput receptora sličnih životinjskim cestarinama i proteina otpornih na biljne bolesti kao adaptivne komponente imuniteta u kralježnjaka bez čeljusti 33,34,35,36,37,38.

Stoga se čini da postoji zagonetka između ukupnog evolucijskog očuvanja u regijama koje se ponavljaju i brze promjene ponavljanja povezanih s različitim biološkim procesima. Ovdje rješavamo ovu očitu kontradikciju otkrivajući dramatičnu razliku između režima unutar-proteinske (horizontalne) evolucije ponavljanja i među-proteinske (vertikalne) evolucije ponavljanja u ortolognim proteinima.

Kako bismo analizirali evoluciju ponavljanja i povećali vjerojatnost da se evolucijske stope mogu procijeniti, razvijamo rigoroznu metodu za izdvajanje ponavljanja s očuvanom duljinom i značajnom sličnošću sekvenci iz proteinskih sekvenci. Potvrđujemo ga i primjenjujemo za sustavno uspoređivanje vodoravne i okomite evolucije ponavljanja u različitim skupinama organizama. Pokazujemo da su ponavljanja visoko očuvana među vrstama, dok se vodoravno razmnožavaju i razilaze. Stoga se čini da je svako fiksno ponavljanje funkcionalno važno samo po sebi i stoga podložno odabiru pročišćavanja, dok u početnoj fazi evolucije ponavljajućih regija kombinacija snažno opuštene selekcije pročišćavanja i pozitivne selekcije pokreće brzu horizontalnu divergenciju ponavljajućih sekvenci, vjerojatno donosi nove funkcije. Budući da varijacije ponavljanja igraju ključnu ulogu u ljudskim bolestima, osobito u neurodegeneraciji i karcinomu, ovdje korištena metodologija pruža sredstva za proučavanje somatske horizontalne evolucije ponavljanja i mogla bi pridonijeti identifikaciji pokretača bolesti povezanih s ovom mutacijskom klasom.


Opcije pristupa

Omogućite potpuni pristup časopisu 1 godinu

Sve cijene su NETO cijene.
PDV će biti dodat kasnije na blagajni.
Izračun poreza bit će dovršen tijekom plaćanja.

Nabavite vremenski ograničen ili potpuni pristup članku na ReadCube -u.

Sve cijene su NETO cijene.


Sadržaj

Otkriće uloge DNK u naslijeđu i zapažanja Fredericka Sangera o varijacijama između životinjskih inzulina 1949. [2] potaknuli su rane molekularne biologe na proučavanje taksonomije iz molekularne perspektive. [3] [4] Studije 1960-ih koristile su tehnike hibridizacije DNA i unakrsne reaktivnosti proteina za mjerenje sličnosti između poznatih ortolognih proteina, poput hemoglobina [5] i citokroma c. [6] Godine 1965. Émile Zuckerkandl i Linus Pauling uveli su koncept molekularnog sata [7], predlažući da se stalne stope zamjene aminokiselina mogu koristiti za procjenu vremena od kada su se dva organizma razišla. Iako su se početne filogenije blisko podudarale s fosilnim podacima, opažanja da se čini da su se neki geni razvijali različitom brzinom dovela su do razvoja teorija molekularne evolucije. [3] [4] Usporedba sekvenci ferodoksina Margaret Dayhoff iz 1966. pokazala je da će prirodna selekcija djelovati na očuvanje i optimiziranje proteinskih sekvenci bitnih za život. [8]

Tijekom mnogih generacija, sekvence nukleinskih kiselina u genomu evolucijske loze mogu se postupno mijenjati tijekom vremena zbog slučajnih mutacija i delecija. [9] [10] Slijed se također može rekombinirati ili izbrisati zbog kromosomskih preuređenja. Očuvane sekvence su sekvence koje opstaju u genomu unatoč takvim silama i imaju sporije stope mutacije od stope mutacije u pozadini. [11]

Konzervacija se može dogoditi u kodirajućim i nekodirajućim sekvencama nukleinskih kiselina. Smatra se da visoko očuvane DNK sekvence imaju funkcionalnu vrijednost, iako je uloga mnogih visoko konzerviranih nekodiranih DNK sekvenci slabo shvaćena. [12] [13] Na stupanj očuvanja slijeda mogu utjecati različiti selekcijski pritisci, njegova robusnost na mutaciju, veličina populacije i genetski pomak. Mnoge funkcionalne sekvence također su modularne i sadrže regije koje mogu biti podložne pritiscima neovisne selekcije, poput proteinskih domena. [14]

Niz kodiranja Uređivanje

U kodirajućim sekvencama, sekvenca nukleinske kiseline i aminokiseline može se očuvati u različitoj mjeri, jer degeneracija genetskog koda znači da sinonimne mutacije u kodirajućoj sekvenci ne utječu na aminokiselinsku sekvencu njegovog proteinskog proizvoda. [15]

Aminokiselinske sekvence mogu se konzervirati radi održavanja strukture ili funkcije proteina ili domene. Konzervirani proteini podliježu manjim zamjenama aminokiselina ili je veća vjerojatnost da će zamijeniti aminokiseline sličnih biokemijskih svojstava. [16] Unutar slijeda, aminokiseline koje su važne za presavijanje, strukturnu stabilnost ili koje tvore mjesto vezanja mogu biti visoko očuvane. [17] [18]

Sekvenca nukleinske kiseline gena koji kodira protein također se može očuvati drugim selektivnim tlakovima. Pristranost korištenja kodona u nekim organizmima može ograničiti vrste sinonimnih mutacija u slijedu. Sekvence nukleinske kiseline koje uzrokuju sekundarnu strukturu u mRNA kodirajućeg gena mogu se odabrati protiv, jer neke strukture mogu negativno utjecati na translaciju, ili konzervirati gdje mRNA također djeluje kao funkcionalna nekodirajuća RNA. [19] [20]

Uređivanje bez kodiranja

Nekodirajuće sekvence važne za regulaciju gena, poput mjesta vezanja ili prepoznavanja ribosoma i transkripcijskih faktora, mogu se sačuvati unutar genoma. Na primjer, promotor konzerviranog gena ili operona također može biti konzerviran. Kao i kod proteina, nukleinske kiseline koje su važne za strukturu i funkciju nekodirajuće RNK (ncRNA) također se mogu očuvati. Međutim, očuvanje sekvenci u ncRNA je općenito loše u usporedbi sa sekvencama koje kodiraju proteine, a parovi baza koji doprinose strukturi ili funkciji često se konzerviraju. [21] [22]

Očuvane sekvence tipično se identificiraju bioinformatičkim pristupima na temelju poravnavanja sekvenci. Napredak u visokopropusnom sekvenciranju DNK i masenoj spektrometriji proteina značajno je povećao dostupnost proteinskih sekvenci i cijelih genoma za usporedbu od ranih 2000-ih. [23] [24]

Homološko pretraživanje Uredi

Očuvane sekvence mogu se identificirati homološkim pretraživanjem, pomoću alata kao što su BLAST, HMMER, OrthologR, [25] i Infernal. [26] Homološki alati za pretraživanje mogu uzeti kao ulaz pojedinu sekvencu nukleinske kiseline ili proteina ili koristiti statističke modele generirane iz više poravnanja poznatih srodnih sekvenci. Statistički modeli kao što su profil-HMM-ovi i RNA kovarijantni modeli koji također uključuju strukturne informacije, [27] mogu biti korisni pri traženju udaljenijih srodnih sekvenci. Ulazni nizovi tada se poravnavaju s bazom podataka o nizovima povezanih jedinki ili drugih vrsta. Rezultirajuća poravnanja tada se boduju na temelju broja odgovarajućih aminokiselina ili baza i broja praznina ili brisanja nastalih poravnavanjem. Prihvatljive konzervativne supstitucije mogu se identificirati pomoću supstitucijskih matrica kao što su PAM i BLOSUM. Pretpostavlja se da su poravnanja s visokim bodovanjem iz homolognih nizova. Očuvanje sekvence tada se može zaključiti otkrivanjem vrlo sličnih homologa u širokom filogenetskom rasponu. [28]

Poravnanje više slijedova Uređivanje

Više vizualnih poravnanja može se koristiti za vizualizaciju očuvanih sekvenci. CLUSTAL format uključuje ključ s običnim tekstom koji označava konzervirane stupce poravnanja, označavajući konzervirani niz (*), konzervativne mutacije (:), polukonzervativne mutacije (.) I nekonzervativne mutacije () [30] Logotipi niza također može prikazati očuvani slijed predstavljanjem omjera znakova u svakoj točki poravnanja po visini. [29]

Uređivanje poravnanja genoma

Poravnanja cijelog genoma (WGA) mogu se također koristiti za identifikaciju visoko konzerviranih regija među vrstama. Trenutno točnost i skalabilnost WGA alata ostaje ograničena zbog složenosti izračuna rješavanja preuređenja, regija ponavljanja i velike veličine mnogih eukariotskih genoma. [32] Međutim, WGA 30 ili više blisko povezanih bakterija (prokarioti) sada su sve izvodljivije. [33] [34]

Sustavi bodovanja Uredi

Drugi pristupi koriste mjerenja očuvanja temeljena na statističkim testovima koji pokušavaju identificirati sekvence koje različito mutiraju do očekivane pozadinske (neutralne) stope mutacije.

GERP (Genomic Evolutionary Rate Profiling) okvir ocjenjuje očuvanje genetskih sekvenci među vrstama. Ovaj pristup procjenjuje stopu neutralne mutacije u skupu vrsta iz poravnanja višestrukih sekvenci, a zatim identificira područja slijeda koja pokazuju manje mutacija nego što se očekivalo. Tim regijama se zatim dodjeljuju bodovi na temelju razlike između opažene stope mutacije i očekivane stope mutacije u pozadini. Visoka ocjena GERP -a tada ukazuje na visoko očuvanu sekvencu. [35] [36]

POPIS [37] [38] (Lokalni identitet i zajedničke takse) temelji se na pretpostavci da su varijacije uočene kod vrsta blisko povezanih s ljudima značajnije pri procjeni očuvanja u usporedbi s onima u udaljenim srodnim vrstama. Stoga LIST koristi lokalni identitet poravnanja oko svakog položaja za identifikaciju relevantnih sekvenci u poravnanju višestrukih sekvenci (MSA), a zatim procjenjuje očuvanje na temelju taksonomske udaljenosti ovih sekvenci do čovjeka. Za razliku od drugih alata, LIST zanemaruje broj/učestalost varijacija u MSA -i.

Aminode [39] kombinira višestruka poravnanja s filogenetskom analizom za analizu promjena homolognih proteina i stvaranje grafikona koji ukazuje na lokalne stope evolucijskih promjena. Ovaj pristup identificira evolucijski ograničene regije u proteinu, koji su segmenti koji podliježu selekciji pročišćavanja i tipično su kritični za normalnu funkciju proteina.

Drugi pristupi, poput PhyloP -a i PhyloHMM -a, uključuju statističke filogenetske metode za usporedbu raspodjele vjerojatnosti brzina supstitucije, što omogućuje otkrivanje očuvanja i ubrzane mutacije. Prvo, generira se pozadinska raspodjela vjerojatnosti broja zamjena za koje se očekuje da će se dogoditi za stupac u poravnanju više sekvenci, na temelju filogenetskog stabla. Procijenjeni evolucijski odnosi između vrsta od interesa koriste se za izračunavanje značaja bilo kakvih supstitucija (tj. Zamjena između dvije blisko povezane vrste ima manju vjerojatnost da će se dogoditi od udaljenih, pa je stoga značajnija). Kako bi se otkrilo očuvanje, raspodjela vjerojatnosti izračunava se za podskup poravnanja višestrukih nizova i uspoređuje se s pozadinskom raspodjelom pomoću statističkog testa, poput testa omjera vjerojatnosti ili testa bodovanja. P-vrijednosti generirane usporedbom dviju distribucija tada se koriste za identifikaciju očuvanih regija. PhyloHMM koristi skrivene Markovljeve modele za generiranje distribucije vjerojatnosti. Softverski paket PhyloP uspoređuje distribucije vjerojatnosti pomoću testa omjera vjerojatnosti ili testa bodovanja, kao i pomoću sustava bodovanja sličnog GERP-u. [40] [41] [42]

Ultra konzervirani elementi Edit

Ultra konzervirani elementi ili UCE su sekvence koje su vrlo slične ili identične u više taksonomskih grupa. Oni su prvi put otkriveni kod kralježnjaka [43], a kasnije su identificirani unutar vrlo različitih svojti. [44] Iako su podrijetlo i funkcija UCE-a slabo razumljivi, [45] oni su korišteni za istraživanje dubokih razlika u amniotima, [46] insektima [47], te između životinja i biljaka. [48]

Univerzalno očuvani geni Edit

Najviše očuvani geni su oni koji se mogu naći u svim organizmima. Oni se uglavnom sastoje od ncRNA i proteina potrebnih za transkripciju i translaciju, za koje se pretpostavlja da su sačuvani od posljednjeg univerzalnog zajedničkog pretka cijelog života. [49]

Geni ili obitelji gena za koje je ustanovljeno da su univerzalno očuvani uključuju faktore produljenja GTP-vezanja, metionin aminopeptidazu 2, serinsku hidroksimetiltransferazu i transportere ATP-a. [50] Komponente transkripcijskog stroja, kao što su RNA polimeraza i helikaze, te translacijskog stroja, poput ribosomskih RNA, tRNA i ribosomalnih proteina, također su univerzalno očuvane. [51]

Filogenetika i taksonomija Uredi

Skup generiranih sekvenci često se koristi za stvaranje filogenetskih stabala jer se može pretpostaviti da su organizmi sa sličnim nizovima blisko povezani. [52] Izbor sekvenci može varirati ovisno o taksonomskom opsegu studije. Na primjer, najviše očuvani geni, poput 16S RNA i drugih ribosomskih sekvenci, korisni su za rekonstrukciju dubokih filogenetskih odnosa i identifikaciju bakterijske vrste u metagenomskim studijama. [53] [54] Sekvence koje su sačuvane unutar klade, ali podliježu nekim mutacijama, poput gena za domaćinstvo, mogu se koristiti za proučavanje odnosa vrsta. [55] [56] [57] Unutarnje transkribirano odstojno područje (ITS), koje je potrebno za razmak konzerviranih gena rRNA, ali prolazi kroz brzu evoluciju, obično se koristi za klasifikaciju gljiva i sojeva brzo razvijajućih bakterija. [58] [59] [60] [61]

Medicinska istraživanja Uredi

Kako visoko očuvane sekvence često imaju važne biološke funkcije, mogu biti korisne polazišne točke za identifikaciju uzroka genetskih bolesti. Mnogi urođeni metabolički poremećaji i bolesti skladištenja lizosoma rezultat su promjena u pojedinim očuvanim genima, što rezultira nedostatkom ili neispravnošću enzima koji su temeljni uzrok simptoma bolesti. Genetske bolesti mogu se predvidjeti identificiranjem sekvenci koje su sačuvane između ljudi i laboratorijskih organizama, poput miševa [62] ili voćnih mušica [63], te proučavanjem učinaka nokautiranja ovih gena. [64] Studije udruživanja u cijelom genomu također se mogu koristiti za identifikaciju varijacija u očuvanim sekvencama povezanim s bolestima ili zdravstvenim ishodima. U Alzehimerovoj bolesti bilo je otkriveno više od dva desetaka novih lokusa potencijalne osjetljivosti [65] [66]

Uređivanje funkcionalnih napomena

Identificiranje konzerviranih sekvenci može se koristiti za otkrivanje i predviđanje funkcionalnih sekvenci kao što su geni. [67] Očuvane sekvence s poznatom funkcijom, kao što su proteinske domene, također se mogu koristiti za predviđanje funkcije sekvence. Baze podataka o očuvanim proteinskim domenama kao što su Pfam i Baza sačuvanih domena mogu se koristiti za označavanje funkcionalnih domena u genima za kodiranje proteina. [68]


Gledaj video: Top 500 General Science Question in hindi Part-01. Science GK for Railway, NTPC, SSC, POLICE SI, (Lipanj 2022).


Komentari:

  1. Galt

    Ova smiješna objava je izvanredna

  2. Blythe

    It's time to get down to your mind. It's time to come to your senses.

  3. Shazil

    To je uvjeta

  4. Tazshura

    Mislim da si u krivu. Mogu braniti svoj stav. Javite mi se na PM pa ćemo razgovarati.

  5. Bradburn

    Instead of criticizing, write the variants.

  6. Gormley

    Oprostite što se miješam... Ali ova tema mi je jako bliska. Mogu pomoći s odgovorom. Pišite na PM.

  7. Rorey

    Doba dobrog bloganja bliži se kraju. Uskoro će svi biti ispunjeni sranjem komentara. Strah, malo vjeran, jer ovo dolazi vrlo brzo!



Napišite poruku