Informacija

Koje se korisne (početne) metrike mogu koristiti na filogenetskim stablima?

Koje se korisne (početne) metrike mogu koristiti na filogenetskim stablima?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Radim projekt računalne biologije u kojem simuliram evoluciju pod različitim skupovima pravila nasljeđivanja i stvaram filogenetska stabla (lijepo vizualizirano u Pythonu s ete3).

Moje je pitanje: gdje mogu pronaći i isprobati neke jednostavne metrike koje mogu opisati ta stabla u smislu "razgranatosti" (možete reći da nisam bioinformatičar ili filogenetičar!). Tražim svojevrsne deskriptore srednjeg polja drveća. Nešto poput distribucije diploma za mreže.

Moj specifični cilj je, poput nauke o mreži, pokušati vidjeti mogu li razlikovati različite skupove pravila koji su stvorili stablo ispitivanjem [statističkih] svojstava samog stabla.


Evo nekoliko mjernih podataka koje možete izračunati za početak. Za izračune možete koristiti R.

Neto stopa diverzifikacije (r)

Neto stopa diverzifikacije je (stopa specijacije - stopa izumiranja). Možete ga izračunati pomoćubd.msilibd.kmfunkcije ugeigerpaket za R.

r = 1:

r = 2:

Neravnoteža stabla: Indeks bez kolona (I)

Collessov indeks mjeri koliko je stablo neuravnoteženo. Zbraja razlike u broju klada u svakom paru svojti. Možete ga izračunati pomoćusakupljatifunkciju uapTreeshapepaket za R.

I = 0

I = 21

Vrijeme grananja (gama)

Gama statistika mjeri koliko se kasnije ili ranije grananje dogodi nego što biste očekivali od normalnog procesa rođenja i smrti. Negativna vrijednost znači da se vremena grananja javljaju ranije, pozitivna znači da se vremena grananja pojavljuju kasnije. Možete mjeriti gama (i generirati liniju kroz grafikon vremena (ltt), kao što je prikazano u nastavku) pomoćulttfunkciju u R paketufitoalati

(Iz ovog članka Nature)

Ovo su samo neki od mnogih parametara koje možete izračunati za filogenetsko stablo. To bi vam trebalo biti dovoljno za početak.


Korištenje EST -ova za filogenomiju: Može li se točno zaključiti filogenetsko stablo iz poravnanja?

Dok su pune sekvence genoma još uvijek dostupne samo za šačicu svojti, velike zbirke parcijalnih genskih sekvenci dostupne su za mnoge druge. Poravnavanje parcijalnih genskih sekvenci rezultira poravnavanjem višestrukih sekvenci koje sadrže velike praznine koje su raspoređene u raspoređenom uzorku. Posljedice ovog obrasca nedostajućih podataka na točnost filogenetske analize nisu dobro shvaćene. Proveli smo simulacijsku studiju kako bismo utvrdili točnost filogenetskih stabala dobivenih iz gappy poravnanja pomoću tri često korištene filogenetske metode rekonstrukcije (Neighbour Joining, Maximum Parsoding i Maximum Likelihood) i proučavali načine za poboljšanje točnosti stabala dobivenih iz takvih skupova podataka.

Rezultati

Utvrdili smo da obrazac gappiness u više poravnanja slijedova izveden iz parcijalnih sekvenci gena značajno ugrožava filogenetsku točnost čak i u nedostatku pogreške poravnanja. Pad točnosti bio je iznad očekivanog na temelju količine podataka koji nedostaju. Pad je bio osobito dramatičan za Neighbour Joining i Maximum Parsoding, gdje je većina gappy poravnanja sadržavala 25% do 40% netočnih kvarteta. Kako bismo poboljšali točnost stabala dobivenih poravnanjem višestrukih nizova, ispitali smo dva pristupa. U prvom pristupu, maskiranje poravnanja, potencijalno problematični stupci i unosne sekvence isključeni su iz skupa podataka. Čak i u nedostatku pogreške poravnavanja, maskiranje je poboljšalo filogenetsku točnost do 100 puta. Međutim, maskiranje je zadržalo u prosjeku samo 83% ulaznih sekvenci. U drugom pristupu, poravnanju, podaci koji nedostaju se statistički modeliraju kako bi se u filogenetskoj analizi zadržalo što više sekvenci. Podjela je rezultirala skromnijim poboljšanjima točnosti poravnanja, ali je uspjela uključiti gotovo sve ulazne sekvence.

Zaključak

Ovi rezultati pokazuju da parcijalne genske sekvence i poravnate višestruke sekvence mogu predstavljati veliki problem za filogenetsku analizu. Zabrinutost će biti najveća zbog visokopropusnih filogenomskih analiza u kojima je Neighbor Joining često poželjna metoda zbog svoje računalne učinkovitosti. Oba pristupa mogu se koristiti za povećanje točnosti filogenetskog zaključivanja iz gappy poravnanja. Izbor između dva pristupa ovisit će o tome koliko je aplikacija robusna prema gubitku sekvenci iz ulaznog skupa, pri čemu maskiranje poravnanja općenito daje mnogo veće poboljšanje točnosti, ali po cijenu odbacivanja većeg broja ulaznih sekvenci.


2 FUNKCIONALNOST VISUALNOG TreeCmpa

Paket Visual TreeCmp opsežan je skup alata za usporedbu filogenija koji implementira bogati skup mjernih parametara za usporedbu filogenetskih stabala. Metrike se dijele na ukorijenjene ili neokorjenjene i topološke ili ponderirane, vidi tablicu 1. Ponderirane metrike koriste duljine grana koje moraju biti definirane i pozitivne. Ova se pretpostavka može ublažiti na negativne vrijednosti upotrebom opcije „Dopuštene nula težina“, tada nula težine znači da nema ruba između vrhova i da su vrhovi potisnuti u jedan vrh.

Metrički naziv Korijen. Vagati. Navesti
Trostruka metrika Da Ne Critchlow i sur. (1996.)
Robinson -Fouldsova metrika na temelju klastera Da Ne Robinson i Foulds (1981)
Podudara se metrički para Da Ne Bogdanowicz i Giaro (2017)
Nodalna podijeljena metrika s L 2 normom Da Ne Cardona i sur. (2010)
Podudaranje metrike klastera Da Ne Bogdanowicz i Giaro (2013)
Ukorijenjena najveća udaljenost podstabla dogovora Da Ne Farach-Colton i Thorup (1995)
Kofenetska metrika s L 2 normom Da Ne Cardona, Mir, Rosselló, Rotger i Sánchez (2013)
Ponderirana Robinson -Fouldsova metrika na temelju klastera Da Da Robinson i Foulds (1979.)
Ponderirani čvorno podijeljeni metrički pokazatelj s L 2 normom Da Da Cardona i sur. (2010)
Ponderirana geodetska (BHV) ukorijenjena metrika Da Da Owen i Provan (2011)
Ponderirana kofenetska metrika s L 2 normom Da Da Cardona i sur. (2013)
Udaljenost kvarteta Ne Ne Estabrook i sur. (1985.)
Razlika udaljenosti puta Ne Ne Čelik i Peni (1993)
Robinson -Fouldsova udaljenost Ne Ne Robinson i Foulds (1981)
Podudaranje podijeljene udaljenosti Ne Ne Bogdanowicz i Giaro (2012)
Neukorijenjena najveća udaljenost podstabla dogovora Ne Ne Farach-Colton i Thorup (1995)
Ponderirana udaljenost Robinson – Foulds Ne Da Robinson i sur. (1979.)
Ponderirana geodetska (BHV) udaljenost bez korijena Ne Da Owen i Provan (2011)

Prema našim saznanjima, ovaj alat jedini primjenjuje metriku Podudaranje podjele (MS), Podudaranje klastera (MC) i Matching Pair (MP). Sve udaljenosti provode se pomoću polinomskih vremenskih algoritama i svi oni ispunjavaju klasične matematičke metričke prostorne aksiome. Implementiran je u Javi na temelju Spring okvira i dostupan je u tri oblika, kao javno dostupna hostirana web-bazirana, samostalna web-aplikacija i aplikacija za naredbeni redak. U ovom ćemo dijelu opisati glavne značajke svake verzije i opisati generator slučajnih filogenetskih stabala dodan u paket Visual TreeCmp.

Web aplikacija dostupan je na: https://eti.pg.edu.pl/treecmp, a može usporediti filogenetska stabla izravno s web stranice. Ulazna stabla mogu se usporediti u jednom od četiri načina (par koji se preklapa, prozor, matrica, referentna stabla na sva stabla). Najkorisniji su: matrični način usporedbe - koji omogućuje jednostavnu usporedbu svaka dva unesena stabla i referentnog stabla sa svim načinom usporedbe svih stabala - dopuštajući usporedbu svakog unesenog stabla sa svim referentnim stablima. Na primjer, referentna stabla za sve načine usporedbe drveća prikladna su za analizu točnosti metode supersree stabla Podrezano obrezivanje i transplantat (SPR). Primjer će biti prikazan u odjeljku 3.

Unesena stabla su u formatu NEXUS (Maddison, Swofford i Maddison, 1997.) ili NEWICK (Felsenstein, 1989.). U postupku usporedbe moramo odabrati od 1 do 18 dostupnih mjernih podataka (11 za ukorijenjena i 7 za neokorjenjena stabla). Stabla newicka tumače se kao ukorijenjena, čak i ako se u podnožju nalazi multifurkacija. Neukorijenjene metrike mijenjaju svako stablo uklanjanjem korijenske oznake, a ako je čvor stupnja 2 ostavljen, također se potiskuje.

Raspon vrijednosti koje vraćaju različite metrike može se značajno razlikovati, štoviše, kodomena nekih metrika može biti cijeli broj ili proizvoljni stvarni broj. Stoga je teško protumačiti udaljenost, a time i sličnost dvaju uspoređenih stabala. Kako bi se olakšala takva analiza, dodana je opcija "Normalizirane udaljenosti" za stabla s manje od 1.000 svojti (primjenjuje se samo na upotrebu topoloških metrika). Uspoređuje dobiveni rezultat sa prosječnom vrijednošću od 1000 nasumično generiranih binarnih parova stabala s istim brojem svojti. Kad je rezultat bliži jedinici, udaljenost između dva ispitivana stabla bliža je prosječnoj vrijednosti nasumično generiranih stabala u danom modelu.

U slučaju da se skupovi oznaka uspoređenih stabala razlikuju, opcija 'Orezivanje stabala' može se upotrijebiti za uklanjanje lišća koje nema ekvivalent na suprotnom uspoređenom stablu. Budući da sve implementirane metrike uzimaju kao ulaz dva stabla na istom skupu lišća, stabla na drugom skupu lišća orezuju se na podstabla koja imaju isti skup lišća. Dodatno lišće orezuje se samo ako je odabrana opcija "Orezivanje stabala", u protivnom se generira pogreška.

Izvješće o usporedbama prikazano je u tablici. Svaki redak sadrži informacije o jednom paru uspoređenih stabala, pogledajte sliku 1. Sljedeći stupci sadrže rezultat za sljedeće mjerne podatke. Iz generiranog izvješća korisnik može lako sortirati prema sadržaju bilo kojeg stupca, filtrirati rezultate koji sadrže zadani niz znakova, ispisati rezultate ili ih spremiti u međuspremnik sustava ili u datoteku u jednom od sljedećih formata: csv , excel, pdf.

Dodatno, klikom na bilo koji redak može se prikazati odgovarajući par uspoređenih stabala. Za vizualizaciju se koristi aplikacija Phylo.io implementirana u HTML5/JS tehnologiji (Robinson, Dylus i Dessimoz, 2016.).

Samostalna aplikacija s WEB GUI pokreće se lokalno na računalu korisnika. GUI je dostupan na lokalnoj adresi: http: // localhost: & ltport_number & gt/TreeCmp/. Osim toga, informacije o napretku izračuna, mogućim upozorenjima i pogreškama generiraju se u prozoru konzole.

Aplikacija naredbenog retka je tipična Java knjižnica koja se jednostavno naziva TreeCmp, pa se stoga njezina funkcionalnost može koristiti u drugim projektima. Kao alat za naredbeni redak, omogućuje izvođenje potpuno istih izračuna. Štoviše, pri izračunavanju MC i MS mjernih podataka mogu se generirati dodatne datoteke koje sadrže poravnate podjele ili klastere. Vrlo je prikladan za upotrebu u skriptama, npr. s dolje opisanim generatorom slučajnih filogenetskih stabala.

Generiraju se filogenetska slučajna stablar dopušta generiranje određenog broja binarnih stabala koje daje korisnik. Stabla se mogu generirati prema Yule (Harding, 1971.) ili jednoličnom modelu. Također se mogu generirati sva moguća binarna stabla za fiksni broj listova. Međutim, za veći broj listova potrebna je ogromna količina prostora na disku.

Paket Visual TreeCmp omogućuje normalizaciju metričkih vrijednosti. Ako je broj parova stabala uključenih u slučajni uzorak (trenutno 1.000) premalen, proračuni se mogu ponoviti lokalno generiranjem većeg broja parova stabala i izračunavanjem točnijih srednjih vrijednosti i vrijednosti standardnog odstupanja. To tumačenje normaliziranog rezultata čini pouzdanijim.


Od čega služe filogenetska stabla?

Kao dinamičke hipoteze o rodoslovlju i promjeni karaktera, filogenetska stabla mogu se koristiti i za opisivanje i razumijevanje evolucije likova i za predviđanje onoga što još ne znamo. Ako je Theodosius Dobzhansky (1973.) bio u pravu kada je rekao da "ništa u biologiji nema smisla osim u svjetlu evolucije", i ako su sve sličnosti i razlike među organizmima rezultat evolucijskih procesa kladogeneze (cijepanje loze) i anageneze (karakter promjena), tada bi drveće trebalo biti vrlo korisno široj publici. Doista, "razmišljanje o drveću" počinje se osjećati u mnogim disciplinama (vidi Baum i Offner 2008, za perspektivu razmišljanja o drveću i učionici). Ilustriram neke primjere uporabe drveća u nastavku. Dva od njih dolaze izravno iz preglednog rada Bull -a i Wichmana (2001), rada koji toplo preporučujem nastavnicima i jednog koji je potrebno čitanje na mom tečaju sistematike.

Podrijetlo HIV -a u ljudi (iz Bull i Wichman 2001). Retrovirusi se razvijaju, a HIV je ozloglašeno brzo razvijajući virus. Zapravo postoje dva različita oblika, HIV-1 i HIV-2. Izvođenjem filogenetske analize na sojevima humanog HIV -a, kao i sojevima HIV -a iz niza vrsta primata, Gao i sur. (1999) uspjeli su pokazati da je HIV-1 bliže povezan sa sojevima HIV-a u čimpanzi, dok su Hahn i sur. (2000) ušli su u trag HIV-2 do čađavog majmuna mangabey. Zanimljivo je da je HIV-2 manje učestao i rjeđe smrtonosan od HIV-1 kod ljudi.

Dijagnosticiranje raka. Abu-Asab i sur. (2006) predložili su novi način dijagnosticiranja raka kombinacijom proteomike i filogenetske analize ("filoproteomika"). Rezultirajuće filogenetske analize tri vrste karcinoma (jajnika, prostate i gušterače) koje su uključivale uzorke pojedinaca bez karcinoma grupirale su sve uzorke raka u jednu skupinu, na dnu je bila zdrava skupina ili skupine, a između njih je ono što je Abu-Asb a kolege zovu prijelaznom zonom. To podiže uzbudljivu mogućnost relativno jednostavnih dijagnoza raka u vrlo ranim fazama razvoja budući da karcinomi imaju predvidljiv filogenetski položaj u odnosu na zdrave i kancerogene uzorke. Obratite pozornost na moć korištenja filogenetike. Takve analize ne ovise o pristupu "čarobnom metku" u dijagnosticiranju složene bolesti, već o korištenju povijesti i evolucije razvoja proteina seruma u stanicama raka kako bi se pružio dijagnostički alat širokog spektra.

Filogenetika i pravo (iz Bull i Wichman 2001). U prosincu 1994. bivšoj ljubavnici liječnika iz Louisiane dijagnosticiran je HIV i hepatitis C. Negativan je test imala samo nekoliko mjeseci prije dijagnoze. Sumnjala je da je izvor liječnik. Budući da je bio HIV negativan, HIV je morao potjecati iz drugog izvora, za kojeg se pokazalo da je jedan od liječnikovih pacijenata, dok je drugi pacijent imao hepatitis C. Filogenetska analiza ženske DNK sekvence HIV -a grupirana je sa sljedećim nizom HIV pacijenata: liječnik je upotrijebio zaprljanu krv u injekciji vitamina koja je ljubavnici dana u kolovozu 1994. Liječnik sada služi 50-godišnju kaznu za pokušaj ubojstva. Baš kao i primjer raka, krajnje podrijetlo HIV nesretnih žena virusa ne ovisi o nekakvom potpunom podudaranju s izvornim uzorkom. HIV se razvija dovoljno brzo da se može postići ili ne postići točno podudaranje. Umjesto toga, ishod je ovisio o stavljanju soja HIV -a žene u povijesni kontekst evolucije HIV -a i pokazivanju povijesnog podrijetla njezina soja, koji je ležao na uzorku drugog pacijenta zločinca.

Globalne klimatske promjene i sudbina vrsta. Svaka vrsta povezana je sa složenim skupom parametara okoliša koji karakteriziraju njenu grinelsku nišu, a koji su u biti opći parametri okoliša koji omogućuju vrsti da živi i napreduje. Ova niša nije neki jedinstveni skup parametara, poput specifičnog raspona temperature i vlage, već složeni skup parametara koji se mogu geografski razlikovati zbog lokalne prilagodbe. Može varirati tijekom vremena i prostora. Mnogi od širih parametara, kao što su maksimalna i minimalna godišnja temperatura, ukupne i sezonske oborine, vegetacijski pokrov i slično, ti su parametri podložni globalnim klimatskim promjenama. Skupovi ovih globalnih parametara okoliša mogu se uspješno koristiti za predviđanje potencijalnih niša vrsta, a tehnologija geografskog informacijskog sustava može se koristiti za projiciranje ovih predviđanja na površinu Zemlje (za dobar pregled, vidi Peterson 2003). To čini predviđanje gdje bi se vrsta mogla potencijalno pronaći, njezin potencijalni raspon. To je korisno za sve vrste stvari, poput predviđanja širenja invazivnih vrsta. Postoje i druge primjene kada se uzme u obzir evolucija niša. Peterson i sur. (1999) istaknuli su da se širi parametri Grinnellian niše dijele među najbližim taksonomskim srodnicima. Odnosno, ove su niše sačuvane tijekom događaja specifikacije i stoga mogu biti stare tisuće, ako ne i milijune godina i zadržane od potomaka drevnih predačkih vrsta. McNyset (2009) je modelirao dinamiku promjene niše u odnosu na eksplicitne filogenije, pokazujući da to nije taksonomska anomalija. Implikacija je jasna: širi aspekti niša vrsta sporo se razvijaju, stopa promjene je sporija od stope specifikacije. To implicira da sposobnost vrsta da se prilagode fenomenima poput globalnih klimatskih promjena može biti vrlo ograničena. Možemo unijeti nišni model vrste u globalni model klimatskih promjena i vidjeti gdje se, u geografskom prostoru, niša pomiče kao odgovor na globalne klimatske promjene (Peterson i sur., 2002.).

Filogenetsko drveće toliko je korisno jer pruža povijesnu priču za objašnjavanje sličnosti i razlika među entitetima postavljenim na stablo. Nije toliko važno da se DNK sekvenca virusa HIV -a oporavljena od žrtve točno podudara s slikom bivšeg pacijenta, važno je da se dva soja pojavljuju na filogenetskom stablu kao bliskiji od ostalih sojeva HIV -a, što ukazuje na to da su imala zajedničko podrijetlo. No, moramo znati točno koje informacije prenose.


Rekonstrukcija neokorjenjenih filogenetskih stabala iz simboličkih trostrukih metrika

Böcker i Dress (Adv Math 138: 105–125, 1998) predstavili su korespondenciju 1-na-1 između simbolički datiranih ukorijenjenih stabala i simbolične ultrametrije. Smatramo odgovarajući problem za neokorjenjena stabla. Točnije, s obzirom na stablo T s postavljenim listovima x i pravilnom bojom vrhova njegovih unutarnjih vrhova, možemo preslikati svaku trojku od tri različita lista u boju njezinog srednjeg vrha. Okarakteriziramo sve ternarne karte koje se na ovaj način mogu dobiti u uvjetima 4 i 5 točaka te pokazujemo da se odgovarajuće stablo i njegovo bojanje mogu rekonstruirati iz trostruke karte koja zadovoljava te uvjete. Nadalje, dajemo dodatni uvjet koji karakterizira je li stablo binarno, te opisujemo algoritam koji rekonstruira opća stabla na način odozdo prema gore.

Ovo je pregled sadržaja pretplate, pristup putem vaše ustanove.


Uzajamno grupiranje informacija

Bodovanje svakog para podjela prema njihovim međusobnim podacima o grupiranju (Smith, 2020) (vidi zasebnu vinjetu) rezultira metrikom udaljenosti stabla temeljenom na informacijama koja prepoznaje sličnost u strukturi stabla čak i kada je svako moguće uparivanje podijeljenih dijelova u sukobu:

Budući da niti jedan par ne-trivijalnih podjela nema nula međusobnih informacija o grupiranju, čak je i različito uparivanje (poput HI | ABCDEFG ⇒ EI | ABCDFGH u nastavku) (malo) bolje od ostavljanja razdjeljka neuparenog.


Sadržaj

S obzirom na dva neokorjenjena stabla čvorova i skup oznaka (tj. Svojti) za svaki čvor (koji bi mogao biti prazan, ali samo čvorovi sa stupnjem većim ili jednakim tri mogu biti označeni praznim skupom) Robinson -Foulds metrički nalazi broj operacija α < displaystyle alpha> i α-1 < displaystyle alpha ^<-1>> za pretvaranje jedne u drugu. Broj operacija određuje njihovu udaljenost. Ukorijenjena stabla mogu se pregledati dodjeljivanjem oznake čvoru lista.

Autori definiraju dva stabla kao ista ako su izomorfna i izomorfizam zadržava označavanje. Konstrukcija dokaza temelji se na funkciji zvanoj α < displaystyle alpha>, koja skuplja rub (kombinirajući čvorove, stvarajući uniju njihovih skupova). Nasuprot tome, α-1 < displaystyle alpha ^<-1>> proširuje rub (dekontrakcija), gdje se skup može podijeliti na bilo koji način.

RF udaljenost odgovara ekvivalentnoj metrici sličnosti koja odražava razlučivost strogog konsenzusa dva stabla, prvi put korištenog za usporedbu stabala 1980. [5]

U svom radu iz 1981. [1] Robinson i Foulds su dokazali da je udaljenost zapravo metrika.

Algoritmi za računanje metrike Uredi

1985. Day je dao algoritam temeljen na savršenom raspršivanju koji izračunava ovu udaljenost koja ima samo linearnu složenost u broju čvorova na stablima. Pokazalo se da je randomizirani algoritam koji koristi hash tablice koje nisu nužno savršene približava Robinson-Fouldsovu udaljenost s ograničenom pogreškom u sublinearnom vremenu.

Određene aplikacije Uređivanje

U filogenetici se metrika često koristi za izračunavanje udaljenosti između dva stabla. Treedist program u paketu PHYLIP nudi ovu funkciju, kao i paket RAxML_standard, biblioteka DendroPy Python (pod nazivom "metrika simetrične razlike") i R paketi TreeDist (`` RobinsonFoulds () `funkcija) i phangorn (` treedist ( ) `funkcija). Za usporedbu skupina stabala, najbrže implementacije uključuju HashRF i MrsRF.

Robinson -Fouldsova metrika također se koristila u kvantitativnoj usporednoj lingvistici za izračunavanje udaljenosti između stabala koja predstavljaju međusobni odnos jezika.

RF metrika i dalje se široko koristi jer je ideja korištenja broja rascjepa koji se razlikuju između para stabala relativno intuitivan način za procjenu razlika među stablima za mnoge sistematičare. To je primarna snaga RF udaljenosti i razlog za njezinu daljnju upotrebu u filogenetici. Naravno, broj rascjepa koji se razlikuju između para stabala ovisi o broju svojti na drveću pa bi se moglo reći da ova jedinica nema smisla. Međutim, jednostavno je normalizirati RF udaljenosti tako da se kreću između nule i jedan.

Međutim, RF metrika također trpi brojne teorijske i praktične nedostatke: [6] [7]

  • U odnosu na druge metrike, nedostaje mu osjetljivost, pa je stoga neprecizan, može uzeti dvije manje različite vrijednosti nego što ima svojti na drvetu. [6] [7]
  • Brzo se zasićuje, vrlo sličnim stablima može se dodijeliti vrijednost najveće udaljenosti. [6]
  • Njegova vrijednost može biti kontraintuitivna. Jedan primjer je da premještanje vrha i njegovog susjeda do određene točke na drvetu generira a niži vrijednost razlike nego da se samo jedan od dva savjeta premjesti na isto mjesto. [6]
  • Njegov raspon vrijednosti može ovisiti o obliku stabla: stabla koja sadrže mnogo neravnih pregrada u prosjeku će upravljati relativno manjim udaljenostima od stabala s mnogo ravnih pregrada. [6]
  • U praksi je lošiji od mnogih alternativnih mjera, zasnovanih na simuliranim stablima. [7]

Još jedno pitanje koje treba uzeti u obzir pri korištenju RF udaljenosti jest da razlike u jednoj kladi mogu biti trivijalne (možda ako klada različito rješava tri vrste unutar roda) ili mogu biti temeljne (ako je klada duboko u stablu i definira dvije temeljne podgrupe, npr. kao sisavci i ptice). Međutim, ovo pitanje nije problem s RF udaljenostima per se, to je općenitija kritika udaljenosti stabala. Bez obzira na ponašanje bilo koje određene udaljenosti stabla, evolucijski biolog bi se mogao sjetiti nekih preslagivanja stabala kao "važnih", a drugih kao "trivijalnih". Daljine stabala alati su koje su najkorisnije u kontekstu drugih informacija o organizmima u drveću.

Ti se problemi mogu riješiti korištenjem manje konzervativnih mjernih podataka. "Generalizirane RF udaljenosti" prepoznaju sličnost između sličnih, ali neidentičnih, dijeli izvornu udaljenost Robinsona Fouldsa nije briga koliko su slične dvije skupine, ako nisu identične, odbacuju se. [4]

Generalizirane Robinson-Fouldsove udaljenosti s najboljim učinkom imaju osnovu u teoriji informacija i mjere udaljenost između stabala u smislu količine informacija koje dijelovi stabala drže zajednički (mjereno u bitovima). [7] Informacijska udaljenost grupiranja (implementirana u R paket TreeDist) preporučuje se kao najprikladnija alternativa udaljenosti Robinson-Foulds. [7]

Alternativni pristup proračunu udaljenosti stabla je korištenje kvarteta, a ne rascjepa, kao osnove za usporedbu stabala. [6]


Sadržaj

Ideja o "drvetu života" proizašla je iz drevnih predodžbi o progresiji nalik ljestvama iz nižih u više oblike života (poput Velikog lanca bića). Rani prikazi "razgranatog" filogenetskog drveća uključuju "paleontološku kartu" koja prikazuje geološke odnose među biljkama i životinjama u knjizi Osnovna geologija, Edward Hitchcock (prvo izdanje: 1840).

Charles Darwin (1859) također je izradio jednu od prvih ilustracija i presudno popularizirao pojam evolucijskog "stabla" u svojoj temeljnoj knjizi Podrijetlo vrsta. Više od stoljeća kasnije, evolucijski biolozi još uvijek koriste dijagrame stabala za prikaz evolucije jer takvi dijagrami učinkovito prenose koncept da se specifikacija događa kroz adaptivno i polu -nasumično cijepanje loza. S vremenom je klasifikacija vrsta postala manje statična i dinamičnija.

Uvjet filogenetski, ili filogenija, potječe od dvije starogrčke riječi φῦλον ( phûlon ), što znači "rasa, loza" i γένεσις ( geneza ), što znači "podrijetlo, izvor". [4] [5]

Ukorijenjeno stablo Uredi

Ukorijenjeno filogenetsko stablo (vidi dvije grafike na vrhu) usmjereno je stablo s jedinstvenim čvorom - korijenom - koje odgovara (obično imputiranom) najnovijem zajedničkom pretku svih entiteta na lišću stabla. Korijenski čvor nema nadređeni čvor, ali služi kao roditelj svih ostalih čvorova u stablu. Korijen je stoga čvor stupnja 2, dok drugi unutarnji čvorovi imaju minimalni stupanj 3 (gdje se "stupanj" ovdje odnosi na ukupan broj dolaznih i odlaznih rubova).

Najčešća metoda za ukorjenjivanje drveća je upotreba nekontroverzne vanjske skupine - dovoljno blizu da dopušta zaključivanje iz podataka o obilježjima ili molekularno sekvenciranje, ali dovoljno daleko da bude jasna vanjska skupina.

Stablo bez korijena Edit

Neukorijenjena stabla ilustriraju srodnost lisnih čvorova bez pretpostavljanja o podrijetlu. Ne zahtijevaju da se korijen predaka pozna ili zaključi. [7] Neukorijenjena stabla uvijek se mogu generirati iz ukorijenjenih jednostavnim izostavljanjem korijena. Nasuprot tome, zaključivanje korijena neokorjenjenog stabla zahtijeva neka sredstva za identifikaciju podrijetla. To se obično čini uključivanjem vanjske grupe u ulazne podatke tako da se korijen nužno nalazi između vanjske skupine i ostatka svojti u stablu ili uvođenjem dodatnih pretpostavki o relativnim stopama evolucije na svakoj grani, kao što je aplikacija hipoteze o molekularnom satu. [8]

Bifurkacija nasuprot multifurkaciji Edit

I ukorijenjeno i neokorjenjeno drveće može biti razdjelno ili višekrako. Ukorijenjeno bifurcirajuće stablo ima točno dva potomka koja proizlaze iz svakog unutarnjeg čvora (to jest, tvori binarno stablo), a neokorjenjeno stablo koje ima oblik ukorijenjenog binarnog stabla, slobodnog stabla s točno tri susjeda na svakom unutarnjem čvoru. Nasuprot tome, ukorijenjeno višekrako stablo može imati više od dvoje djece na nekim čvorovima, a nekorijenjeno višekrako stablo može imati više od tri susjeda na nekim čvorovima.

Označeno u odnosu na neoznačeno Uređivanje

Ukorijenjeno i neokorjenjeno stablo može biti označeno ili neoznačeno. Stablo s oznakom ima posebne vrijednosti dodijeljene lišću, dok neoznačeno stablo, koje se ponekad naziva i stablo, definira samo topologiju. Neka stabla temeljena na nizu izgrađena od malog genomskog mjesta, poput Phylotreea, [9] imaju unutarnje čvorove označene pretpostavljenim haplotipovima predaka.

Nabrajanje stabala Uredi

Broj mogućih stabala za određeni broj lisnih čvorova ovisi o specifičnoj vrsti stabla, ali uvijek ima više označenih nego neoznačenih stabala, više stabala s više stabala nego stabala koja se račvaju i ukorijenjenija od neokorjenjenih stabala. Posljednja razlika je biološki najrelevantnija jer nastaje jer postoji mnogo mjesta na neokorjenjenom stablu gdje se može staviti korijen. Za bifurcirana označena stabla, ukupan broj ukorijenjenih stabala je:

Za bifurcirana označena stabla, ukupan broj neokorjenjenih stabala je: [10]

Brojanje drveća. [10]
Označen
lišće
Binarni
neokorjenjeno drveće
Binarni
ukorijenjeno drveće
Višenamjenski
ukorijenjeno drveće
Sve moguće
ukorijenjeno drveće
1 1 1 0 1
2 1 1 0 1
3 1 3 1 4
4 3 15 11 26
5 15 105 131 236
6 105 945 1,807 2,752
7 945 10,395 28,813 39,208
8 10,395 135,135 524,897 660,032
9 135,135 2,027,025 10,791,887 12,818,912
10 2,027,025 34,459,425 247,678,399 282,137,824

Uređivanje dendrograma

Dendrogram je opći naziv za drvo, bilo filogenetsko ili ne, pa stoga i za dijagramski prikaz filogenetskog stabla. [11]

Uređivanje kladograma

Kladogram samo predstavlja obrazac grananja, tj. Njegove duljine grana ne predstavljaju vrijeme ili relativnu količinu promjene znaka, a njegovi unutarnji čvorovi ne predstavljaju pretke. [12]

Uređivanje filograma

Filogram je filogenetsko stablo koje ima duljine grana proporcionalne količini promjene znakova. [14]

Kronogram je filogenetsko stablo koje eksplicitno predstavlja vrijeme kroz njegove duljine grana. [15]

Dahlgrenogram Uređivanje

Dahlgrenogram je dijagram koji predstavlja presjek filogenetskog stabla

Filogenetska mreža Uredi

Filogenetska mreža nije strogo govoreći stablo, već općenitiji graf ili usmjereni aciklički graf u slučaju ukorijenjenih mreža. Koriste se za prevladavanje nekih ograničenja svojstvenih drveću.

Dijagram vretena Uređivanje

Dijagram vretena ili dijagram mjehurića često se naziva romerogram, nakon što ga je američki paleontolog Alfred Romer popularizirao. [16] Predstavlja taksonomsku raznolikost (horizontalna širina) u odnosu na geološko vrijeme (okomita os) kako bi odražavala promjenu obilja različitih svojti kroz vrijeme. Međutim, dijagram vretena nije evolucijsko stablo: [17] taksonomska vretena zamagljuju stvarne odnose roditeljskog taksona prema taksonu kćeri [16] i imaju nedostatak uključivanja parafilije roditeljske skupine. [18] Ova vrsta dijagrama više se ne koristi u izvorno predloženom obliku. [18]

Koralj života Edit

Darwin [19] je također spomenuo da je koraljni može biti prikladnija metafora od stablo. Doista, filogenetski koralji korisni su za prikazivanje prošlog i sadašnjeg života, a imaju i neke prednosti u odnosu na drveće (dopuštene anastomoze itd.). [18]

Filogenetska stabla sastavljena s netrivijalnim brojem ulaznih sekvenci konstruirana su računalnim metodama filogenetike. Metode matrice udaljenosti, poput spajanja susjeda ili UPGMA, koje izračunavaju genetsku udaljenost od više poravnanja sekvenci, najjednostavnije su za implementaciju, ali ne pozivaju na evolucijski model. Mnoge metode poravnavanja slijedova, poput ClustalW, također stvaraju stabla korištenjem jednostavnijih algoritama (tj. Onih koji se temelje na udaljenosti) konstrukcije stabla. Maksimalna štedljivost je još jedna jednostavna metoda procjene filogenetskih stabala, ali podrazumijeva implicitni model evolucije (tj. Štedljivost). Naprednije metode koriste kriterij optimalnosti najveće vjerojatnosti, često unutar Bayesovog okvira, i primjenjuju eksplicitan model evolucije na procjenu filogenetskog stabla. [3] Identifying the optimal tree using many of these techniques is NP-hard, [3] so heuristic search and optimization methods are used in combination with tree-scoring functions to identify a reasonably good tree that fits the data.

Tree-building methods can be assessed on the basis of several criteria: [20]

  • efficiency (how long does it take to compute the answer, how much memory does it need?)
  • power (does it make good use of the data, or is information being wasted?)
  • consistency (will it converge on the same answer repeatedly, if each time given different data for the same model problem?)
  • robustness (does it cope well with violations of the assumptions of the underlying model?)
  • falsifiability (does it alert us when it is not good to use, i.e. when assumptions are violated?)

Tree-building techniques have also gained the attention of mathematicians. Trees can also be built using T-theory. [21]

File formats Edit

Trees can be encoded in a number of different formats, all of which must represent the nested structure of a tree. They may or may not encode branch lengths and other features. Standardized formats are critical for distributing and sharing trees without relying on graphics output that is hard to import into existing software. Commonly used formats are

Although phylogenetic trees produced on the basis of sequenced genes or genomic data in different species can provide evolutionary insight, these analyses have important limitations. Most importantly, the trees that they generate are not necessarily correct – they do not necessarily accurately represent the evolutionary history of the included taxa. As with any scientific result, they are subject to falsification by further study (e.g., gathering of additional data, analyzing the existing data with improved methods). The data on which they are based may be noisy [22] the analysis can be confounded by genetic recombination, [23] horizontal gene transfer, [24] hybridisation between species that were not nearest neighbors on the tree before hybridisation takes place, convergent evolution, and conserved sequences.

Also, there are problems in basing an analysis on a single type of character, such as a single gene or protein or only on morphological analysis, because such trees constructed from another unrelated data source often differ from the first, and therefore great care is needed in inferring phylogenetic relationships among species. This is most true of genetic material that is subject to lateral gene transfer and recombination, where different haplotype blocks can have different histories. In these types of analysis, the output tree of a phylogenetic analysis of a single gene is an estimate of the gene's phylogeny (i.e. a gene tree) and not the phylogeny of the taxa (i.e. species tree) from which these characters were sampled, though ideally, both should be very close. For this reason, serious phylogenetic studies generally use a combination of genes that come from different genomic sources (e.g., from mitochondrial or plastid vs. nuclear genomes), [25] or genes that would be expected to evolve under different selective regimes, so that homoplasy (false homology) would be unlikely to result from natural selection.

When extinct species are included as terminal nodes in an analysis (rather than, for example, to constrain internal nodes), they are considered not to represent direct ancestors of any extant species. Extinct species do not typically contain high-quality DNA.

The range of useful DNA materials has expanded with advances in extraction and sequencing technologies. Development of technologies able to infer sequences from smaller fragments, or from spatial patterns of DNA degradation products, would further expand the range of DNA considered useful.

Phylogenetic trees can also be inferred from a range of other data types, including morphology, the presence or absence of particular types of genes, insertion and deletion events – and any other observation thought to contain an evolutionary signal.

Phylogenetic networks are used when bifurcating trees are not suitable, due to these complications which suggest a more reticulate evolutionary history of the organisms sampled.


Metode

We present our approach for prioritizing populations in three steps. First, we briefly review the various approaches for measuring diversity and evolutionary isolation on bifurcating trees of taxa. We then review the properties of NeighborNet networks as a representation of pairwise evolutionary distances and describe how to prioritize taxa by their expected contribution to biodiversity. In File S1, we outline efficient algorithms for estimating evolutionary isolation on NeighborNet networks. Finally, we illustrate the new method of population prioritization using two small published datasets.

(i) Diversity measures on trees and networks

The concept of evolutionary isolation can be understood in terms of a species' biological distinctiveness, which we might measure by comparing its adaptive or non-adaptive traits to those of related species. More generally, our goal is to measure a taxon's contribution to the current and/or future “diversity” in a set of taxa. Several different approaches for quantifying such diversity have been proposed. One of the earliest, described by Weitzman [23], is expected diversity. Rather than score taxa individually, this approach seeks to identify the set of taxa that will retain the most diversity on a future tree, given some measure of diversity and a probability of persistence for each potential combination of taxa. Although Weitzman's original diversity metric was rather general, he did consider an example of biological character-state differences that could be represented on a phylogenetic tree.

On such a tree, every taxon contributes an amount of unique evolutionary information denoted by the length of the branch (or edge) linking it to all other taxa (Figure 1) [6], [23]. This length may be calibrated in units of time (npr., millions of years) or in raw or inferred genetic distances. Looking specifically at biological systems, Witting and Loeschcke [29] and Faith and Walker [30] combined Weitzman's [23] expected diversity framework with Faith's [6] concept of phylogenetic diversity (PD), the latter which specifically calculates the sum of all branch lengths on a tree (see next section). Like Weitzman [23], this expected PD approach can be used to identify a set of taxa that maximizes the amount of total tree length retained, given a set of extinction probabilities for the tips.

The related k of n problem [6] seeks to identify the most diverse subset of k taxa (tj., the one that maximizes PD) on a tree of size . Faith [31] and Weitzman [32] explored the special case where , which Faith [33] refers to as the PD complementarity of a given taxon.

An independently-derived approach based on Game Theory ([10], first published 2005) explicitly considers the individual contribution of each taxon to future diversity. Like Weitzman's [23] expected diversity framework, all possible subsets of taxa on a tree may persist. By calculating the amount of unique information each taxon contributes to future subsets (tj., the average length of the edge linking the taxon to all possible future trees), one can rank taxa in order of their relative impact on future diversity. Ovaj Shapley metric (SH) is almost identical to the ad-hoc evolutionary distinctness (ED) metric used by the Zoological Society of London in their Edge of Existence programme (www.edgeofexistence.org). The major difference between the two is that the ED metric is explicitly measured on a rooted tree, as opposed to the more general undirected graph that SH takes as input [34].

The Shapley metric was further refined by Steel et al. [35] and named HED (for heightened evolutionary distinctiveness). HED is the expected contribution of a given taxon to future subsets of taxa where the subsets are weighted by their probability of persistence. In this case, the focal taxon is assumed to persist (tj., its probability of extinction does not affect its HED score). On trees, HED is formally equivalent to a form of PD complementarity where the contribution of a taxon is measured with respect to all possible subsets, each weighted by their probability of persistence [33]. Weitzman [32] also arrived at this formulation ten years earlier, which he termed the “distinctiveness” of a taxon, in the context of his “Noah's Ark Problem” of biodiversity preservation. Using Faith's [33] terminology, HED, which combines the concepts of expected PD with PD complementarity, might be considered expected PD complementarity.

As a final antecedent, Minh et al. [24], [25], [36] extended PD to phylogenetic networks and presented algorithms for solving the k od n problem to maximize diversity for a given subset size. They referred to this metric as split diversity (SD).

In this context it should be possible to measure the PD contribution of individual taxa on a phylogenetic network. Critically for our purposes, the two metrics we use here (SH and HED) do not require a rooted phylogenetic tree, and so can be adapted to networks in the same way that PD indices can [24], [25], [27], [36]. SH and HED are formally defined in File S1 and discussed further below. In short, if we do not have probabilities of extinction for taxa, we assume all future subsets of taxa are equally likely, and calculate SH. If we can estimate (even broadly) the probabilities of persistence of all taxa, we can weight future subsets by their probability, and use HED.

(ii) Interpreting phylogenetic networks, Shapley values, and HED

NeighborNet [26] is a method that permits the representation of pairwise distances between taxa in the form of a network. An important property of NeighborNet networks is that they permit the representation of relationships among the underlying taxa that cannot be depicted on any phylogenetic tree. For example, to the extent that populations exchange migrants, the between-population genetic distance data (ŽSV) may yield many alternative trees, none of which accurately reflect the actual relationships among these populations (npr., [37]). The NeighborNet framework, by contrast, accommodates for such phylogenetic uncertainty and will always yield a single network with positive edge lengths, permitting calculation of SH and HED. If a pairwise distance matrix is tree-like (tj., yields only one possible phylogeny) the resulting NeighborNet output will resemble a phylogenetic tree. Where there is no tree-like history, a network representation should be more informative. Indeed, for many distance matrices (including Example A below, results not shown), the assumptions necessary to produce a tree are not met, and a neighbor-joining tree, for example, produces negative edge lengths. Here, a network representation would definitely be preferred [26].

An example of a very simple matrix of pairwise distances and the resulting network is depicted in Figure 1. Each edge or set of parallel edges in the network corresponds to a partition of the underlying set of taxa into two non-overlapping subsets, called a podjela ( ). The edge length reflects the težina of the split ( )—in other words, a component of the pairwise distance (ŽSV, for example) separating any two taxa. Thus, just as a phylogenetic tree represents a collection of weighted splits ( ) [38], where each branch of the tree denotes a split, a NeighborNet network represents a weighted collection of splits of the underlying set of taxa. As Figure 1 illustrates, the distance between two tips on a network (tj., the shortest path between two taxa) represents the observed distance in the distance matrix.

Whether represented on a tree or a network, every split system contains information on the overall diversity of its constituent taxa [5], [23]. The conservation planning metric phylogenetic diversity (PD) [6] can be calculated for split systems as

where is a subset of taxa on the tree or network and is the weight of the split between two non-overlapping groups and of taxa. Note that the overall PD for both trees [6], [39] and networks [24], [25], [36] is simply the sum of all split weights (Figure 1).

A very simple approach for measuring an individual taxon's PD contribution, illustrated in Figure 1, is to consider the change in PD when this taxon is removed from the tree or network [40]. Ovaj PD complementarity (PD_c) metric can be expressed as

where is the set of all taxa in the tree or network and is the subset where a given taxon has been removed from the underlying distance matrix.

We can also extend the metrics SH and HED from trees to NeighborNet networks using similar ideas for extending PD calculations from trees (npr., [6], [27], [29]) to networks (npr., [24], [25], ). On a tree, the Shapley value ( ) for taxon can be defined as the mean split weight of the set of splits defining , where represents all unique possible subsets of the taxon set that do not contain . Importantly, Haake et al. [10] present a formal proof that the Shapley value for can also be calculated as a weighted sum of all the edge lengths on a tree, with the weights determined by the sizes of the sets containing . This can be presented compactly using split notation as

where is the set of splits defined by the network and their weights, is the total number of taxa, is the size of a split set containing the taxon , is the size of the complementary set that does not contain , and (following the notation from Minh et al. [24], [25]) is the split weight, equal to the edge length separating from . To calculate the Shapley value for taxon in the network in Figure 1, we take the first split to be composed of and and , the second split to be composed of and and and so on. With a taxon set containing six elements, and the Shapley value for taxon is 0.870 (Figure 1).

As with a phylogenetic tree, the sum of Shapley values will always equal the sum of all parallel split weights in the network. Because the shape of a network reflects the relative distances among its taxa, we should expect outlying taxa (tj., those connected to the rest of the network by long edges, like taxon ) to show higher values for . Thus, the Shapley values calculated for a network can reflect the relative degree of isolation of each taxon based on molecular, morphological, or any other relevant distance measure.

Though conceptually similar, the calculation of HED ( ) is somewhat more complex, as it accounts for differences in the probability of extinction for each taxon:

Here , the first product operator considers for every taxon in but excludes for taxon itself [27], [35]. The second product operator considers for every taxon in . Unlike SH, the sum of HED scores will not equal the sum of split weights in the split system. We also note that will influence HED more strongly than for outlying taxa. Thus, the ranking order for highly isolated populations should be similar for SH and HED, regardless of which populations have a higher extinction probability.

A more detailed mathematical treatment of the SH and HED metrics and efficient algorithms for their computation are given in File S1. For the datasets in this paper, we used the implementation of NeighborNet in the SplitsTree software package [41] to compute networks. For a given matrix of pairwise distances, this yields the network together with the corresponding collection of weighted splits. We also developed custom R scripts (available in File S1) [42] to compute SH and HED on the outputs from SplitsTree.

(iii) Application

We present SH and HED ranking for two datasets based on putatively neutral genetic markers. In the first example (A), the size of each population (and hence the probability of extinction for each population) is not known. In the second example (B), population sizes are known, allowing us to estimate separate probabilities of extinction for each population.

We selected our two examples based on the following criteria: (1) The species as a whole is of conservation interest (tj., vulnerable, endangered, or critically endangered), (2) its distribution is fragmented (tj., we can define multiple populations), (3) sampling efforts have covered its entire range, and (4) genetic analyses have been published or the raw sequence data made publicly available.

Readers should note that the primary goals of this article are to introduce and illustrate our network ranking approach, not to advocate new management decisions for the taxa described below.

Example A.

Spotted owls (Strix occidentalis) are distributed throughout late-succession conifer forests in western North America [43]. Four subspecies are currently recognized (Figure 2a): S. o. caurina from southern British Columbia to northwest California, S. o. occidentalis in California and Nevada, S. o. lucida in Utah, Colorado, Arizona, New Mexico, and northern Mexico, and S. o. juanaphillipsae in central Mexico [44], [45]. Populations in the United States continue to decline due largely to poor timber harvesting practices, but also as a result of climate change and the westward expansion of barred owls (S. varia Barton 1799) [46]. S. o. caurina (the northern spotted owl) and S. o. lucida (the Mexican spotted owl) are threatened subspecies under the United States' Endangered Species Act, and S. o. occidentalis (the California spotted owl) is a subspecies of special concern in the state of California [47]. Spotted owls in the American Southwest “sky islands” (mostly S. o. lucida) are particularly fragmented and perhaps most suitable for population-level conservation [48]. Although genetic data for the Mexican subspecies remain poor, we can construct a reasonably complete representative phylogenetic network for subspecies in the United States.

(a) Distribution of spotted owls in the United States and the populations sampled by Barrowclough et al. [48], [51]. Shaded areas denote suitable habitat based on forest cover data [73]. Colors denote the subspecies S. o. caurina (plava), S. o. occidentalis (zelena), i S. o. lucida (naranča). Populations 31 and 32 represent the S. o. juanaphillipsae subspecies in Mexico (range not shown). (b) NeighborNet of sampled populations based on mtDNA differentiation (pairwise ΦSV values). (c) Histogram of SH values, highlighting the populations with the highest scores. See Table 1 for an explanation of abbreviations used.

Spotted owl mitochondrial sequences were obtained from Genbank (accession numbers AY833608–AY833644, AY836774–AY836776, DQ230843–DQ230888) and aligned in Mega v. 5 [49] using MUSCLE [50]. These sequences comprise about 1105 bp of the control (D-loop) region and represent 86 haplotypes from 32 populations in the United States and Mexico (Figure 2b Table 1) [48], [51]. We ran a standard analysis of molecular variance (AMOVA) [52] on all 298 aligned sequences in Arlequin v. 3.5 [53] using the Kimura 2-Parameter model [54] to compute distances among haplotypes (ΦSV). This procedure generated a pairwise differentiation matrix for the 32 populations (Table S1). A NeighborNet based on this matrix (Figure 2b) [26] was then constructed in SplitsTree v. 4.11 [41] under default assumptions. Negative ΦSV values were treated as being equal to zero. Because the size of each population is not known, for the purposes of illustration, we gave each population an extinction probability when calculating HED—an approach similar to the “PD50” metric used by FISHBASE (www.fishbase.org) [55].

Example B.

Mountain pygmy-possums (Burramys parvus) are alpine specialists restricted to three small regions of the Australian Alps (Figure 3a). The species depends on block streams and block fields found above 1,400 meters—habitats less than 10 km 2 in total extent [56]. The areas where mountain pygmy-possums still occur are particularly sensitive to destruction and fragmentation. Surveys conducted in the 1990s estimated the adult population size to be 2,600 [57]. A decade later this number had decreased to below 2,000 [56], with signs of continued decline [58]. At present, the IUCN lists mountain pygmy-possums as critically endangered [59].

(a) Distribution of mountain pygmy-possums in Australia (gray inset), showing populations sampled by Mitrovski et al. [58]. Shaded areas denote suitable habitat above 1,400 m. (b) NeighborNet of sampled populations based on microsatellite differentiation (pairwise ŽSV values). (c) Histograms of SH and HED values, highlighting the populations with the highest scores. See Table 2 for an explanation of abbreviations used.

Because of its restricted distribution and high extinction risk, the species has been subject to extensive population genetic research [58], [60]–[62]. Unlike our example with spotted owls, direct estimates of population sizes are available, within-population sample sizes are uniformly large, and genetic data are available across the mountain pygmy-possums' entire range. This provides us with an opportunity to compare SH to HED and assess the effect of variable population sizes on conservation ranking.

We used a published matrix of genetic differentiation (ŽSV) based on data from 8 microsatellite loci [58] to construct a phylogenetic network for 13 mountain pygmy-possum populations (Figure 3b). Our methods for generating NeighborNet outputs, and for computing SH and HED, were the same as above.

We modeled the probabilities of extinction for individual populations ( ) of a given size ( ) as a negative exponential

where the constant of proportionality is , with being the probability that the entire species goes extinct and being the total census size of the species (the sum of ). We used a conservative 100-year extinction probability for the entire species, , to derive HED (see [63]).


The reliability of a phylogenetic inference method from genomic sequence data is ensured by its statistical consistency. Bayesian inference methods produce a sample of phylogenetic trees from the posterior distribution given sequence data. Hence the question of statistical consistency of such methods is equivalent to the consistency of the summary of the sample. More generally, statistical consistency is ensured by the tree space used to analyse the sample.

In this paper, we consider two standard parameterisations of phylogenetic time-trees used in evolutionary models: inter-coalescent interval lengths and absolute times of divergence events. For each of these parameterisations we introduce a natural metric space on ultrametric phylogenetic trees. We compare the introduced spaces with existing models of tree space and formulate several formal requirements that a metric space on phylogenetic trees must possess in order to be a satisfactory space for statistical analysis, and justify them. We show that only a few known constructions of the space of phylogenetic trees satisfy these requirements. However, our results suggest that these basic requirements are not enough to distinguish between the two metric spaces we introduce and that the choice between metric spaces requires additional properties to be considered. Particularly, that the summary tree minimising the square distance to the trees from the sample might be different for different parameterisations. This suggests that further fundamental insight is needed into the problem of statistical consistency of phylogenetic inference methods.