Informacija

Numatomas laikas, kai neutralus alelis pasieks $ p_1 $ dažnį, kai prasidės $ p_0 $ dažniu


Kimura ir Ohta (1968) parodė, kad numatomas neutralaus alelio fiksacijos laikas (atsižvelgiant į tai, kad jis pasieks fiksaciją) yra

$$ bar t (p_0) =-4N kairė ( frac {1-p_0} {p_0} right) ln (1-p_0), $$

kur $ p_0 $ yra pradinis dažnis, o $ N $ - populiacijos dydis.

Ar, remdamiesi jų darbu, galime apibendrinti šį rezultatą, kad apskaičiuotume numatomą laiką, kurį reikia pasiekti, kai bus pasiektas $ p_1 $ dažnis (atsižvelgiant į tai, kad šis dažnis bus pasiektas tam tikru momentu), kai $ p_1 $ nebūtinai yra lygus 1 $?


Atsakymas į paprastą anglų kalbą:

Aš parašiau kompiuterio funkciją, kuri imituoja neutralią evoliuciją, kad išspręstų šią problemą. Tai nėra tikslus matematinis atsakymas, tačiau iš esmės tai yra tas pats metodas, kurį Kimura ir Ohta priėmė (antroje pusėje), išskyrus tai, kad mano kompiuteris yra galingesnis už jų, todėl modeliuodamas galėčiau gauti daug tikslesnius įvertinimus daugiau gyventojų nei jie.

Pirmasis paveikslas yra santykio tarp P0 ir tikėtino laiko pasiekti P1 santykis, esant skirtingoms P1 reikšmėms (pagal stulpelį) ir skirtingiems gyventojų dydžiams (pagal eilutę). Akivaizdu, kad tie patys ryšiai tarp P0, P1 ir tikėtino laiko pereiti nuo P0 iki P1 matomi kiekviename populiacijos dydyje, tačiau turint didesnę populiaciją, turėtumėte tikėtis ilgesnio laiko pereiti nuo P0 iki P1.

Kai P0 ir P1 yra arti vienas kito, paprastai tikitės trumpesnio laiko pereiti nuo P0 iki P1 nei tada, kai P0 ir P1 yra toli vienas nuo kito. Galite galvoti apie tai kaip taisyklę, pvz., „Kelionė užtrunka ilgiau“. Numatomas laikas, per kurį reikia pereiti nuo P0 iki P1, yra trumpesnis, kai P0 ir P1 yra toje pačioje 0,5 pusėje, kaip ir vienas kitas, o P1 yra toliau nuo 0,5, nei P0, nei tada, kai P0 yra toliau nuo 0,5, nei P1. Galite galvoti apie tai kaip taisyklę, pvz., „Greičiau keliauti, kai esate arčiau fiksavimo ar išnykimo, nei būdami vidutiniuose dažniuose“.

Pirmas paveikslas: Numatomas neutralaus alelio laikas pereiti nuo dažnio P0 prie dažnio P1, atsižvelgiant į P0 skirtumus, pavaizduotus pagal P1 ir populiacijos dydį. Modeliuojami P0 ir P1 dažniai yra 0,1, 0,3, 0,5, 0,7 ir 0,9. Modeliuojami populiacijos dydžiai yra N = 10, N = 50 ir N = 100. Kiekvienas poskyris vaizduoja vieną P1 ir populiacijos dydžio derinį, kai P1 didėja iš kairės į dešinę, o populiacijos dydis didėja iš apačios į viršų. Visi lūkesčiai apskaičiuoti iš 10 000 imituotų gyventojų.

Kai kurioms populiacijoms pereiti nuo P0 iki P1 užtrunka ilgiau nei kitoms. Paprastai daugumai populiacijų reikia nedaug kartų, kad pasiektų P1, o mažesniam skaičiui - daug laiko, tačiau labai nedaugelis gali užtrukti labai ilgai.

Pridėjau savo kodą, taigi, jei žinote, kaip naudoti R, galite jį naudoti, kad apskaičiuotumėte numatomą laiką nuo P0 iki P1 bet kokiam P0, P1 ir populiacijos dydžio deriniui.

Papildoma informacija ir prielaidos, susijusios su techniškai linkusiais:

Aktuali teorija:

Diploidinėje, lytiškai dauginamoje populiacijoje, kurios dydis $ N $, yra 2N $ USD tam tikro lokuso kopijų. Kiekvieną lokusą užima koks nors alelis. Visi mūsų interesų vietos variantai yra selektyviai neutralūs. Savo tikslais galime manyti, kad kiekvieną lokusą užima arba mūsų dominantis alelis ($ A $), arba kitas variantas ($ a $), neatsižvelgiant į „kitų“ alelių kitimą. $ A $ kopijų skaičius populiacijoje proceso pradžioje, $ A | t = 0 $, pateikiamas $ 2N*P0 $.

Tarkime, kad populiacijos dydis yra pastovus ($ Nt+1 = Nt $ visiems $ t $) ir kad poravimas yra atsitiktinis. Darysime prielaidą, kad kartos yra skirtingos. Tegul $ t = 1 $ gimsta pirmoji karta ir pan.

Laukiamas $ A $ kopijų skaičius tuo metu $ t+1 $ pasiskirsto binomiškai:

$ At+1 $ yra platinamas $ Binom (2N, At/(2N)) $

Kadangi mes turime $ At → At+1 $ perėjimo taisyklę, tai yra gana paprasta imituoti populiacijas, kurios išgyvena tokią evoliuciją. Parašiau R funkciją neutralFPT, kad atlikčiau šį modeliavimą ir įvertinčiau visų populiacijų, kurios tam tikru savo istorijos momentu pasiekia $ P1 $, proporciją, tikėtiną laiką, kol neutralus alelis pasieks $ P1 $ nuo $ P0 $, atsižvelgiant į tai, kad jis pasieks $ P1 $, o laiko pasiskirstymas, kad pasiektų $ P1 $, atsižvelgiant į tai, kad gyventojų skaičius pasieks $ P1 $. Scenarijus pateikiamas paskutiniame šio atsakymo skyriuje.

Pirmojo praėjimo laiko tikimybės tankis:

Pirmojo praėjimo laiko tikimybės tankiai, palyginti su tikėtinomis $ P0 $, $ P1 $ ir $ N $ vertėmis, laikosi panašios struktūros-vienodai arti kairiosios paraštės, o ilgos dešinės uodegos ilgesnis pirmojo praėjimo laikas (2 pav.) .

2 paveikslas: pirmojo praėjimo laiko tikimybės tankiai nuo P0 iki P1 esant skirtingoms P0, P1 ir N vertėms. A: P0 = 0,5, P1 = 0,9, N = 50; B: P0 = 0,9, P1 = 0,5, N = 50; C: P0 = 0,5, P1 = 0,9, N = 500.

Funkcija: neutralFPT, su naudojimo pavyzdžiais.

## ši funkcija imituoja kartų skaičių, reikalingą # neutraliam aleliui atsitiktinėje populiacijoje pereiti nuo pradinės dalies P0 iki galutinės # dalies P1, atsižvelgiant į tai, kad jis tam tikru # momentu pasieks P1. Alelių dažniai nėra modeliuojami po taško #, kai pasiekiamas P1. ## neutralFPT buvo sukurtas atsakant į šios svetainės naudotoją Remi.b, adresu # http://biology.stackexchange.com/questions/30812/expected-time-for-a-neutral-allele-to-reach-a-frequency -of-p-1-when-start-a ## neutralFPT parašė Shane Baylis, 2015 # R versijai 3.2.2 neutraliFPT <-funkcija (P0, P1, N, niter) {tOut <-c (rep ( NaN, niter)) # sukurkite tuščių t reikšmių vektorių stop ("P0 ir P1 nustatyta ta pati vertė!"), jei (P0 == 0 | P0 == 1) stop ("P0 nustatytas kaip nulis arba vienas, todėl jo dažnis negali keistis!"), jei (P0 < 0 | P0> 1) stop („P0 turi būti tarp nulio ir vieno“), jei (P1 <0 | P1> 1) stop („P1 turi būti tarp nulio ir vieno“) ## išsiaiškinkite, ar einate aukštyn arba žemyn, jei (P1> P0) { # ty, mūsų tikslas viršija mus (i 1: niter) {NAllele <- apvalus (2*(P0*N)) Tikslas <- apvalus (2*(P1*N) )) t <- 0 o (NAllele  = Tikslas) {statOut [i] <- 1 ## 1 rodo, kad P1 įvyko [i] <- t } else {statOut [i] <- 0 tOut [i] <- Inf}}} else {## ie, mūsų tikslas yra žemiau mūsų (i in 1: niter) {NAllele <- round (2*(P0* N)) Tikslas <- apvalus (2*(P1*N)) t <- 0, o (NAllele> Tikslas &&NAllele! = 0 &&NAllele! = 2*N) {t <- t+1 NAllele <- rbinom ( 1, 2*N, (NAllele/(2*N)))}} jei (NAllele <= Tikslas) {statOut [i] <- 1 ## 1 rodo, kad P1 įvyko tOut [i] <- t} else {statOut [i] <- 0 tOut [i] <- Inf}}} sėkmės <- suma (statOut) # populiacijų, kuriose buvo pasiektas # P1, skaičius propSuccesses <- sėkmės / niter # populiacijų dalis #, kurioje P1 buvo pasiekta successTimes <- pogrupis (tOut, statOut == 1) numatomasFPT <- vidutinis (successTimes) medianaFPT <- mediana (successTimes) outs <- sąrašas (successes = successes, propSuccesses = propSuccesses, successTimes = successTimes, numatomasFPT = numatomasFPT, medianFPT = medianFPT, trial = niter) return (outs)} # funkcija close ## neu tralFPT pavyzdžiai ######################################## # sim <- neutralFPT (0,5, 0,9, 500, 10000) sim $ numatomasFPT # Skaitinis. rodo numatomą (t. y. vidutinį) pirmojo praėjimo # laiką nuo P0 iki P1 kartų, atsižvelgiant į tai, kad # populiacija pasiekė P1. sim $ medianFPT # Sveikasis skaičius. Rodo vidutinį pirmojo praėjimo laiką nuo P0 iki P1, # kartų, atsižvelgiant į tai, kad populiacija pasiekė P1. sim $ propSuccesses # Sveikasis skaičius. Imituotų populiacijų, kurios # pasiekė P1, dalis. Kitos populiacijos pasiekė A fiksaciją arba išnyko nepasiekusios P1. sim $ successTimes # Vektorius. Kartų, kurių reikia P1, # visoms populiacijoms, kurios pasiekė P1, skaičius. hist (sim $ successTimes, xlab = "Pirmojo perėjimo laikas (kartos)", main = paste (sim $ sėkmės, "sėkmės iš", sim $ bandymai, "populiacijos")) ## pirmojo praėjimo laiko histograma PZero <- c (rep (c (0,1, 0,3, 0,5, 0,7, 0,9), 15)) POne <- c (rep (c (rep (0,1,5), rep (0,3,5), rep (0,5,5), rep (0,7,5), rep (0,9,5)), 3)) PopSize <- c (rep (10,25), rep (50,25), rep (100,25)) FPT <- c (rep (NaN, ilgis (prasideda))) testFrame <- data.frame (PZero, POne, PopSize, FPTs) testFrame <- pogrupis (testFrame, starts! = Baigiasi) (s in 1: nrow (testFrame)) {sim < - su (testFrame, neutralFPT (PZero [s], POne [s], PopSize [s], 10000)) testFrame $ FPTs [s] <- sim $ gaidomasFPT} ## numatomas pirmojo praėjimo laikas nuo P0 iki P1 P0, P1 ir populiacijos dydžio verčių įvairovė. Įverčiai pateikiami į # lentelę, vadinamą testFrame. reikalauti (gardelės) su (testFrame, dotplot (FPTs ~ PZero | POne*PopSize, main = "Numatomas pirmojo praėjimo laikas pagal P0, P1 ir populiacijos dydį", xlab = "pradinis dažnis (P0)")) ## generuoja grotelių grafikas, naudojamas kaip # 1 pav.

Kai kurios demografinio stochastiškumo pasekmės populiacijos genetikoje

Didžioji populiacijos genetikos dalis yra pagrįsta Wright -Fisher modelio difuzijos riba, kuri numato fiksuotą populiacijos dydį. Ši prielaida pažeidžiama daugumoje natūralių populiacijų, ypač mikrobų. Čia mes tiriame tikroviškesnį modelį, kuris atsieja gimimo ir mirties įvykius ir leidžia stochastiškai skirtingą populiacijos dydį. Pagal šį modelį klasikiniai dydžiai, tokie kaip tikimybė ir laikas iki mutanto alelio fiksavimo, gali labai skirtis nuo jų Wright -Fisher lūkesčių. Be to, išvados apie natūralią atranką, pagrįstos Wright -Fisher prielaidomis, gali padaryti klaidingas ir netgi prieštaringas išvadas: esant mažam gyventojų tankumui, vienas alelis atrodys pranašesnis, o esant dideliam tankiui - kitas alelis. Todėl konkurencijos tyrimai laboratorinėmis sąlygomis gali neatspindėti ilgalaikės evoliucijos šioje srityje rezultatų. Šie rezultatai pabrėžia demografinio stochastiškumo įtraukimo į pagrindinius populiacijos genetikos modelius svarbą.

MATEMATINIAI alelių dažnių aprašymai paprastai grindžiami Wright -Fisher modeliu (W dešinėje 1931 F isher 1958) arba, tiksliau, jo sklaidos riboje (K imura 1962 E wens 2004). Šis modelis yra Kimura darbo dėl fiksavimo tikimybių (K imura 1955), Ewenso mėginių ėmimo formulės (E wens 1972 L essard 2007), Kingmano susiliejimo (K ingman 1982), neutralumo testų (H udson) pagrindas. ir kt. 1987 m. T ajima 1989 m. C d onaldas ir K reitmanas 1991 F u ir L i 1992 F ay and W u 2000) ir mutacijų dažnio bei atrankos spaudimo nustatymo metodai (S awyer ir H artl 1992 Y ang and B ielawski 2000 B ustamante ir kt. 2001).

Wright -Fisher modelis buvo apibendrintas atsižvelgiant į įvairias komplikacijas, tokias kaip atsitiktinis poravimasis, migracija ir daugybė lokusų (E wens 2004 D urrett 2009). Standartinė Kimura difuzinė aproksimacija (K imura 1962 E wens 2004) ir jos susiliejimas (K ingman 1982) nepaprastai patikimai pažeidžia pagrindines modelio prielaidas. Pvz., Kai populiacija yra stratifikuota arba kai populiacijos dydis greitai ir nepriklausomai nuo genetinės populiacijos sudėties kinta, alelių dažnio dinamika vis dar yra tiksliai suderinta pagal Wright -Fisher difuziją, tinkamai keičiant laiko skalę arba pasirinkus veiksmingą populiacijos dydžio (E wens 1967 O tto ir W hitlock 1997 W akeley 2005, 2009). Tiesą sakant, dauguma populiacijos genetinių modelių, įskaitant Morano procesą (1958 m.), Sąlyginio Karlino išsišakojimo procesą (K arlin ir M c G regor 1964 m.) Ir kai kuriuos Cannings procesus (C annings 1974 E wens 2004) yra vienodi. difuzijos riba kaip Wright -Fisher modelis (M öhle 2001). Dėl to Kimuros difuzijos aproksimacija padarė didžiulį poveikį teorinės ir taikomosios populiacijos genetikos raidai.

Nepaisant tvirtumo, Wright -Fisher difuzija netinka bet kokiomis aplinkybėmis. Daugelis natūralių populiacijų patiria didelių stochastinių skirtumų. Tačiau, išskyrus kelias išimtis (pvz., K aj ir K rone 2003 L ambert 2005, 2006 C hampagnat ir L ambert 2007), modeliai paprastai numato fiksuotą arba deterministiškai kintantį populiacijos skaičių (pvz., E wens 1967 K imura ir O hta 1974 D onnelly 1986 G riffiths ir T avaré 1994 O tto and W hitlock 1997).

Čia mes svarstome alternatyvų metodą, įkvėptą Morano modelio (M oran 1958) ir Gause – Lotka – Volterra modelio (L otka 1925 V olterra 1926 G ause 1934): individai gimdo ir miršta, o svyruoja priklausomai nuo visos populiacijos. skaičius. Populiacijos yra ribotos dėl tankio priklausančių veiksnių (pvz., išteklių apribojimas), pavyzdžiui, tie, kurie buvo empiriškai patikrinti mikrobų populiacijose (G ause 1934 V andermeer 1969 P ascual ir K areiva 1996). Šis metodas sukelia stochastinius populiacijos dydžio skirtumus, nes po gimimo įvykių iš karto nesibaigia mirtys. Šiame tyrime mes suformuluojame paprasčiausią populiacijos procesą, kuris apima tokį demografinį stochastiškumą. Mes parodome, kad mūsų modelis pripažįsta difuzijos aproksimaciją, kuri kokybiškai skiriasi nuo standartinės Kimura difuzijos ir pasižymi nauju elgesiu. Visų pirma, mes pastebime, kad skirtingos gyvenimo istorijos strategijos, taikomos vienodos tikėtinos reprodukcinės produkcijos rūšims, turi labai skirtingas pasekmes ilgalaikiam išgyvenimui. Šiuo atžvilgiu mūsų rezultatai papildo pagrindinį Gillespie darbą dėl vaisingumo dispersijos ir statymų apsidraudimo (G illespie 1974, 1975, 1977) (atitinkamą genealoginį procesą taip pat žr. T aylor 2009). nesutampančioms kartoms, mes svarstome galimybę skirti išlaikymui vs. reprodukcinė produkcija kaip laikino statymo apsidraudimo forma. Panašus kompromisas svarstomas S hpak (2007), naudojant aiškų pagal amžių suskirstytą vaisingumo dispersijos modelį, kai skirtingi genotipai išreiškiami kaip skirtingos metinės išgyvenimo tikimybės ir vaisingumas. Priešingai nei šie Gillespie ir Shpak darbai, mūsų modelis neprisiima fiksuoto populiacijos dydžio, todėl leidžia mums apsvarstyti galimybę apsvarstyti naujas gyvenimo istorijos kompromisų formas ir palyginti mažas, augančias populiacijas su populiacijomis, esančiomis beveik pusiausvyroje. Palyginę tokias populiacijas, mes nustatome, kad statymai, apsidraudę nuo mutavimo, gali parodyti akivaizdų prieštaravimą vs. ilgalaikis elgesys: tipai, kurie sparčiai auga esant mažam gyventojų tankiui mažiau greičiausiai sutvarkys, nei tipai, kurie lėtai auga esant mažam gyventojų tankumui.


Rezultatai: Modeliai ir stebėjimai

Kiekviename iš šių skyrių lyginamas griežtai neutralus modelis ir apibendrintas modelis, apimantis atranką pagal vieną parametrą s (aprašyta priede). Nors analizės prasideda griežtu neutralumu (s = 0) kiekviename argumente aleliai, kuriems s & lt 1/N, kur N yra faktinis populiacijos dydis, galima apsvarstyti beveik neutralus, nes dreifo poveikis nusveria atrankos jėgą [11]. Kiekvienu atveju, norint paaiškinti šio selektyvių koeficientų diapazono stebėjimus, reikia labai mažo veiksmingo populiacijos dydžio.

IS6110 perkėlimo rodikliai

Kai genetinės mutacijos yra selektyviai neutralios, pakeitimo dažnis yra lygus mutacijos dažniui [11]. Nagrinėjamu atveju, šeimininko viduje pakeitimo procesas yra įdomus. Rosenbergas ir kt. [12] nustatė IS6110 žymeklis yra maždaug 0,00184–0,0390 įvykių per egzempliorių per metus, o didžiausia tikimybė yra 0,0287. Todėl esant neutralumui šis rodiklis atitinka a už įterpimą mutacijų dažnis μ i

7,9 × 10–5 įvykiai vienoje vietoje per kartą, darant prielaidą, kad aktyvių infekcijų sukūrimo laikas yra 1 diena. Šis skaičius gaunamas iš išmatuoto beveik 24 valandų padvigubėjimo laiko, pagrįsto klinikiniais izoliatais, auginamais žmogaus monocitų kultūrose ir auginimo terpėse [13–15]. Taškinių mutacijų dažnis (įvykiai už nukleotidą per kartą) paprastai būna maždaug 10–9. Mutatorių padermėse, tai yra, genomuose, kuriuose yra pažeista DNR taisymo mašina, dėl kurios padidėja mutacijų dažnis, mutacijų dažnis padidėja iki eilės

10 -7 -10 -6 [16]. IS mutacijų dažnis6110 todėl neutralumas atrodo įtartinai didelis, nors tai tik „netiesioginis įrodymas“, nes jis iš esmės nėra problemiškas. Iš tiesų IS buvo išmatuotas iki 10–4 elementų per kartą10 in vitro [17]. Nepaisant to, jei leidžiama teigiama atranka, apskaičiuotas mutacijų dažnis mažėja. Išskyrus sudėtingą kloninių trukdžių įtaką [18], pakeitimo greitis yra

K = uN μ i (1)

kur u yra mutanto fiksavimo tikimybė, μ iyra mutacijų dažnis ir N yra populiacijos dydis [11]. Mutacijos greičio įvertinimas, kai mutantai turi pranašumą s yra = K/(uN). Drifto difuzijos modelis suteikia išraišką u kaip populiacijos dydžio funkcija N ir selektyvus koeficientas s (žr. priedą). 1 paveikslas pavaizduotas s dėl kelių skirtingų vertybių N. Kiekvienoje kreivėje apskaičiuotas mutacijų dažnis mažėja, kai selektyvusis koeficientas didėja. Remiantis šia analize, mažesnis mutacijų dažnis yra įmanomas, kai yra tam tikra atranka ir didelis populiacijos dydis, arba kai atranka yra stipri ir populiacijos dydis yra mažas. Atminkite, kad apskaičiuotas mutacijų dažnis išlieka didelis, jei mutacijos yra beveik neutralios.

Mutacijos greičio įvertinimas, kai veikia teigiama atranka. Įvertinimas pavaizduotas logaritminėje skalėje 10 bazėje. Tvirta kreivė: N = 10 Brūkšniuotas N = 1000 punktyrinių: N = 10 5 .

Fiksavimo laikai

Įvairūs tyrimai matavo IS stabilumą6110 kaip genetinis žymeklis, tiriant serijinių izoliatų genotipus iš pacientų, sergančių nuolatine infekcija. Nedidelis genotipų pasikeitimas tarp serijinių izoliatų rodo stabilų žymenį. Neatsižvelgiama į genotipų skirtumus, atsirandančius dėl egzogeninės nesusijusių padermių pakartotinės infekcijos. Niemann duomenimis ir kt. [19] ir Rosenbergas ir kt. [12], vidutinis laiko intervalas, susijęs su IS pokyčiais6110 genotipai iš serijos mėginių M. tuberkuliozė yra 212 dienų, o maksimalus - 683 dienos. Kadangi antrasis mėginys paimtas praėjus kuriam laikui po mutanto fiksavimo, tikrasis pakeitimo laikas nežinomas, tačiau visi jie buvo trumpesni nei 683 dienos. Dabar parodysiu, kad numatomas keitimo laikas griežtai neutraliai gerokai viršija šią vertę.

Pradėkime nuo prielaidos, kad numatomas pakeitimo laikas yra vidutinis sėkmingo mutanto pasirodymo laikas ir laikas, per kurį šis mutantas pasiekia fiksaciją, priklausomai nuo jo galutinės fiksacijos. (Vėliau atsisakysiu prielaidos apie laukimą, kol mutantas pasirodys). Vidutinis pasirodymo laikas yra 1/(μNu) = 1/μ nuo u = 1/N laikantis griežto neutralumo. Vidutinis sėkmingo neutralaus mutanto fiksacijos laikas yra 4N kartos. Šiame kontekste palūkanų mutacijos norma yra norma vienam genomui per kartą, nes susirūpinimą kelia tai, ar pasikeičia kuris nors iš tam tikro genomo elementų. Kad būtų paprasčiau, tarkime, kad genomo mutacijų dažnis linijiškai keičiasi su kopijų skaičiumi. (Sprendžiant šią analizę, tai yra pagrįstas apytikslis įvertinimas.) Atsižvelgiant į tai, kad tipinė padermė turi 10 IS elemento kopijų, atitinkamas mutacijų dažnis yra μ = μ i× 10 = 7,9 × 10 -4. Todėl už N = 10, 10 3, 10 5, numatomas pakeitimo laikas yra maždaug 1300, 5300, 4 × 105 5 kartų. Kai generavimo laikas buvo nustatytas vieną dieną, viršutinė stebimo pakeitimo laiko riba buvo 683 kartos, o tai gerokai žemiau teorinių lūkesčių.

Dabar apsvarstykite teigiamos atrankos galimybę pagal dvi alternatyvias konservatyvias prielaidas. Ankstesnė prielaida, kad pirmojo mėginio metu nėra sėkmingų mutantų, yra palanki tėvų padermei. Konservatyvesnis požiūris (pirmenybė teikiama mutantams) būtų pasakyti, kad mutantas, kuriam lemta pasiekti fiksaciją, pasirodo tiksliai pirmojo mėginio metu. Tada galime paklausti, kiek vidutiniškai užtrunka, kol šis mutantas pasiekia fiksaciją, jei jis yra pasirinktas teigiamai. Dar konservatyvesnis modelis būtų tas, kad pirmojo mėginio metu yra ne tik tolesnis štamas, bet ir 30%. Be to, tarkime, kad antrojo mėginio metu dominuojanti padermė turi būti tik 70%, kad būtų laikoma, kad ji pakeitė tėvų padermę.

Dabar turi būti nurodytas alelių buvimo laikų modelis populiacijose, kurios priklauso nuo fiksavimo. Dar kartą naudojant dreifo difuzijos modelį (žr. Priedą), vidutinis mutanto praleistas laikas dažnių diapazone (a, b) (jeigu a yra didesnis už pradinį dažnį), su sąlyga, kad bus fiksuota, Ewensas [20] ir Maruyama [21] nustatė, kad

2 paveiksle pavaizduoti du konservatyvūs modeliai, atitinkantys dvi skirtingas ribines reikšmes (a, b). Netgi esant labai konservatyviam modeliui, parodytam dešiniajame brėžinyje, faktinis populiacijos dydis turi būti mažesnis nei 400, kad būtų galima paaiškinti pastebėtus pakeitimo laikus griežtai neutraliai. Duomenis sunku apsvarstyti net ir kalbant apie beveik neutralias mutacijas (s & lt 1/N) ir faktinis populiacijos dydis N = 1000. Alternatyvus paaiškinimas yra tas, kad faktinis populiacijos dydis yra didesnis, tačiau teigiama atranka veikia, kad pokyčiai vyktų greičiau per populiaciją.

Vidutinis buvimo laikas kaip selektyvaus koeficiento funkcijos s , skirtingoms vertėms N . Kairėje: nuo a = 1/N į b = 1 - 1/N Teisingai: nuo a = Nuo 0,3 iki b = 0.7.

Polimorfizmas

Daugelyje patogenų genotipų analizių daroma prielaida, kad izoliuotos padermės yra kloninės, tai yra monomorfinės. Šią prielaidą atidžiai išnagrinėjo De Boer ir kt. [22], kurie parodė, kad iš tikrųjų didelė dalis (93%) M. tuberkuliozė izoliatai yra monomorfiniai naudojant IS6110 kaip žymeklis. Jie taip pat rodo, kad antrojo štamo aptikimo ribos yra maždaug nuo 0,1 iki 0,3. Jautresni instrumentai ir patobulintos genotipų nustatymo procedūros greičiausiai atskleis didesnį polimorfizmą. Tačiau dabartinė informacija gali būti naudojama tiriant organizmo populiaciją šeimininkuose, naudojant diapazonus nuo aptinkamas polimorfizmas. Šiame skyriuje, nagrinėjant modelių prognozes, bus atsižvelgiama į du diapazonus: pirma, 0,1–0,9 ir antra - 0,3–0,7.

Polimorfizmo argumentas grindžiamas prielaida, kad izoliatai, apie kuriuos pranešta [22], gali būti vertinami kaip atsitiktinis mėginys iš populiacijų, esančių mutacijų ir dreifo pusiausvyroje, rinkinio. Reikėtų pažymėti, kad kadangi izoliatas yra paciento ląstelių mėginys, jis tikriausiai ne visada atspindi ląstelių įvairovę didesnėje šeimininko populiacijoje. Taigi izoliatų polimorfizmas ar nevienalytiškumas yra nepakankamas faktinio lygio įvertinimas.

Wrightas [23] nustatė stacionarų alelių dažnių tikimybės pasiskirstymą pagal difuzijos modelį su mutacija ir dviem aleliais. Leisti f(x) būti šio skirstinio tikimybės tankio funkcija ir F (x) būti kaupiamosios tikimybės funkcija F (x) (žr. priedą). Tikimybė, kad tam tikra populiacija (pacientas) yra tarp dažnių a ir b (kur a & ltb) yra

Šis kiekis taip pat gali būti interpretuojamas kaip populiacijų dalis, pastebėta kaip polimorfinė, atsižvelgiant į aptikimo ribas, nustatytas (a, b).

Pirmiausia apsvarstykite neutralų atvejį. Kai nėra pasirinkimo (s = 0), aprašytą pasiskirstymą f (x) yra beta versija. 3 paveiksle parodyta tikimybė, kad izoliatas bus įvertintas kaip polimorfinė populiacija, naudojant du alternatyvius aptinkamus polimorfizmo diapazonus (a, b) = (0,1, 0,9) ir (0,3, 0,7), o mutacijos dažnis - μ = 7,9 × 10-4 kiekvienoje ląstelėje.

Polimorfizmo aptikimo tikimybė nesant atrankos, kaip funkcija N . Buvo naudojami du skirtingi aptinkamo polimorfizmo diapazonai. Brūkšninė kreivė: (0,1, 0,9) punktyrinė: (0,3, 0,7). Mes naudojame μ = 7,9 × 10 -4. Horizontali juosta rodo pastebėtą de Boer polimorfinių populiacijų dalį (0,074) ir kt. [22].

Toliau apsvarstykite modelį, į kurį įeina pasirinkimas. Dviejų aptinkamų polimorfizmo diapazonų 4 paveiksle parodyta selektyvumo koeficientas s ir efektyvus populiacijos dydis N yra susiję su polimorfizmo stebėjimo tikimybe. Kaip s padidėja, prognozuojamas polimorfizmas smarkiai sumažėja, ypač dideliems N. Vėlgi, pastebėtą polimorfizmo lygį galima paaiškinti tik nustatant N būti itin žemas.

Polimorfizmo tikimybė kaip funkcija s . Kairė: aptikimo slenkstis nustatytas 0,3 Dešinėje: aptikimo slenkstis nustatytas 0,1. Nustatytas mutacijų dažnis μ = 7.9 × 10 -4


Numatomas laikas, kai neutralus alelis pasieks $ p_1 $ dažnį, kai prasidės $ p_0 $ dažniu - biologija

Gyventojų genetika (tęsinys)

Hardy-Weinberg prielaidų pažeidimas (tęsinys)

Paskutinę paskaitą baigiau diskusija apie tai, kaip atsitiktinis poravimasis gali sukelti genetinius ir evoliucinius pokyčius. Dabar išnagrinėsime kiekvieną iš kitų keturių evoliucinių pokyčių jėgų - migraciją, mutaciją, dreifą ir atranką.

Genetinė migracija (didelis genų srautas išlaiko populiacijų panašumą)

Genetinė migracija yra nuolatinis genų judėjimas iš vienos populiacijos į kitą. Migracija gali atkurti genetinę variaciją į izoliuotas ir diferencijuotas populiacijas arba sumažinti populiacijų skirtumus, kai tai vyksta dažnai. Genetinės migracijos modelių ir svarbos įvertinimas (dažnai vadinamas & quotgenų srautas& quot) yra vienas iš pagrindinių populiacijos genetikos tikslų. Didelis genų srautas linkęs išlaikyti genetinį panašumą tarp populiacijų. Pvz., Nauji aleliai, atsirandantys dėl mutacijos vienoje populiacijoje, bus perkeliami į kitas populiacijas išsklaidant asmenis.

Mutacija (atsitiktinis naujų genetinių variacijų šaltinis)

Mutacija yra atsitiktinis procesas, kurio metu susidaro genas arba chromosomų rinkinys, kuris skiriasi nuo laukinio tipo (protėvių alelio). Mutacija atkuria populiacijos genetinę variaciją, sukurdama naujus alelius. Mutaciją sunku išmatuoti ar stebėti tiesiogiai, o mutacijų dažnis gali skirtis tarp lokusų. Paprastai tai yra silpna jėga, todėl ji nėra linkusi netraukti gyventojų labai toli nuo Hardy-Weinbergo pusiausvyros-nors pakankamai ilgai, net ir silpna jėga gali turėti didelį poveikį (pvz., Didžiojo kanjono erozija). Kai populiacijos yra atskirtos geografinėmis kliūtimis, jos linkusios vystytis nepriklausomoms mutacijoms ir, jei įvyks pakankamai skirtingų mutacijų, populiacijos pakankamai skirsis, kad taptų atskiromis rūšimis.

Dreifas (atsitiktinis genetinis mėginių ėmimo procesas, galintis pakeisti alelių dažnį ir sukelti alelių fiksavimą ar praradimą)

Dabar mes kreipiamės į kitą atsitiktinę jėgą - genetinį dreifą. Nors tai daro nereikšmingą poveikį labai didelėms populiacijoms, genetinis dreifas gali būti pagrindinė jėga keičiant genų dažnį mažose populiacijose. Atsitiktinis genetinis dreifas yra alelių dažnių pasikeitimas, atsirandantis dėl to, kad palikuonių genai nėra visiškai reprezentatyvus tėvų genų ėmimas. Kadangi dreifas yra atsitiktinis procesas, dreifo rezultatai turi būti nurodyti kaip tikimybės. „Drift“ pašalina genetinius pokyčius iš populiacijos greičiu, atvirkščiai proporcingu populiacijos dydžiui. Mažėjant populiacijos dydžiui, dreifo jėga didėja ir atvirkščiai. Dreifas taip pat turi įtakos naujų mutacijų išgyvenimo tikimybei. Tikimybė, kad alelis pereis prie fiksacijos, yra lygi jo dažniui populiacijoje - 0,2 (20%) alelio fiksacijos tikimybė yra 20%. Nauji aleliai, įvesti mutacijos būdu, beveik neišvengiamai prasideda žemu dažniu ir turi mažą fiksacijos tikimybę. Dreifas gali sukelti retų alelių praradimą ir bendrų alelių fiksavimą. Tačiau jei populiacija yra didelė, dreifas turi mažai įtakos. Pagalvokite apie stiklainį, kuriame yra milijonas dešimt skirtingų spalvų rutuliukų. Jei nupiešime a atsitiktinis milijono pavyzdys (su pakeitimu) beveik neabejotinai sudarys visus rutuliukus proporcijomis, labai panašiomis į pradines proporcijas. Tačiau, jei turime tik 20 rutuliukų ir paimame 20 pavyzdžių su pakeitimu, tikimės, kad trūks kai kurių iš 10 spalvų, o kai kurios spalvos bus per daug pristatytos. Net jei imsime 100 žmonių populiaciją su pakeitimu, vargu ar išlaikysime pradinės populiacijos proporcijas - panašiai, dreifas yra atvirkščiai proporcingas populiacijos dydžiui - didelė populiacija, nedidelis dreifas, maža populiacija, didelis dreifas. Dreifas gali turėti didelį poveikį nykstančioms (mažoms beveik pagal apibrėžimą) rūšims. Kitoms rūšims gali prireikti daug laiko (tūkstančius, šimtus tūkstančių ar net milijonus metų), kol dreifas turės didelį poveikį.

35.1 pav. Kompiuterinis genetinio dreifo modeliavimas, veikiantis mažoje populiacijoje (20 asmenų). Likimas A alelį (su pradiniais dažniais p = 0.2, ant Y-ašis) rodoma penkiose kartojančiose 20 individų populiacijose 100 kartų (laikas X-ašis). Atkreipkite dėmesį, kad jei p sumažėja iki 0 arba pakyla iki 1,0 Valia pasiklysti (0) arba pasiekti fiksavimas (1.0). [Fiksacija reiškia, kad visi populiacijos individai turi tą alelį, t. Y. Genetinis kintamumas toje populiacijos vietoje nėra]. Todėl tie dažniai (0 ir 1,0) vadinami „absorbuojančiomis ribomis“. Kai dažniai pasiekia bet kurią ribą, jie nesikeičia (nebent mutacija prideda kitą alelį arba „nesukuria“ prarasto alelio). Taip pat atkreipkite dėmesį į dantytas trajektorijas, kurios dažnai apibūdina atsitiktinius procesus.

Atranka yra skirtingas fenotipų, kurie geriau tinka aplinkai arba poravimosi sėkmei, išgyvenimas ir dauginimasis. Už atranką atsakinga evoliucinė jėga prisitaikymas į aplinką. Atranka paprastai pašalina genetinius skirtumus iš populiacijos (kartais ypatingos aplinkybės, tokios kaip „nuo dažnio priklausantis“ arba „subalansuotas“ pasirinkimas, gali būti jėgos palaikančios variacijas). Aleliai, suteikiantys pranašumų išgyvenant ar dauginantis, bus labiau atstovaujami kitai kartai. Po daugybės kartų (reikalingas laikas priklausys nuo atrankos intensyvumo ir bruožo paveldimumo), naudingas alelis linkęs plisti į fiksaciją.

Kaip jėgos sujungiamos: Dodo kaip bylos istorija

Neatsitiktinis poravimasis, dreifas ir pasirinkimas linkę sumažinti genetinę variaciją. Kas jį palaiko? - Mutacija. Kalbant apie neutralius genetinius žymenis (kurie nėra atrenkami), mus dažnai domina pusiausvyra tarp dreifo ir mutacijos, taip pat genų srauto lygis, neleidžiantis diferencijuoti populiacijų. Mažos izoliuotos populiacijos neturės genų srauto, kad galėtų jas prijungti prie susijusių populiacijų kitur. Jų mutacijos padidins arba išlaikys genetinę variaciją, tačiau tos mutacijos skirsis nuo mutacijų, atsirandančių susijusiose populiacijose. Galiausiai dreifo padariniai bus linkę atsitiktinai ištaisyti kai kuriuos alelius ir prarasti kitus alelius. Rezultatas gali būti gana greita labai skirtingų formų raida-Dodo (daugeliui pažįstamas iš Alisos stebuklų šalyje) buvo labai savotiškai atrodantis neskraidantis paukštis, rastas Mauricijaus saloje (toli nuo Madagaskaro salos ir labai izoliuotas) Indijos vandenyne). The Dodo was driven to extinction by overharvest and the introduction of domestic animals in the late 17th century. Recent genetic analyses confirm an earlier suspicion that the Dodo was an extremely divergent form of pigeon. Drift, selection, mutation and low gene flow all combined to cause it to become something that few would recognize as a relative of the familiar Rock Dove (city pigeon) or Mourning Dove.

Fig. 35.2. Artist's reconstruction of the Dodo, a large (> turkey-sized), flightless bird of Mauritius (Indian Ocean), driven to extinction in the late 17th century. Genetic analyses of dried tissue from the one (partial) specimen in the British Museum indicate that the Dodo is a type of pigeon. Mutations, low gene flow, natural selection, genetic drift and probably non-random mating likely all combined to cause the extreme divergence that separates this unusual bird from its closest mainland relatives. Other, usually slightly less dramatic, examples abound of the divergence of island populations from their mainland progenitors. In the Rocky Mountain west mountain chains may act as "islands" of habitat, creating the conditions for genetic divergence among populations on different mountain chains.

Measuring genetic variation in natural populations -- Heterozygosity (or gene diversity)

When we actually go out to assess genetic variability in natural populations, some of the first and most important measures we take are the observed and expected heterozygosities. These tell us how much variation exists in the population and how that variation is distributed across the alleles in the loci we are examining.

Heterozygosity is of major interest to students of genetic variation in natural populations. It is often one of the first "parameters" that one presents in a data set. It can tell us a great deal about the structure and even history of a population. Just for example, very low heterozygosities for allozyme loci in cheetahs and black-footed ferrets indicate severe effects of small population sizes (population bottlenecks or metapopulation dynamics that severely reduced the level of genetic variation relative to that expected or found in comparable mammals).

Several measures of heterozygosity exist. We will focus primarily on expected heterozygosity (HE, also written as Heksp and termed gene diversity by population geneticist Bruce Weir). The simplest way to calculate it for a single locus is as:

Expected heterozygosity is equal to one minus the expected homozygosity.

Why does it work to take the sum of the squared gene frequencies and subtract that from one? Let's think back to basic Hardy-Weinberg:

6 + 5 + 4 + 3 + 2 + 1 = 21 = [6*(6+1)]/2 or more generally

Eqn 35.3

Heterozygosity is maximal when the allele frequencies are equal. What does heterozygosity tell us and what patterns emerge as we go to multi-allelic systems? Paimkime pavyzdį. Say p = q = 0,5. The expected heterozygosity, Heksp, for a two-allele system is described by a concave down parabola that starts at zero (when p = 0) goes to a maximum at p = 0.5 and goes back to zero when p = 1.

Fig. 35.3. Expected heterozygosity (Heksp = 2pq) for a 2-allele system as a function of allele frequency, p. Note that the heterozygosity peaks at a value of 0.5, when the allele frequencies are equal (p=q). It is minimal at both extremes -- in those cases everyone is a homozygote of one type or the other.

Individual’s-eye view of heterozygosity (Heksp = probability that an individual will be heterozygous)

Here is a way that I like to think of heterozygosity (Heksp ). It is the (expected) probability that an individual will be heterozygous at a given locus (or over the assayed loci for a multi-locus system). For many human microsatellite loci, for example, Heksp is often > 0.85, meaning that you have a > 85% chance of being a heterozygote.

From heterozygosity to F-statistics: a way of assessing genetic differences among populations.

Heterozygosity is one of the best ways to approach the analysis of differences among populations. We will use heterozygosities as the basis for calculating something called F-statistics. F-statistics are a general statistical tool for analyzing variances (variation in gene frequencies). They are not restricted to genetic applications. In the 1930's, however, Sewall Wright of the University of Chicago, pioneered their application to genetic studies of natural populations. With the rise of genetic laboratory techniques such as allozymes in the '60's and '70's, F-statistics became one of the fundamental tools of population genetics applied to natural populations.

Local (per subpopulation) F, with no subscript (or just one to denote the subpopulation):
Within a subpopulation, we can calculate the unsubscripted statistic, F, as the ratio of (the difference between expected and observed heterozygosity) to (expected heterozygosity). The general formula is:

Global (over a set of subpopulations) F-statistics, with two subscripts:
For a set of subpopulations for which we have genotypic information, we usually consider F-statistics to have three levels, each named by a different set of subscripts. These reflect three levels of biological organization, ndividuals, S ubpopulations, and the T otal population (a set of >= 2 subpopulations). We can assess heterozygosities at each of these levels and use them as the building blocks for creating levels of F-statistics. Here are the three levels. The first two are the most important:

FIS is sometimes called the inbreeding coefficient, It assesses global variation in ndividuals, relative to the variation in their Subpopulation.
Jei FIS yra neigiamas, then the set of subpopulations, as a whole, is outbred (has an excess of heterozygotes).
Jei FIS yra teigiamas then the set of subpopulations, as a whole, is veisliniai (deficiency of heterozygotes).

FST is probably the most important. It assesses the variation in the Subpopulations relative to that in the Total population.
It can have values between 0 and 1.0 (i.e., it cannot be negative).
FST of zero means that all the subpopulations have the same gene frequencies.
FST of 1.0 means that the subpopulations have completely nonoverlapping sets of alleles (the subpopulations are fixed for different alleles).
Natural populations tend to have FST values that range between near zero up to just greater than 0.5.
Values of FST above approximately 0.2 are considered "high".

FIT is relatively rarely used. It assesses the variation in ndividuals relative to the variation in the Total set of subpopulations.

In general, F-statistics can range from values of -1 to +1. As we saw above, FST has a more restricted ranges of possible values (0 to 1).

Norėdami apskaičiuoti F-statistics above we use three kinds of heterozygosity values.

H is the average Pastebėjus heterozygosity in individuals.

HS is the tikimasi heterozygosity (gene diversity) of subpopulations, calculated as the weighted average across a set of subpopulations.
We use Eqn 35.1 to calculate the expected heterozygosity in each subpopulation, then weigh the results by the subpopulation sizes

HT is the expected heterozygosity over the whole set of populations.
We use the global gene (allele) frequencies and then plug them in to Eqn 35.2 to calculate it.

I have set up a complete worked example of calculating gene frequencies, observed versus HWE expected genotypic counts, heterozygosities, and F-statistics on a separate web page. The example is a two-allele, three population case. You will calculate the same sets of statistics for a three-allele, four-population case in Homework 8.


Išvados

In conclusion, our study demonstrates that the frequency and haplotype distribution of Neandertal-like sites can be used in a neutral simulation framework that accounts for local genomic context to investigate the history of selection at a candidate locus for which genome-wide tests of selection provide ambiguous results. When combined with functional data, our results provide the strongest evidence to date in support of adaptive introgression in the OAS region. More generally, our study raises the possibility that adaptive introgression might not necessarily occur to select newly introduced variants but rather as a means to resurrect adaptive variation in modern human populations that had been lost due to demographic events.


Metodai

Modelis

We consider a discrete-time version of a model with migration and selection at two biallelic loci (Bürger and Akerman 2011). Individuals are monoecious diploids and reproduce sexually. Soft selection occurs at the diploid stage and then a proportion m (0 < m < 1) of the island population is replaced by immigrants from the continent (Haldane 1930). Migration is followed by gametogenesis, recombination with probability r (0 ≤ r ≤ 0.5), and random union of gametes including population regulation. Generations do not overlap.

We denote the two loci by A and B and their alleles by A1 ir A2, ir B1 ir B2, atitinkamai. Locus A is taken as the focal locus and locus B as background locus. The four haplotypes 1, 2, 3, and 4 are A1B1, A1B2, A2B1, ir A2B2. On the island, the frequencies of A1 ir B1 yra p ir q, and the linkage disequilibrium is denoted by D (see Supporting Information, File S1, sect.1, for details).

Biological scenario

We assume that the population on the continent is fixed for alleles A2 ir B2. The island population is of size N and initially fixed for A2 at locus A. At locus B, the locally beneficial allele B1 has arisen some time ago and is segregating at migration–selection balance. Then, a weakly beneficial mutation occurs at locus A, resulting in a single copy of A1 on the island. Its fate is jointly determined by direct selection on locus A, linkage to the selected locus B, migration, and random genetic drift. Jei A1 occurs on the beneficial background (B1), the fittest haplotype is formed and invasion is likely unless recombination transfers A1 to the deleterious background (B2). Jei A1 initially occurs on the B2 background, a suboptimal haplotype is formed (A1B2 Equation 1 below) and A1 is doomed to extinction unless it recombines onto the B1 background early on. These two scenarios occur proportionally to the marginal equilibrium frequency q ^ B of B1. Overall, recombination is therefore expected to play an ambiguous role.

Two aspects of genetic drift are of interest: random fluctuations when A1 is initially rare and random sampling of alleles between successive generations. In the first part of the article, we focus exclusively on the random fluctuations when A1 is rare, assuming that N is so large that the dynamics is almost deterministic after an initial stochastic phase. In the second part, we allow for small to moderate population size N on the island. The long-term invasion properties of A1 are expected to differ in the two cases (Ewens 2004, pp. 167�). Su N sufficiently large and parameter combinations for which a fully polymorphic internal equilibrium exists under deterministic dynamics, the fate of A1 is decided very early on. If it survives the initial phase of stochastic loss, it will reach the (quasi-) deterministic equilibrium frequency and stay in the population for a very long time (Petry 1983). This is what we call invasion, or establishment. Extinction will finally occur, because migration introduces A2, bet ne A1. Yet, extinction occurs on a timescale much longer than is of interest for this article. For small or moderate N, however, genetic drift will cause extinction of A1 on a much shorter timescale, even for moderately strong selection. In this case, stochasticity must be taken into account throughout, and interest shifts to the expected time A1 spends in a certain range of allele frequencies (sojourn time) and the expected time to extinction (absorption time).

As an extension of this basic scenario, we allow the background locus to be polymorphic on the continent. Allele B1 is assumed to segregate at a constant frequency qc. This reflects, for instance, a polymorphism maintained at drift–mutation or mutation–selection balance. It could also apply to the case where the continent is a metapopulation or receives migrants from other populations. A proportion qc of haplotypes carried by immigrants to the focal island will then be A2B1, and a proportion 1 − qc will be A2B2.

Fitness and evolutionary dynamics

We define the relative fitness of a genotype as its expected relative contribution to the gamete pool from which the next generation of zygotes is formed. We use wij for the relative fitness of the genotype composed of haplotypes i ir j (i, j ∈ <1, 2, 3, 4>). Ignoring parental and position effects in heterozygotes, we distinguish nine genotypes. We then have wij = wji for all ij ir w23 = w14.

The extent to which analytical results can be obtained for general fitnesses is limited (Ewens 1967 Karlin and McGregor 1968). Unless otherwise stated, we therefore assume absence of dominance and epistasis, t.y., allelic effects combine additively within and between loci. The matrix of relative genotype fitnesses wij (Equation 27 in File S1) may then be written as

kur a ir b are the selective advantages on the island of alleles A1 ir B1 relative to A2 ir B2, atitinkamai. To enforce positive fitnesses, we require that 0 < a, b < 1, and a + b < 1. We assume that selection in favor of A1 is weaker than selection in favor of B1 (a < b). Priešingu atveju, A1 could be maintained in a sufficiently large island population independently of B1, whenever B1 is not swamped by gene flow (Haldane 1930). As our focus is on the effect of linkage on establishment of A1, this case is not of interest.

The deterministic dynamics of the haplotype frequencies are given by the recursion equations in File S1, Equation 28 (see also File S2). A crucial property of these dynamics is the following. Whenever a marginal one-locus migration–selection equilibrium EB exists such that the background locus B is polymorphic and locus A is fixed for allele A2, this equilibrium is asymptotically stable. After occurrence of A1, EB may become unstable, in which case a fully polymorphic (internal) equilibrium emerges and is asymptotically stable, independently of whether the continent is monomorphic (qc = 0) or polymorphic (0 < qc < 1) at the background locus. Therefore, in the deterministic model, invasion of A1 per EB is always followed by an asymptotic approach toward an internal equilibrium (see File S1, sect. 3 and 6).

Casting our model into a stochastic framework is difficult in general. By focusing on the initial phase after occurrence of A1, the four-dimensional system in Equation 28 can be simplified to a two-dimensional system (Equation 29 in File S1). This allows for a branching-process approach as described in the following.

Two-type branching process

As shown in File S1, sect. 2, for rare A1, we need to follow only the frequencies of haplotypes A1B1 ir A1B2. This corresponds to A1 initially occurring on the B1 arba B2 background, respectively, and holds as long as A1 is present in heterozygotes only. Moreover, it is assumed that allele B1 is maintained constant at the marginal one-locus migration–selection equilibrium EB of the dynamics in Equation 28. At this equilibrium, the frequency of B1 yra

for a monomorphic continent (see File S1, sect. 3, for details, and Equation 39 for a polymorphic continent).

To model the initial stochastic phase after occurrence of A1 for large N, we employed a two-type branching process in discrete time (Harris 1963). We refer to haplotypes A1B1 ir A1B2 as types 1 and 2, respectively. They are assumed to propagate independently and contribute offspring to the next generation according to type-specific distributions. We assume that the number of j-type offspring produced by an i-type parent is Poisson-distributed with parameter λij (i ∈ <1, 2>). Because of independent offspring distributions, the probability-generating function (pgf) for the number of offspring of any type produced by an i-type parent is f i ( s 1 , s 2 ) = ∏ j = 1 2 f i j ( s j ) , where fij(sj) = eλij(1−sj) dėl i, j ∈ <1, 2>(File S1, sect. 4). The λij depend on fitness, migration, and recombination and are derived from the deterministic model (Equation 33 in File S1). The matrix L = (λij), i, j ∈ <1, 2>, is called the mean matrix. Allele A1 has a strictly positive invasion probability if ν > 1, where ν is the leading eigenvalue of L. The branching process is called supercritical in this case.

We denote the probability of invasion of A1 conditional on initial occurrence on background B1 (B2) by π1 (π2), and the corresponding probability of extinction by Q1 (Q2). The latter are found as the smallest positive solution of


Estimation of the Mean and Variance of Selection Intensity

Results from hundreds of single-sample studies in molecular population genetics suggest that the intensity of directional selection operating at the single-nucleotide level is often on the order of the reciprocal of Ne or a factor several-fold larger. Selection coefficients at the nucleotide level >0.01 are exceedingly rare in studies of natural populations, and as these only induce an ∼ 1 % change in allele frequency per generation, the challenges in estimating selection at the DNA level with temporal data are clear. An additional issue (aside from possible contributions from nonselective forces) is that temporal changes in allele frequencies may result from direct selection on the nucleotide site of interest or indirectly from selection operating on adjacent sites in linkage disequilibrium. Thus, the best that we can hope to achieve with a temporal survey is a measure of the net strength of selection operating on a site.

Estimation of Mean Selection Coefficients

An efficient means of estimating μs for a nucleotide site is to perform a least-squares regression of ζt on time. Allowing for both selection and drift in a Wright–Fisher framework, followed by random sampling, computer simulations indicate that the regression coefficients provide unbiased estimates of μs over reasonable sample sizes and allele frequencies, so long as selection is strong enough to dominate random genetic drift ( fig. 2, left). Negative bias occurs, independent of the experimental duration and sample size, when N e s p 0 < 1 , consistent with the view that selection operates in nearly deterministic fashion only after an allele frequency exceeds 1 / ( N e s ) ( Walsh and Lynch 2018, chapter 7), as assumed in equation (9b). In principle, a more elaborate expression for allele-frequency change that allows for the influence of drift might be developed, but this would require an estimate of N e .

—(Left) Mean estimates of the selection coefficient s obtained from the least-squares regression approach. Each point is the average of the results from 10 7 simulations based on Wright–Fisher allele-frequency dynamics incorporating selection and drift, followed by random sampling of n = 100 diploid individuals at each sampling point. Black symbols are for effective population size N e = 10 4 ⁠ , and red for N e = 10 6 ⁠ , and results are reported for a range of starting allele frequencies, p0. The horizontal dashed lines denote the expectations for four evaluated selection coefficients (with temporal variance, σ s 2 ⁠ , equal to zero), and the different symbols denote experiments of different durations (T). (Right) Sampling standard deviations for estimates of s for the case of σ s 2 = 0 ⁠ , from simulations as noted above for three values of Ne, four of s, and a sample size of 100, compared with the theoretical expectation, equation (10). The diagonal dashed line denotes points of perfect agreement, and many symbols cannot be seen as they overlie each other on this line.

—(Left) Mean estimates of the selection coefficient s obtained from the least-squares regression approach. Each point is the average of the results from 10 7 simulations based on Wright–Fisher allele-frequency dynamics incorporating selection and drift, followed by random sampling of n = 100 diploid individuals at each sampling point. Black symbols are for effective population size N e = 10 4 ⁠ , and red for N e = 10 6 ⁠ , and results are reported for a range of starting allele frequencies, p0. The horizontal dashed lines denote the expectations for four evaluated selection coefficients (with temporal variance, σ s 2 ⁠ , equal to zero), and the different symbols denote experiments of different durations (T). (Right) Sampling standard deviations for estimates of s for the case of σ s 2 = 0 ⁠ , from simulations as noted above for three values of Ne, four of s, and a sample size of 100, compared with the theoretical expectation, equation (10). The diagonal dashed line denotes points of perfect agreement, and many symbols cannot be seen as they overlie each other on this line.

In practical applications, one would ordinarily accept the estimate of the sampling variance of the regression coefficient from direct statistical analysis, but the expectation given by equation (10) provides insight into the optimal design of sampling schemes for estimating μ s . Regardless of the average strength of selection, provided T σ s 2 is small relative to the sampling variance of ζ, dėl T > 10 or so, the sampling variance of s ^ is inversely related to the product of the sample size and the cube of the number of temporal samples. Thus, for a fixed investment in the total amount of genotyping that can be done, which is proportional to Tn, there is a very strong premium on extending the experiment in time, as the expected standard error of s ^ will be inversely proportional to 1 / T ⁠ .

One can go further and consider the overall design necessary to detect a nucleotide with mean selection coefficient μ s . Assuming σ s 2 is small relative to the sampling-error term in equation (10), which seems likely for most reasonable scenarios, the minimum sampling variance reduces to ≃ 6 / [ T 3 n p 0 ( 1 − p 0 ) ] . To detect a selection coefficient at the 5% significance level, one then requires 24 / [ T 3 n p 0 ( 1 − p 0 ) ] < μ s 2 . The greatest power is achieved with high allele frequencies, so letting p 0 = 0.5 , the critical value for detection in this case is T 3 n = 96 / μ s 2 ⁠ , which implies T 3 n > 10 6 for μ s = 0.01 , and > 10 8 for μ s = 0.001. Assuming a moderate sample size of n = 100, the critical experimental durations in these two cases become 21 and 100 consecutive generations of allele-frequency estimation. For a rarer allele with frequency p 0 = 0.1 , these critical values become 2.8 × larger.

The key point here is that when selection is weak, as is generally the case at the nucleotide level, its detection using temporal series of data demands very long surveys. Increasing the sample size helps, but in expanding n to 1,000, the above critical T values decline by only ∼ 50 % , and temporal variance in the selection coefficient will make such an enterprise more demanding. If one simply desires an estimate of the average absolute value of μs over a large sample of sites (e.g., particular sites within codons at particular frequencies), the sampling variance of the mean estimate is given by equation (10) divided by the number of sites jointly evaluated.

The minimum improvement gained by the full survey is therefore a reduction in the standard error of the estimate s ^ by a factor of ( T / 6 ) 1 / 2 ⁠ , that is, 2 × with T = 24, and 4 × with T = 96. In the limit of weak selection and/or short survey duration, such that p 0 ( 1 − p 0 ) ≃ p T ( 1 − p T ) , the inflation in sampling variance with the simpler method is a factor of ≃ T / 3 , whereas as the allele frequency approaches loss or fixation, that is, p T ( 1 − p T ) → 0 , the inflation factor can exceed T.

Equation (10) can also be used to evaluate the consequences of more intermediate sampling schemes. Rather than sampling each of ( T + 1 ) consecutive generations, one could skip various generations, so that the duration of each sampling interval is D (rather than 1 or T) generations. The expected sampling variance of s ^ is then obtained by dividing equation (10) by D and substituting the number of multigenerational time intervals, T ′ ⁠ , for T. Dėl T divisible by D, the inflation in the sampling standard error is ≃ D . As an example, for a full survey with T = 49 and D = 1, from equation (10), the expected sampling variance is ≃ 0.000050 / [ n p 0 ( 1 − p 0 ) ] . Keeping n p 0 ( 1 − p 0 ) constant, and reducing the overall effort by half by skipping single generations, T ′ = 24 and D = 2, and the expected inflation of the standard error of s ^ is 1.5 × ⁠ . With T ′ = 12 and D = 4 (skipping periods of three generations), the expected inflation is 2.1 × ⁠ , and with T ′ = 6 and D = 8, the expected inflation is 2.6 × ⁠ . From equation (13), the expected inflation in the extreme case of sampling at just the starting and ending points (equivalent to a 25-fold reduction in effort) is ∼ T / 3 = 2.9. The key point here is that, for a given total survey duration, the improvement in the accuracy of estimation of μs with increased frequency of sampling is relatively small compared with the increase in effort.

Estimator for the Variance of Selection Coefficients

Solving equations (16 and 19), and applying to equation (15) then provides an estimate of the variance in the selection coefficient for a nucleotide site.

Computer simulations incorporating generational episodes of selection and random genetic drift, with μ s = 0 , were used to determine the bias and sampling error associated with this estimator of σ s 2 ( fig. 3). Two points are immediately apparent. First, the estimates for σ s 2 tend to be downwardly biased, particularly when initial allele frequencies are low and sample sizes are on the order of 100 or smaller. This bias becomes negligible when sample sizes are as large as 1,000. However, even in the latter case, and even for the long experimental durations illustrated, an unbiased estimate of σ s 2 cannot be achieved if σ s 2 < 10 − 4 . Given that the latter implies a standard deviation of s of 0.01, which may be beyond what operates at most nucleotide sites, the implication is that achieving accurate estimates of σ s 2 at single-nucleotide sites is nearly unattainable without enormous sample sizes and survey durations.

—Mean and CV of estimates of σ s 2 for series of samples taken at T + 1 consecutive time points, each involving sample sizes of n = 100 or 1,000 diploid genomes. Results are given for a range of initial allele frequencies, each based on 10 6 simulations with an effective population size of 10 8 individuals, ensuring essentially no genetic drift on the time scale of the analyses, and mean selection coefficient μ s = 0.0. Closed points refer to situations in which σ s 2 = 10 − 3 ⁠ , whereas open points are for σ s 2 = 10 − 4 . Data points are excluded for some cases at low allele frequencies where the mean estimates of σ s 2 were negative.

—Mean and CV of estimates of σ s 2 for series of samples taken at T + 1 consecutive time points, each involving sample sizes of n = 100 or 1,000 diploid genomes. Results are given for a range of initial allele frequencies, each based on 10 6 simulations with an effective population size of 10 8 individuals, ensuring essentially no genetic drift on the time scale of the analyses, and mean selection coefficient μ s = 0.0. Closed points refer to situations in which σ s 2 = 10 − 3 ⁠ , whereas open points are for σ s 2 = 10 − 4 . Data points are excluded for some cases at low allele frequencies where the mean estimates of σ s 2 were negative.

Second, of even greater concern is the coefficient of variation (CV) of estimates of σ s 2 ⁠ , which is virtually always >1.0 and often as high as 500. With a sampling CV of 1.0, if one wanted an average estimate of σ s 2 pooled over sites to have a standard error <0.1 of the mean, 100 sites would need to be pooled, and with a per-site sampling CV of 500, this same level of accuracy would require the pooling of 25,000,000 sites.


Expected time for a neutral allele to reach a frequency of $p_1$ when starting at frequency $p_0$ - Biology

Sickle Cell Anemia: A Balanced Polymorphism

The sickle cell allele (S) of the gene for hemoglobin causes red blood cells to collapse.

In areas with a high incidence of malaria, heterozygous carriers of the sickle cell allele become more frequent with age, suggesting that selection favors them.

"The ratio of the frequency of the sickle-cell trait carriers among newborns to that among reproducing adults should, in fact, supply a direct estimate of the fitness of the normal homozygote relative to that of the heterozygote."

Cavalli-Sforza & Bodmer (1971) The Genetics of Human Populations.

W AA =0.85 W AS =1

Individuals who are homozygous for sickle cell (SS) are subject to episodes of severe anemia and tend to die at an early age (W SS is near 0).

In areas where malaria is common, what is the expected frequency of the sickle cell allele?

Fundamental Theorem of Natural Selection.

"The rate of increase in fitness of any organism at any time is equal to its genetic variance in fitness at that time."

-- Fisher (1930) The Genetical Theory of Natural Selection

"Against the rate of progress in fitness must be set off, if the organism is, properly speaking, highly adapted to its place in nature, deterioration due to undirected changes either in the organism [mutations], or in its environment [geological, climatological, or organic]."

-- Fisher (1930) The Genetical Theory of Natural Selection

Fixation of Adaptive Mutations

Paquin & Adams (1983) studied haploid and diploid populations of yeast to estimate the relative rate that beneficial mutations would arise in an asexual population of each type.

Populations were kept in a chemostat (a fairly constant environment) at a population size of about 5 billion.

Initially, the population was started from a single clone (one genotype).

A neutral marker, canavanine resistance then increased in frequency due to mutation pressure alone (amino acid mutation rate = 10 -7 ), although the mutations always remained low in frequency ( -5 ) during the hundreds of generations of the experiment.

When a beneficial mutation occurred, it was most likely to arise in a canavanine sensitive cell.

The beneficial mutation would then sweep through the population. Canavanine sensitivity would "hitch-hike" along, driving back down the frequency of canavanine resistance.

"Adaptive mutations are shown to have a higher frequency of fixation in evolving diploid than in evolving haploid populations of the yeast Saccharomyces cerevisiae, providing direct evidence that it may be an evolutionary advantage to be diploid." (Paquin & Adams 1983)

[A further experiment by Adams et al (1985)] provides additional evidence that an adaptive strain is not always derived from the previous one. For example, adaptive strain 3 in the haploid cells could have an advantage over strain 2 because of a released toxin and strain 4 could be a derivative of 2 which is resistant to this toxin."

Dykhuizen (1990) Experimental Studies of Natural Selection in Bacteria

We therefore cannot yet tell whether the haploid or the diploid strain had a higher frequency of fixation of adaptive mutations.

These conclusions come directly from applying the population genetic model of selection to the experimental results.

These projections fall short of the recent estimates of the US population size, which exceed the estimated carrying capacity of the US (197 million).

One likely explanation is that agricultural and technological advances have led to an increased carrying capacity, extending the growth phase of the human population.


12864_2008_2065_MOESM1_ESM.jpeg

Additional file 1:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 1.(JPEG 147 KB)

12864_2008_2065_MOESM2_ESM.jpeg

Additional file 2:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 2.(JPEG 140 KB)

12864_2008_2065_MOESM3_ESM.jpeg

Additional file 3:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 3.(JPEG 141 KB)

12864_2008_2065_MOESM4_ESM.jpeg

Additional file 4:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 4.(JPEG 131 KB)

12864_2008_2065_MOESM5_ESM.jpeg

Additional file 5:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 5.(JPEG 130 KB)

12864_2008_2065_MOESM6_ESM.jpeg

Additional file 6:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 6.(JPEG 144 KB)

12864_2008_2065_MOESM7_ESM.jpeg

Additional file 7:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 7.(JPEG 131 KB)

12864_2008_2065_MOESM8_ESM.jpeg

Additional file 8:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 8.(JPEG 138 KB)

12864_2008_2065_MOESM9_ESM.jpeg

Additional file 9:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 9.(JPEG 122 KB)

12864_2008_2065_MOESM10_ESM.jpeg

Additional file 10:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 10.(JPEG 137 KB)

12864_2008_2065_MOESM11_ESM.jpeg

Additional file 11:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 11.(JPEG 138 KB)

12864_2008_2065_MOESM12_ESM.jpeg

Additional file 12:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 12.(JPEG 119 KB)

12864_2008_2065_MOESM13_ESM.jpeg

Additional file 13:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 13.(JPEG 129 KB)

12864_2008_2065_MOESM14_ESM.jpeg

Additional file 14:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 14.(JPEG 123 KB)

12864_2008_2065_MOESM15_ESM.jpeg

Additional file 15:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 15.(JPEG 119 KB)

12864_2008_2065_MOESM16_ESM.jpeg

Additional file 16:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 16.(JPEG 127 KB)

12864_2008_2065_MOESM17_ESM.jpeg

Additional file 17:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 17.(JPEG 122 KB)

12864_2008_2065_MOESM18_ESM.jpeg

Additional file 18:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 18.(JPEG 111 KB)

12864_2008_2065_MOESM19_ESM.jpeg

Additional file 19:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 19.(JPEG 112 KB)

12864_2008_2065_MOESM20_ESM.jpeg

Additional file 20:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 20.(JPEG 121 KB)

12864_2008_2065_MOESM21_ESM.jpeg

Additional file 21:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 21.(JPEG 104 KB)

12864_2008_2065_MOESM22_ESM.jpeg

Additional file 22:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 22.(JPEG 116 KB)

12864_2008_2065_MOESM23_ESM.jpeg

Additional file 23:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 23.(JPEG 104 KB)

12864_2008_2065_MOESM24_ESM.jpeg

Additional file 24:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 24.(JPEG 113 KB)

12864_2008_2065_MOESM25_ESM.jpeg

Additional file 25:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 25.(JPEG 98 KB)

12864_2008_2065_MOESM26_ESM.jpeg

Additional file 26:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 26.(JPEG 106 KB)

12864_2008_2065_MOESM27_ESM.jpeg

Additional file 27:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 27.(JPEG 100 KB)

12864_2008_2065_MOESM28_ESM.jpeg

Additional file 28:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 28.(JPEG 101 KB)

12864_2008_2065_MOESM29_ESM.jpeg

Additional file 29:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 29.(JPEG 99 KB)

12864_2008_2065_MOESM30_ESM.jpeg

Additional file 30:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome X.(JPEG 109 KB)


Žiūrėti video įrašą: CS50 Lecture by Mark Zuckerberg - 7 December 2005 (Sausis 2022).