Вы здесь

Кому мешает ДНК-генеалогия? Ложь, инсинуации, и русофобия в современной российской науке. Часть I. Основные принципы ДНК-генеалогии в сотне вопросов и ответов (А. А. Клёсов, 2016)

Часть I

Основные принципы ДНК-генеалогии в сотне вопросов и ответов

Глава 1

Что такое ДНК-генеалогия и что такое популяционная генетика

Вопрос 1: Когда появился термин ДНК-генеалогия?

Насколько мне удалось найти, впервые термин был использован в 1992 году в работе японских авторов[3], но в виде «митохондриальная ДНК-генеалогия». С тех пор авторы этот термин не использовали. Когда я ввел этот термин в 2006 году в сочетании «ДНК-генеалогия» для изучения Y-хромосомы, попгенетики подняли в сети страшный шум, уверяя, что это плохое название, что его никто не использует (как ни удивительно, это обычно главный аргумент у попгенетиков, на что я обычно говорю – «добро пожаловать в науку», там много что в первый раз), и что оно никогда не приживется. Особенно усердствовали попгенетики Балановский и Запорожченко. Через несколько лет прижилось. Сейчас введение словосочетания ДНК-генеалогия в поисковую систему Google дает – на русском языке 340 тысяч результатов, на английском языке (DNA Genealogy) – около 10 миллионов результатов, в русскоязычную поисковую систему Нигма – 924 тысячи результатов.

Но попгенетики извернулись, и перешли к новой тактике. О, ДНК-генеалогия – это давно известный термин, «словосочетание «ДНК-генеалогия» известно как минимум с 1986 года[4], см. Avise J.C., Ellis D. Mitochondrial DNA and the Evolutionary Genetics of Higher Animals (англ.) // Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences. – Т. 312. – № 1154. -С. 325–342. – DOI:10.1098/rstb.1986.ooii[5]».

Беда в том, что нет в указанной статье такого словосочетания. Да хоть бы и было где – ну и что? Не появлением словосочетания определяется появление новой науки. Для этого нужно неустанно работать, продвигая в науку методологию, полученные результаты, отстаивая их и соответствующие интерпретации от нападок недругов, которые всегда имеются, о них в значительной степени и эта книга. В науке всегда имеется ревность, недоброжелательство, доходящее до ненависти – и в основном от того, что «середнячки» истово охраняют свои «делянки». Я пишу «середнячки» – потому что люди, продвинутые в науке, всегда щедры на то, чтобы делиться своими достижениями, они поощряют новоприбывающих, потому что наука продвигается совместными усилиями, от этого выигрывают все. Середнячки же, люди в науке случайные, всегда секретничают там, где никаких секретов нет и быть не может, они ревнивы и часто злобны, они всегда опасаются за свое «место», потому что понимают, что слабы и способностями к творчеству не обременены. Их высшее достижение – зацепиться за публикацию, пусть в соавторстве с несколькими десятками человек, все равно в резюме пойдет, где число соавторов можно не указывать.

Так вот, не понимают середнячки, что не появлением словосочетания определяется появление новой науки. Поэт Андрей Белый написал еще в 1921 году

«Мир – рвался в опытах Кюри

Атомной, лопнувшею бомбой»

и никто не приписывает ему изобретение или создание атомной бомбы.

И дальше Википедия продолжает: В 1990-х словосочетание «ДНК-генеалогия» (англ. DNA genealogy) часто встречается в работах молекулярных биологов. См., напр.: Hora1 S., Satta Y., Hayasaka K., Kondo R., Inoue T., Ishida T., Hayashi S, Takahata N. Man’s place in Hominoidea revealed by mitochondrial DNA genealogy // Journal of Molecular Evolution. – 1992. – Т. 35. – № 1. -С. 32–43. – DOI:10.1007/BF00160258

Опять дезинформация – не только не «часто встречается», а не встречается вообще, за исключением указанной работы 1992 года, в названии которой есть словосочетание «митохондриальная ДНК-генеалогия». Надо сказать, что всего S. Hora1 опубликовал 106 научных статей, и в них слова «ДНК-генеалогия», и то «митохондриальная», встретились всего в одной, здесь процитированной. Да, еще в одной, в следующем, 1993 году, которая называлась так же, потому что частично отзывалась из-за ошибок. В статьях J.C. Avise, которых было опубликовано 182, в период с 1973 по 2014 год, слов «ДНК-генеалогия» вообще не было. Ни в одной статье. Вот так русская Википедия подрывает свою репутацию, и без того неважную.

Заключение – термин ДНК-генеалогия в том смысле, в котором сейчас используется, появился в русскоязычной сети в 2006 году, и в публикациях в 2007 году – А.А. Клёсов «Поиски пропавших колен израилевых с помощью ДНК-генеалогии»[6], А.А. Клёсов «Иосиф и его братья»[7], А.А. Клёсов «Хинди-руси бхай-бхай с точки зрения ДНК генеалогии, или откуда есть пошли славяне»[8].


Вопрос 2: Что можно дать в качестве определения и краткого описания ДНК-генеалогии как новой науки?

ДНК-генеалогия – одна из областей естествознания, молекулярная история. ДНК-генеалогия рассматривает закономерности наследования изменений нерекомбинантных (негенных) участков ДНК человека в ходе его эволюции на шкале времени от десятков и сотен лет до миллионов лет. Другими словами, ДНК-генеалогия изучает динамику накопления мутаций в ДНК человека, используя подходы химической и биологической кинетики, которые в свою очередь являются частью физической химии. Важнейшая особенность методологии ДНК-генеалогии – определение констант скоростей мутаций в ДНК (в первую очередь в тандемных повторяющихся последовательностях Y-хромосомы, так называемых маркерах, которых по оценкам имеется примерно 2500, а также накопления снипов, необратимых мутаций в ДНК) и приложение этих констант к расчетам хронологии древних событий – древних миграций человека, времен жизни общих предков изучаемых популяций.

Многочисленные примеры таких расчетов даны в настоящей книге.


Вопрос 3: Вы ввели понятие «молекулярная история» как синоним «ДНК-генеалогия». Смысл понятен, но прокомментируйте, пожалуйста.

Суть понятия молекулярной истории в том, что становится возможным следить за передвижениями древних народов не с помощью лопаты и кисточки археолога, не обмеряя черепа, не хитроумно расплетая созвучия и значения слов в живых и мертвых языках, не изучая древние фолианты в библиотеках и монастырях, а прослеживая за метками в Y-хромосомах наших ДНК. Они, эти метки, не могут «ассимилироваться», или «поглотиться» другими языками, культурами, или народами, как это происходит тысячелетиями с языками, культурами, народами в рамках понятий истории, лингвистики, этнографии, антропологии. Иначе говоря, методология новой исторической науки, «молекулярной истории», или ДНК-генеалогии, основывается на изучении молекул нуклеиновых кислот, а именно ДНК, дезоксирибонуклеиновой кислоты, в человеческих организмах, как живых, так и в древних костных останках. То, что еще несколько лет назад казалось каким-то развлечением, оказалось, дает истории, антропологии, археологии, лингвистике возможность проверить концепцию, рассмотреть данные под принципиально другим углом, связать воедино казалось бы разрозненные части общей картины наших знаний об окружающем мире.

Разумеется, не следует понимать буквально слова выше, как то, что отныне не нужно читать фолианты, изучать языки, и не проводить археологических раскопок. Напротив, это все приобретает еще большую значимость и ценность, поскольку усиливает выводы традиционных подходов в совокупности с выводами ДНК-генеалогии, при условии взаимного их согласования. Или, напротив, заставляет пересматривать казалось бы устоявшиеся выводы, если они входят в явное противоречие с данными ДНК-генеалогии.


Вопрос 4: Почему такое простое и очевидное понятие, как «молекулярная история», встречает сопротивление?

Очень просто – по инерции, из желания ничего не менять, желания сохранить статус-кво, сохранить привычную и часто коррумпированную систему рецензирования, распределения грантов. Возражают в первую очередь все те же Клейн и Балановские, они боятся изменений в привычной системе. Возражения против ДНК-генеалогии превратились уже в некую паранойю. Им, видимо, представляется, что если они хоть с чем-либо согласятся, то «проиграли». Но на их несогласия уже давно никто не обращает внимания. Вообще у людей ограниченных любое новшество вызывает резкое противодействие, просто потому что новшества их напрягают.

Это напоминает мне бурные дискуссии в 1960-х годах людей с подобной ментальностью, которые протестовали против введения термина «молекулярная биология», доказывая, что молекулярной биологии быть не может, это «редукционизм». Да и зачем, когда есть биохимия, которая занимается теми же вопросами. А, видимо, до того были протесты подобных же людей против введения понятия «биохимия», когда есть биология и есть химия, и этого достаточно. Но в 1960-х годах вопрос решался просто – выходило постановление ЦК КПСС о создании нового научного направления «молекулярная биология» и постановление Президиума АН СССР об образовании соответствующего Института в системе Академии наук СССР, директор В.А. Энгельгардт, и создании журнала под названием «Молекулярная биология», главный редактор он же. После этого дискуссия внезапно и по вполне понятным причинам прекращалась. Кто не согласен с постановлением ЦК КПСС – выходи по одному.

Сейчас времена другие, поэтому дискуссии либо идут до изнеможения участников, ничего не решая, либо новое направление устанавливает себя де факто, игнорируя мнения людей с протестной ментальностью. Этим, вторым путем и идет ДНК-генеалогия. Де юре приходит следом, как, например, официальная регистрация Академии ДНК-генеалогии в России в июле 2015 года. Затем продолжает создаваться инфраструктура Академии и нового направления – создается Лаборатория ДНК-генеалогии, идет работа над проектами Академии, продолжают выходить книги по ДНК-генеалогии, видео- и кинофильмы, и вскоре народ удивляется – а что там за дискуссия раньше была, смысл какой был?


Вопрос 5: Что такое Академия ДНК-генеалогии? Кто в нее входит?

Академия ДНК-генеалогии была создана в 2007 году, первоначально в США, затем ее научное представительство распространилось на Россию (Москва) и Японию (Цукуба). Она задумывалась по принципу классических академий античности – собрание единомышленников, выпускающее свое издание. С июля 2015 года Академия ДНК-генеалогии является официально зарегистрированной российской некоммерческой организацией, которая занимается развитием и популяризацией ДНК-генеалогии.

Сразу стоит оговориться, что члены Академии ДНК-гене-алогии – это не «академики». По принятой практике академик – это член Национальной Академии наук, в России – члены РАН, и ничего другого. Например, на официальном сайте Национальной Академии наук Грузии, членом которой я являюсь, стоит уведомление, что никакая другая организация, кроме Национальной Академии наук, не имеет права использовать термин «академик». Исходя из подобного принципа, члены Академии ДНК-генеалогии – это исследователи, энтузиасты, любители, сторонники и все те, кому небезразлична ДНК-генеалогия, кто видит её важную роль для науки и общества, кто помнит и изучает историю своих предков. Но не «академики». Опыт показывает, что тем, кому интересна ДНК-генеалогия, интересны и другие области знания, и наоборот, людям, интересующимся знанием, интересна и ДНК-генеалогия.

Идея создания Академии ДНК-генеалогии пришла в 2006 году в ходе обсуждения структуры нового общества единомышленников, заинтересованных в развитии ДНК-генеалогии, и создании журнала этого общества. Было предложено назвать общество Российской Академией ДНК-генеалогии, новый журнал – Вестник Российской Академии ДНК-генеалогии. Как водится, поднялся крик на лужайке, тут же объявились скептики, которым никогда ничего новое не нравится, в общем, пришлось их проигнорировать, и в 2007 году был создан Устав новой Академии, в июне 2008 года вышел первый выпуск Вестника Российской Академии ДНК-генеалогии. Он был на английском языке, объемом 233 страницы, и содержал две большие статьи – «Основные принципы ДНК-генеалогии. Скорости мутаций и их калибровка» и «Происхождение евреев с точки зрения ДНК-генеалогии». С тех пор вышло 73 выпуска Вестника, общим объемом около 15 тысяч страниц. С января 2012 года, с появлением в составе Академии иностранцев и многих публикаций ими в Вестнике, название изменилось на Академия ДНК-генеалогии. С июля 2015 года Академия ДНК-генеалогии получила официальную регистрацию в Министерстве юстиции РФ и является российской некоммерческой организацией.

Основной целью Академии ДНК-генеалогии является развитие и популяризация ДНК-генеалогии, координация фундаментальных и прикладных научных исследований, разработка и реализация исследовательских программ и внедрение их результатов в практику смежных дисциплин (история, археология, лингвистика, антропология, этнография, документальная генеалогия). В то же время, стоят задачи ДНК-генеалогической подготовки научных кадров из смежных дисциплин, создание условий для их научного творчества в области ДНК-генеалогии, содействие международному сотрудничеству в области ДНК-генеалогии, интеграции российских ученых в мировое научное сообщество. Выход на масштабное исследование палео-ДНК, в котором последуют открытие за открытием. Задачи – широчайшие по своему масштабу и ожидаемому результату.

При этом надо понимать, что ДНК-генеалогия – это настолько разноплановая совокупность направлений наук, что она в целом охватывает все науки о человеке, в которых есть хронологическая, временная компонента. Это и эволюция человека – как же там без хронологической компоненты, и древние миграции человека, и вопросы этнообразования, и исторические науки, и языкознание, а именно динамика языков в пространстве и во времени. Например, глоттохронология (лексикостатистика) потому и имеет более чем шаткий статус в лингвистике, что она не связана с ДНК-генеалогией, с хронологией древних миграций, и ограничивается формальными расчетами при значительных допущениях и приближениях. Достаточно взглянуть на список Проектов Академии ДНК-генеалогии (см. ответ на следующий Вопрос), чтобы понять, насколько ограничена наука о человеке без знания ДНК-генеалогии – ни один из тех Проектов не решен современной наукой, причем во многих случаях не решен за 100200-300 лет и больше.

Расчеты по мутациям в гаплотипах и Y-хромосоме в целом – это только отдельная, но крайне важная часть ДНК-генеалогии. Там без специальных знаний в кинетике химических и биологических систем не обойтись, и именно это вызывает наибольший дискомфорт и агрессивность тех, кто пытается «тянуть одеяло на себя», но этими знаниями не обладают. Они беспомощны в ДНК-генеалогии, и в первую очередь это относится к представителям популяционной генетики в России. Их наука – сугубо описательная, пусть таковой и остается. ДНК-генеалогия прошла намного дальше, и с ней «конкурировать» уже бесполезно. Можно только мирно сотрудничать.

Но расчеты по мутациям в ДНК выводят на новые горизонты знания, и там ДНК-генеалогия призвана образовать творческий симбиоз с археологией, историей, лингвистикой, этнографией, этногенезом и сопряженными науками. Там провести разграничительные линии уже невозможно. Проекты Академии будут тому наглядным доказательством.

Приоритетным направлением научной деятельности Академии является также развитие теоретической базы ДНК-генеалогии и разработка на ее основе надежных методов прикладной ДНК-генеалогии, ведение собственных научных проектов и организация работы Лаборатории ДНК-генеалогии. Поскольку Академия ДНК-генеалогии сразу выходит на широкие круги общества, то мы с самого начала отказались от «элитной модели» Академии. Причина проста – о ДНК-генеалогии говорят, спорят, начинают изучать свои ДНК-генеалогические линии, ждут открытия Лаборатории ДНК-генеалогии. Оказалось, что у нового научного направления очень много сторонников. И это замечательно. Общественная поддержка очень важна для становления и развития ДНК-генеалогии, и каждый может стать членом Академии ДНК-генеалогии. Но есть два условия. Первое – знание своей гаплогруппы, иначе какой деятельный интерес к ДНК-генеалогии без этого? Но мы не имеем права никого обязывать проходить ДНК-тест в США. Поэтому тест можно будет выполнить в Лаборатории ДНК-генеалогии, которая скоро должна открыться в Москве. Второе условие – поддержка Проектов Академии ДНК-генеалогии, с размером ежегодного взноса 3000 рублей. Это важно, потому что другого финансирования у Академии нет, а работы много. От уплаты взноса в первый год освобождаются те, кто уже сделал ранее пожертвование в сумме не менее 3000 рублей, или оказал другую конкретную помощь Академии – помогал в оформлении документации при регистрации Академии, разработал логотип Академии и т. д. Список членов указывается на официальном сайте http://dna-academy.ru/


Вопрос 6: Вы ввели понятие научного патриотизма в рамках понятий ДНК-генеалогии. Поясните, пожалуйста.

В общественном смысле научный патриотизм – это укрепление интереса к своим корням, предкам, формирование взаимного уважения между разными народами. Суть научного патриотизма – в восстановлении исторической справедливости о происхождении народов и их роли в истории. Это сейчас – более чем актуальная задача в отношении буквально всех народов Российской Федерации, и не только их. В частности, ДНК-генеалогия призвана активно противостоять русофобам всех мастей в их непрекращающихся уже более двухсот лет попытках умалить значимость славян и русских в истории, в том числе с привлечением порочной концепции «норманизма», которую громил еще М.В. Ломоносов. ДНК-генеалогия резко сдвигает баланс в сторону научного патриотизма, показывает, что норманизм – это фантом, это мировоззрение «пятой колонны», русофобство по своей сути. В проявлении своего научного патриотизма крайне заинтересованы осетины, карачаево-балкарцы, ингуши и чеченцы, которые все хотят доказательств своего аланского происхождения. В проявлении научного патриотизма крайне заинтересованы крымские татары и татары в целом, башкиры, чуваши, марийцы и множество других народов, в том же исключительно заинтересованы таджики, киргизы, афганцы, армяне, грузины, крайний интерес проявляют народы бывшей Югославии – сербы, словенцы, хорваты, боснийцы, македонцы, черногорцы и другие. Все возлагают надежды на ДНК-генеалогию и ее Проекты.


Вопрос 7: Над какими Проектами идет или будет проводиться работа в Академии ДНК-генеалогии?

Проекты Академии ДНК-генеалогии объединяют комплекс мультидисциплинарных исследований, включающих ДНК-генеалогию, историю, археологию, языкознание, этнографию и сопряженные науки, и ставят целью, как правило, продвижение наших знаний там, где их пока не сумели в полной мере, или вообще, продвинуть более традиционные науки. Проекты Академии позволяют критически рассмотреть существующие данные, выводы и концепции (если такие имеются), и сформулировать новое знание. Проекты создаются на тех направлениях, где ученые не пришли к консенсусу или вопрос о консенсусе пока даже не был поставлен, хотя проблема в целом известна, порой столетиями.

Аланский Проект. В настоящее время ряд этнических образований Российской Федерации претендуют на свое происхождение от алан – ветви скифов, которых историки относят к периоду от начала нашей эры до 8-10 вв. н. э. Это, в первую очередь, карачаево-балкарцы, осетины, ингуши и чеченцы. Аргументы выдвигаются разные – от легенд, сказаний, этнонимов, лингвистических признаков до анатомических особенностей, которые приписываются аланам. Свидетельства науки при этом обычно категоричны, противоречивы и не могут быть примирены друг с другом уже как минимум 200 лет. Аланский Проект Академии основывается на массовом тестировании ДНК современников из упомянутых этносов, на тестировании ископаемых ДНК из паспортизированных скелетных останков, отнесенных археологами к аланам, и на ожидаемом консенсусе специалистов из всех упомянутых этносов (последнее желательно, но не обязательно, если консенсуса невозможно достичь даже при наличии убедительных данных ДНК-генеалогии). Проект необходимо проводить при непосредственном участии региональных правительств и научных учреждений. Энтузисты, готовые участвовать в реализации Проекта, на местах имеются, включая государственных служащих.

Арийский Проект базируется на массовом тестировании таджиков и жителей сопредельных территорий, а также на тестировании ископаемых ДНК исторической Бактрии. Цель Проекта – отнесение гаплотипов и гаплогрупп/субкладов тестируемых к историческим ариям и/или скифам и соответствующее продвижение исторической науки. Проект необходимо проводить при непосредственном участии правительств всех упомянутых этнических образований. Энтузиасты, включая профессоров вузов Таджикистана и правительственных служащих, готовы участвовать в реализации Проекта.

Проект Рюриковичей ставит своей целью выяснение того, к каким ДНК-генеалогическим линиям относятся наиболее вероятные современные претенденты на принадлежность к династии Рюриковичей, тестирование ДНК из усыпальниц и достижение консенсуса, если это возможно, с ведущими генеалогами России и Польши. Проект необходимо проводить при непосредственном участии правительств России и Польши.

Проект древних славянских племен ставит своей целью идентификацию ДНК-линий основных древнеславянских племен – полян, древлян, вятичей, кривичей (смоленских, избор-ских и северных), ильменских (новгородских) словен, радимичей, дреговичей, северян, полочан, волынян, бужан (потомков дулебов), уличей, тиверцев, хорват и других. Проект необходимо проводить в содружестве с археологами и историками соответствующих направлений.

Татарский Проект ставит своей целью идентификацию ДНК-генеалогических линий основных групп татар Российской Федерации – казанские, астраханские, сибирские, крымские, касимовские, пермские, мишари, тептяри (башкирские), кряшены (волго-уральские), нагайбаки (челябинские) и другие, а также также польско-литовские татары, и выявление их предположительных общих предков по гаплогруппам. Также – выяснение ДНК-генеалогических связей татар с булгарами.

Проект Коэнов ставит целью составление базы данных гаплотипов, относящихся – по заявлениям их носителей – к линии коэнов (коханим), полумифических потомков Аарона, брата Моисея, ДНК-линии Леви, одного из колен Израилевых, жившего предположительно 3600–3300 лет назад. Это – промежуточная цель, на пути к основной цели – выявление того, в какой степени этот миф имеет исторические корни и какая ДНК-линия (гаплогруппа, субклад, гаплотипы) может считаться с наибольшим обоснованием линией Аарона. Проект будет проводиться при поддержке Международной ассоциации коэнов (коханим) и лично Президента Ассоциации, Машуа Коэна.

Проект пропавших 10 колен Израилевых. Основная цель этого Проекта состоит в идентификации ДНК-линий каждого из 12 колен Израилевых, а также ДНК-линии Леви, не входившей в состав 12 колен. Проект будет проводиться при поддержке Международной ассоциации коэнов (коханим) и лично Президента Ассоциации, Машуа Коэна, а также заинтересованных еврейских организаций. Сотрудничество с ними уже ведется.

Сакартвельский проект ставит целью создание базы данных грузинских субэтносов на основе массового тестирования грузин, и в содружестве с грузинскими археологами (в особенности Константина Пицхелаури, чл. – корр. Национальной АН Грузии) продвижения знаний об истории Грузии и грузинских археологических культурах в контексте их родовой принадлежности. Проект поддерживает Президент Национальной АН Грузии, академик Г.И. Квеситадзе. Главные музеи Грузии выразили желание предоставить свои паспортизированные образцы ископаемых скелетных останков для ДНК-тестирования.

Норманнский Проект преследует цель ДНК-генеалогической проверки так называемой «норманнской теории» основания российской государственности и массового заселения Руси норманнами, под которыми обычно подразумеваются скандинавы (по разным данным от 10 тысяч человек до сотен тысяч человек) во второй половине I тыс. н. э.

Балканский Проект ставит целью ДНК (родовую) реконструкцию состава мужской популяции Сербии, Хорватии, Боснии-Герцеговины, Словении, Македонии, Черногории во II тыс. до н. э. – I тыс. н. э., выяснение роли предков славян в Троянских войнах (конец II тыс. до н. э.) и в военных походах по Малой Азии в те же времена, в выявлении славянского компонента в исторических венетах и этрусках. Помимо этого, Проект включает изучение ископаемых ДНК в скелетных останках Лепенского Вира (9–7 тысяч лет назад), культурах Винча, Старчево и родственных балканских культурах.

Разумеется, список Проектов не ограничивается перечисленными выше. Он постоянно в рассмотрении и развитии.


Вопрос 8: Русское издание Википедии утверждает, что вы «позиционируете ДНК-генеалогию как авторскую концепцию, как новую научную дисциплину». И далее Википедия утверждает – «однако исследования генетического разнообразия человечества ведутся на протяжении уже почти сотни лет. В рамках современной популяционной генетики существует прикладная наука – генетическая генеалогия, изучающая характер генетических взаимосвязей на основе генеалогических ДНК-тестов. Генетическая генеалогия имеет в России и в других странах другое популярное название – ДНК-генеалогия». Прокомментируете?

В этой книге я буду многократно обращаться к подобным заявлениям и их авторам. Авторы их – как правило, популяционные генетики, которые с самого начала появления ДНК-генеалогии заняли позицию конфронтации, к чему причин было немало. Одна из основных причин была в том, что попгенетики хотели полностью контролировать исследования по «генетическому разнообразию человечества», как сформулировано в вопросе выше, и противодействовали всему, что выходило из под их контроля. Со мной их контроль не удался с самого начала, отсюда негодование и конфронтация, которые со временем трансформировались с их стороны в «войну на уничтожение», сопряженную с «информационной войной».

Другая важная причина заключалась в том, что исследования в области ДНК-генеалогии немедленно выявили вопиющую безграмотность популяционных генетиков, особенно в расчетном аппарате, представлении данных, показали полное отсутствие научной школы в российской и международной попгенетике. Оказалось, что популяционные генетики в течение последних двух десятилетий генерировали фактически мусор в академической литературе. Расчеты датировок при использовании принятых и узаконенных в попгенетике «популяционных скоростей», они же «скорости Животовского», неизменно приводили к ошибкам на уровне 250–350 % (!), то есть там, где датировки древних племен и их миграций должны были быть, скажем, 5000 лет, у популяционных генетиков получались 15 тысяч лет. Естественно, это приводило к совершенно искаженным интерпретациям исторического характера, в свою очередь приводившим к форменному абсурду. Я в своих работах всё это вскрывал и описывал, а попгенетики ничем не могли возразить.

Так продолжалось семь лет, с 2007 по 2014 гг, попгенетики молчали и делали вид, что ничего не происходит. За эти семь лет ни одного возражения от них в научной литературе не было, не считая совершенно беспомощного ответа от группы попгенетиков[9] на мою критику в журнале Human Genetics (2009)[10]. Да и там было не нападение на ДНК-генеалогию, а была робкая и пассивная защита «популяционных скоростей» в попгенетике, главным аргументом которой было, что «их применяют в литературе», значит, все в порядке. На этом я ниже еще остановлюсь.

Так вот, в ноябре 2014 года попгенетики открыли агрессивную кампанию против ДНК-генеалогии. Но поскольку никаких возражений против самой новой науки они найти не могли, то они обратили свою атаку на меня лично, на факты моей биографии и професссиональной деятельности, и основное внимание было при этом уделено лжи, подтасовкам, передергиваниям. Об этом уже было и будет в этой книге. Статья в Википедии обо мне (которую не я готовил и не я обновлял) подверглась форменному вандализму, выросла за счет лжи, подтасовок и недоразумений во много раз, и то, что написано в вопросе выше – тоже часть этой кампании. Небольшая группа вандалов (а то, что группа небольшая, ясно из обсуждения этой статьи в Википедии, причем наиболее активным вандалом был кандидат филологических наук А. Касьян, отнюдь не обременный знаниями ни в попгенетике, ни тем более в ДНК-генеалогии. Что им двигало в такой активности уродовать статью в Википедии – я понятия не имею. Он же подписал печально известное и лживое «письмо 24-х», о котором шла речь в Предисловии этой книги, и будет идти речь дальше, поэтому его активность в уродовании статьи в Википедии отнюдь не отражало его объективность.

Теперь, после этих объяснений, вернемся к заданному вопросу. Я не знаю, что я там «позиционирую», но ДНК-генеалогия действительно является новой научной дисциплиной. В науке понятие «новой научной дисциплины» определяется ее методологией. Методология ДНК-генеалогии не является методологией ни генетики, ни популяционной генетики. Расчетный аппарат ДНК-генеалогии является полностью отличным от расчетного аппарата генетики или популяционной генетики. Публикации по ДНК-генеалогии совершенно отличаются от публикаций по генетике или популяционной генетике. Википедия даже поместила высказывание О. Балановской, что она не в состоянии понять расчетный аппарат ДНК-генеалогии – цитирую: «они обрабатывают данные непонятными способами». Действительно, какая же ДНК-генеалогия «популяционная генетика», когда математический аппарат другой и непонятный? Вывод – не «позиционирую» я ДНК-генеалогию как новую научную дисциплину, а она таковой и является.

Далее, Википедия утверждает, что «однако исследования генетического разнообразия человечества ведутся на протяжении уже почти сотни лет». Ну и замечательно, только причем здесь ДНК-генеалогия? Мало того, что ДНК-генеалогия не имеет дело с «генетическим разнообразием», нет генов в ДНК-генеалогии. ДНК-генеалогия – не генетика. Это попгенетика занимается наследственными заболеваниями, картированием их по территориям и этносам, а ДНК-генеалогия этим совершенно не занимается. Да и вообще понятие «разнообразие» в ДНК-генеалогии отсутствует. Это попгенетика измеряет какие-то мутные «коэффициенты разнообразия», которые никогда и никому не были нужны. Стандартным местом в попгенетике является сообщение, что какая-то популяция имеет «коэффициент разнообразия» 0.98, а какая-то имеет 0.87, но я никогда не видел, чтобы эти цифры в публикациях обсуждались. Это совершенно никчемные величины. Разумеется, в ДНК-генеалогии их нет. Вывод – эти «исследования ведутся на протяжении уже почти сотни лет» – к ДНК-генеалогии никакого отношения не имеет. Мало ли что там «ведутся»? Иследования в астрологии тоже давно ведутся, но причем здесь ДНК-генеалогия?

Википедия продолжает – «В рамках современной популяционной генетики существует прикладная наука – генетическая генеалогия, изучающая характер генетических взаимосвязей на основе генеалогических ДНК-тестов». Ну и пусть существует, ДНК-генеалогия там опять не при чем. Балановские написали большой том под названием «Русский генофонд на Русской равнине», как обычно у них, совершенно невразумительный, и что показательно – во всем томе не приведено ни одного гаплотипа. Это и есть, видимо, «генетическая генеалогия». Да и вообще «изучение характера генетических взаимосвязей» не имеет никакого отношения к ДНК-генеалогии. Нет там генетики, нет и «генетических взаимосвязей».

Наконец, опять Википедия – «Генетическая генеалогия имеет в России и в других странах другое популярное название – ДНК-генеалогия». Да, имеет, и в России тоже, только слов «ДНК-генеалогия» до наших работ в России не было. Сейчас – есть. Кто хочет оспорить – пусть найдет хотя бы одну публикацию до 2006 года на русском языке, в который были бы слова «ДНК-генеалогия». Да и сейчас вряд ли есть, за исключением наших работ и тех, кто на них ссылается. Давайте проверим. Вводим в Google слова ДНК-генеалогия, на русском языке. Смотрим на первые десять результатов:

1. Реклама тестирующей компании Гентис, 2010 год.

2. Опять реклама Гентис, 2013 год

3. Видеоролик моего выступления на презентации книги.

4. Видеоролик моего выступления «Се – человек».

5. Реклама компании Гентис, зарегистрированной в 2009 году.

6. Описание нашего сайта «Родство», с сообщением, что термин «ДНК-генеалогия» впервые появился на этом сайте в 2006 году.

7. Статья «Введение в ДНК-генеалогию», написанная на основании моих статей и выступлений.

8. Сайт Игоря Гаршина, 2014 год.

9. Выступление М.Н.Задорнова, 2013 год.

10. Реклама моей книги «Происхождение славян».

Ну и далее – выступление члена нашей Академии ДНК-генеалогии; содержание нашего Вестника Академии ДНК-генеалогии; опять реклама книги «Происхождение славян», и так далее, 342 тысячи результатов, как сообщает Google. Кто найдет слова ДНК-генеалогия ранее 2006 года на русском языке – сообщите мне, буду признателен. На английском языке – одна статья с этими словами в названии, см. Вопрос 1. Всё. Никаких «генетическая генеалогия имеет в России и в других странах другое популярное название – ДНК-генеалогия» до 2006 года нет. Опять Википедия обманула. Зачем? А потому что ее «писатели» играют в детскую игру – любой ценой обмануть. Они думают, что это что-то изменит, или там репутацию уронит, что им страстно хочется. Зачем? Это, пожалуйста, к психиатру, не ко мне.


Вопрос 9: Чем популяционная генетика отличается от ДНК-генеалогии?

Практически всем. Адресуемыми вопросами, целями и задачами, методологией, расчетным аппаратом, характером выводов, определениями популяций. Но главное – это вообще другая область науки. Популяционная генетика – описательная по сути, а ДНК-генеалогия – аналитическая. Попгенетика описывает структуру популяций, ДНК-генеалогия описывает историю популяций. Название ведь о многом говорит. Не случайно биологическая химия – это химия, а химическая физика – это физика. Физическая химия – это химия. Биофизика, то есть биологическая физика – это физика. Второе слово в таких составных названиях дисциплин показывает, к какой области науки дисциплина относится. Так вот, популяционная генетика – это генетика. А ДНК-генеалогия к генетике по сути дела никакого отношения не имеет, это – генеалогия, то есть история.

Популяционные генетики с самого начала возникновения термина «ДНК-генеалогия» пытались не допустить возникновения новой науки, потому что прекрасно понимали, что потеряют контроль, монополию на публикации в этой области, и самое главное – что их примитивные и зачастую неверные методы получат огласку. Так, кстати, и получилось. Поэтому они с самого начала возражали против термина ДНК-генеалогия, настаивали, что это то же самое, что популяционная генетика. Это, конечно, не так.

В итоге в российской популяционной генетике сложилась печальная ситуация. Небольшая группа крикливых оппонентов, одни из которых хотят сохранить для себя систему распределения финансовых грантов, то есть продолжать иметь полный доступ к деньгам, другие – их приятели, у третьих есть личные причины, у каждого свои, начинают агрессивно «захлопывать», не гнушаясь никакими средствами. Для этого есть Википедия, есть научные конференции, которые они сами организуют, есть сетевые издания, которые они сами контролируют, есть «дискуссионные сайты», типа «Троицкого варианта», которыми они или управляют, либо вводят ведущих в заблуждение, и кампания разворачивается. Как показывают данные, которые приведены ниже в данной книге, всего десяток человек-оппонентов генерируют на «дискуссионных сайтах» тысячи сообщений, а поскольку это почти исключительно ложь и передергивания, то дискутировать там смысла не имеет. Тактика таких дискуссий давно отработана. Выдвигается очередное ложное положение. Если на него не отвечать, то пишут, что не отвечает, значит, согласен. Если отвечать, раздается хор голосов, что «он оправдывается», значит, неправ. Потоком идут лживые приписки, которые «обвиняемый» никогда не говорил, приводятся якобы «сведения» персонального характера, которые не соответствуют действительности. Отвечать на все это смысла не имеет.

Так вот, о популяционной генетике. Популяционная генетика – это часть генетики, о чем говорит ее название, но со своими особенностями. Главная задача популяционной генетики – это выявление связи между генотипом и фенотипом, то, к чему ДНК-генеалогия не имеет отношения. Популяционная генетика иногда тоже рассматривает гаплогруппы и гаплотипы Y-хромосомы, как и ДНК-генеалогия, но на этом сходство заканчивается. Аппарат популяционной генетики, применяемый для интерпретации получаемых данных, например, «метод главных компонент», характеризуется со стороны ДНК-генеалогии как совершенно примитивный и ведущий к заблуждениям, и не используется в ДНК-генеалогии. Он не отвечает задачам ДНК-генеалогии.

В целом же генетика человека – это наука, изучающая наследственность и изменчивость признаков, определяющих врожденные особенности человека, и передаваемых, как правило, через гены. Но ДНК только на 2 % состоит из генов, а в Y-хромосоме генов вообще ничтожная доля. ДНК-генеалогия в настоящее время изучает в основном Y-хромосому, и не изучает наследственность и изменчивость упомянутых признаков, передаваемых через гены.

Но дело даже не столько в этом. Направления и области науки определяются не объектами исследования, а методологией исследования. Именно методология исследования отличает, например, химию от физики, хотя объекты часто одинаковы. Методология генетики совершенно другая, чем методология ДНК-генеалогии. У них разные задачи исследований. ДНК-генеалогия по сути историческая наука, она оперирует хронологией, датировками древних событий, и для этого ДНК-генеалогия использует свой расчетный аппарат, которого нет в методологии генетики. ДНК-генеалогия использует и развивает методы физико-химической кинетики в применении к ДНК, переводит картину мутаций в хронологические, исторические показатели, как указывалось выше. Это вообще не входит в методологию генетики, у нее другой экспериментальный и аппаратурный базис.

Повторяем, что экспериментальные данные ДНК-гене-алогии – это картина мутаций в нерекомбинантных (то есть не комбинирующихся с другими в ходе передачи наследственной информации потомкам) участках мужской половой хромосомы (на самом деле – и в митохондриальной ДНК, но пока в малой степени, так как информативность мтДНК в ДНК-генеалогии пока несравненно меньше, чем информативность Y-хромосомы). Речь здесь идет об информативности для исторических исследований, которую определяет картина мутаций как в Y-хромосомах отдельных людей, так и их групп, племен, родов, популяций. Естественно, в данном контексте термин «популяций» относится к мужской половине рассматриваемой популяции. В ДНК-генеалогии популяция – это мужская часть населения, на которую распространяются выводы, полученные при рассмотрении определенной выборки. Популяция может или ограничиваться выборкой, или, чаще, быть шире выборки, но при этом подразумевается или доказывается, что выявленные закономерности выборки распространяются на рассматриваемую популяцию. Например, если в пределах популяции сделаны несколько независимых выборок, и результаты в пределах погрешности расчетов совпали, то эти результаты могут распространяться на всю популяцию, пока не найдено обратного.

В ДНК-генеалогии понятие популяции имеет несколько другой смысл, чем в популяционной генетике. Если в ДНК-генеалогии, как пояснено выше, популяция – это мужская часть населения, исторически сложившаяся на определенной территории или в ходе древней миграции, и относящаяся к одному роду, как правило, по мужской линии, то есть воспроизводящая себя в границах рода из поколения в поколение, то в популяционной генетике популяция – это относительно обособленная группа населения, исторически сложившаяся на определенной территории и воспроизводящая себя в этих границах из поколения в поколение. Как видно, между этими двумя определениями популяциями есть два заметных различия. Первое – что в популяционной генетике популяция включает мужчин и женщин, в ДНК-генеалогии – или только мужчин, или только женщин. Причина проста – расчеты в ДНК-генеалогии ведутся или только по мужской линии (Y-хромосома), или только по женской (мтДНК). Второе – в ДНК-генеалогии нет требования обособленности популяции, потому что критерии выборок и расчетов другие. Если на одной территории проживают носители нескольких гаплогрупп, то после идентификации этих гаплогрупп обработка соответствующих данных производится раздельно. В итоге выясняется, как правило, что их древние миграции были различными, что датировки тех миграций были различными, и что, разумеется, общие предки разных гаплогрупп, то есть популяций, были различными.

Итак, методология новой науки – перевод динамической картины мутаций в хронологические показатели, во времена жизни общих предков популяций, а на самом деле – общих предков древних родов и племен. То есть фактически по мутациям в ДНК производится расчет времен, когда в древности жили эти рода и племена, и как эти времена меняются от территории к территории, что может указывать на направления древних миграций[11].

Попгенетики утверждают, что и генетика, и ДНК-генеалогия изучают ДНК, значит – ДНК-генеалогия это генетика. Но это ошибка – полагать, что направление науки определяется объектом исследования. Изучать ДНК- это далеко не обязательно генетика. Например, химик, растворяя ДНК в кислоте и изучая, скажем, вязкость получаемого раствора, вовсе не занимается генетикой. Альберт Сент-Дьорди как-то сказал – «Дайте химику динамомашину, и он тут же растворит ее в соляной кислоте». Это вовсе не означает, что химик при этом будет заниматься электродинамикой.

Это же относится и к искаженным и примитивным методам обработки картин мутаций в ДНК в рамках популяционной генетики. Если популяционный генетик увидит (или получит) набор из сотни гаплотипов, скажем, 37-маркерных, в котором, например, четыре гаплотипа одинаковых, и еще семь будут совпадать друг с другом случайными парами, он сообщит, что в наборе имеется «89 уникальных гаплотипов», и это и будет результатом его исследования, который пойдет в статью в научный журнал. Ни он, ни рецензенты не хотят признать, это эта «информация» не имеет ни малейшей ценности, и фактически никому в таком виде не нужна. Но таковы принципы и правила популяционной генетики. «Молекулярной историей» это назвать никак нельзя. А специалист в ДНК-генеалогии сразу скажет, что общий предок этих ста гаплотипов жил 925±105 лет назад, потому что натуральный логарифм отношения 100/4, поделенный на константу скорости мутации для 37-маркерных гаплотипов (0.09 мутаций на гаплотип на условное поколение в 25 лет) равен 36 → 37 условных поколений, то есть общий предок этой сотни гаплотипов жил примерно 925 лет назад. Сказать это с большей определенностью можно тогда, когда подсчитано число мутаций во всех ста гаплотипах, и если оно будет равно, например, 324 (или близко к тому), тогда 324/100/0.09 = 36 → 37 условных поколений (этот метод расчета называется линейным, в отличие от приведенного выше логарифмического), то есть ровно тот же промежуток времени до общего предка. Погрешность расчетов определяется по известным правилам[12]. Совпадение времен до общего предка для «логарифмического» и «линейного» метода (в первом мутации не считаются, во втором считаются) свидетельствует, что закономерности образования мутаций в гаплотипах следуют кинетике первого порядка, что в свою очередь означает, что все сто гаплотипов действительно произошли от одного прямого общего предка.

Популяционная генетика такими подходами не пользуется, они ей чужды по ряду причин, среди них – приверженность устаревшим, традиционным подходам, отсутствие соответствующего образования, клановость, отсутствие хорошей научной школы. Короче, ДНК-генеалогия является другой дисциплиной, нежели популяционная генетика.


Вопрос 10: Можно ли называть снипы и гаплотипы в Y-хромосоме «генами»? Почему попгенетики постоянно называют их «генофондом»?

Называть снипы и гаплотипы/маркеры в Y-хромосоме «генами» категорически нельзя. Называть совокупность снипов и гаплотипов «генофондом» категорически нельзя. То, что их так называют Балановские – это или вопиющая безграмотность, или совершенно расхлябанный жаргон. Они, Балановские, повсюду используют термин «генофонд», относя его к гаплогруппам, субкладам и гаплотипам. Они не понимают, или не знают, что генофонд – это совокупность генов. Даже Википедия это знает, цитирую – «Генофонд (также генный пул, пул генов – англ. «gene pool»)». Понятие генофонда сформулировал еще в 1928 году А.С. Серебровский, цитирую – «Совокупность всех генов данного вида… я назвал генофондом». Нет в гаплотипах и гаплогруппах генов, никакой это не генофонд.

Балановские же от статьи к статье, от высказывания к высказыванию называют снипы (!) «генофондом». Очередной пример, из десятков и сотен, в недавней статье в сборнике «Археология, этнография и антропология Евразии» (Том 43, № 2, 2015), статья называется (привожу только часть названия) «Структура генофонда по данным маркеров Y-хромосомы». В авторах – Е. Балановская. И дальше, первая фраза Абстракта «Изучен генофонд популяции по SNP-маркерам Y-хромосомы». Категорически неверно. Я уже не говорю, что здесь безграмотность еще и в другом – не пишут в Абстракте «изучено то-то», пишут, что именно обнаружили, нашли, какие выводы сделали. Не пишут в Абстракте «мы собирали грибы», пишут «мы нашли 8 кг грибов», если уж объяснять на пальцах. Но Балановская и эти элементарные вещи не знает, научная школа напрочь отсутствует.

Говоря о ДНК-генеалогии – ни к генетике, ни к генофонду она отношения не имеет. Хотя в определённой части ДНК-генеалогии рассматривают и гены, например, при рассмотрении всего генома человека, но это – специальная часть ДНК-генеалогии, и этого мы здесь касаться не будет. ДНК (дезоксирибонуклеиновая кислота) – это не только гены. Гены вообще занимают только 1,9 % последовательности ДНК. Остальные 98,1 % – длинные участки, так называемые «никчёмные». Генов там нет.[13]

«Никчёмными» эти негенные последовательности ДНК назвали по незнанию, и это название уже уходит в прошлое. По мере исследований, оказалось, что эти последовательности хранят массу информации не только «генеалогического» характера. Более того, оказалось, что они, эти «никчёмные» участки, содержат сотни, если не тысячи крошечных генов РНК, кодирующих так называемые микро-РНК, длиной всего пару десятков нуклеотидов каждый, и которые регулируют синтез белков. Но это – предмет другого повествования.

Эти негенные участки ДНК в мужской Y-хромосоме, одной из 23 хромосом, которые доставляются сперматозоидом в организм будущей матери, копируются от отца к сыну, поколение за поколением. Поскольку у матери такой хромосомы нет, то сын наследует её только от отца. Хромосомы сплетаются с материнской ДНК и образуют новую комбинированную молекулу ДНК, в которой хромосомы отца и матери перетасовываются. Перетасовываются все, кроме мужской Y-хромосомы.

Так и получается, что отец передаёт сыну эту Y-хромосому интактной, строго скопированной со своей. Свою Y-хромосому он получил от своего отца. Тот – от своего. И так далее, на тысячи, десятки тысяч и сотни тысяч лет вглубь, назад, к далёким предкам современных людей и к предкам тех далёких предков.

Если бы Y-хромосома так и передавалась из поколения в поколение действительно неизменной, толку для генеалогии от неё было бы мало. Но неизменного ничего в мире нет, особенно когда речь о копировании. Копирования без ошибок не бывает. В том числе и копирования Y-хромосомы.


Вопрос 11: О каких «экспериментальных точках», или «экспериментальных данных» идет речь при описаниях цели и задач ДНК-генеалогии? Что за «динамическая картина мутаций» в Y-хромосоме? Как это – переводить «картину мутаций» в хронологические показатели?

Результаты ДНК-тестирования мужчин в ДНК-генеалогии сводятся к двум основным показателям. Это – гаплотип и гаплогруппа. Гаплотип – это набор чисел, который является «личным номером ДНК-паспорта» любого мужчины, без исключения. А гаплогруппа, фигурально говоря, это обложка паспорта. Это – не индивидуальная, а групповая характеристика. Гаплогруппа определяет носителя гаплотипа в определенный род, или племя. У любой гаплогруппы, как у любого рода или племени, был один общий предок, патриарх. Поэтому как номер паспорта при наличии обложки является уникальным «определителем» человека, так и гаплотип в совокупности с гаплогруппой являются не менее уникальным определителем человека, при условии, что номер (гаплотип) является достаточно протяженным. Примеры дадим ниже.

Если у мужчины такого номера и паспорта нет, то это не мужчина, а женщина. Именно к такому выводу сейчас нередко приходят археологи, которые именно так наиболее надежно определяют пол скелетного остатка в древнем захоронении. Нет Y-хромосомы, нет мужского гаплотипа и мужской гаплогруппы – значит, женщина. У последних – свой ДНК-паспорт, под названием «митохондриальная ДНК», который они передают своим детям, как девочкам, так и мальчикам. А отец передает исключительно Y-хромосому, и только, разумеется, сыновьям.

Иногда бывают забавные ошибки, которые нередко встречаются в генетике, или в популяционной генетике даже в первичных данных. Так, несколько лет назад изучали геном неандертальца, и обнаружили, что его нуклеотидные последовательности соответствуют гаплогруппе R1b, что для неандертальца более чем невероятно. Потом вообще оказалось, что это самка неандертальца.

В итоге генетики поняли, в чем дело – это было загрязнение образца ДНК от современников, собирающих и обрабатывающих образцы. Вопрос был закрыт.

Итак, у каждого мужчины или мальчика есть Y-хромосома (которой, повторяю, у женщин нет), которая с большой точностью передается к сыну от отца, а тому – от своего отца, а тому – от своего, и так на протяжении сотен, тысяч, десятков и сотен тысяч лет, и все эти тысячелетия, поколение за поколением, Y-хромосома передается почти в неизменном виде. «Почти» – это потому что в мире ничего неизменного – на протяжении тысячелетий – не бывает. В Y-хромосоме тоже происходят постепенные (точнее, микроскачками) изменения, и в среднем на каждое поколение, от каждого отца к каждому сыну, в Y-хромосоме происходит одна мутация, при которой один нуклеотид (это – минимальный блок ДНК, размером примерно в молекулу обычного столового сахара) случайно, неупорядоченно превращается в другой. А в Y-хромосоме таких нуклеотидов 58 миллионов. Так что «почти в неизменном виде» – это одна мутация на 58 миллионов потенциальных вариантов, которые в остальном остаются неизменными. Каждая такая мутация наследуется практически навсегда, потому что при копировании ДНК в следующем поколении биологическая копировальная машина в клеточном ядре «не знает», как оно там было в прошлом поколении. Ее задача – копировать.

Поэтому у каждого мужчины в Y-хромосоме своя картина мутаций. У близких родственников картина мутаций похожа, потому что они, родственники, сравнительно недавно произошли от одного общего предка, и дополнительные мутации в их Y-хромосомах еще не успели образоваться. Если общий предок жил тысячелетия назад, то картина мутаций у потомков разная. Как эту картину отображают?

Отображают картину мутаций в виде так называемых гаплотипов, упомянутых выше как «личный паспорт» каждого мужчины, а именно в виде определенных последовательностей чисел, характерных для каждого человека. Чем эта последовательность длиннее, тем уникальнее гаплотип. Например, у автора этих строк гаплотип Y-хромосомы, состоящий из 111 чисел, записывается в следующем виде:


13 24 16 11 11 15 12 12 10 13 11 17 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 31 15 9 15 12 25

27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12

24 15 12 15 24 12 23 19 11 15 17 9 11 11


Это – так называемый 111-маркерный гаплотип. Здесь первое число показывает, что в одном из маркеров, или локусов Y-хромосомы определенная последовательность нуклеотидов повторяется 13 раз. В другом маркере, который здесь показан как следующий, блок нуклеотидов повторяется 24 раза, и так далее.

Покажем для сравнения 67-маркерный гаплотип киргиза, из Киргизского Проекта FTDNA (FTDNA – это наиболее известная американская коммерческая компания, которая также ведет значительную исследовательскую работу, и ведет сотни научных и информационных проектов):


13 25 16 11 11 14 12 12 10 13 11 18 15 9 10 11 11 23 14 21 32 12 15

15 16 11 11 19 23 16 16 19 17 33 40 14 11 11 8 17 17 8 11 10 8 12 10

12 21 22 15 10 12 12 13 8 14 22 21 12 12 11 13 11 11 12 12


И еще один гаплотип, другого киргиза из того же Проекта:


13 26 16 11 11 11 12 12 10 14 11 17 15 9 10 11 11 24 14 21 31 12 15

15 16 11 11 19 23 16 16 18 17 33 40 15 11 11 8 17 17 8 11 10 8 12

10 12 21 22 15 10 12 12 13 8 13 22 21 12 12 11 13 11 11 12 12


Выделены мутации между моим гаплотипом и каждым из приведенных киргизских. Их, соответственно, 31 и 33 мутации, а между двумя киргизскими – всего 9 мутаций. Видно, что оба киргиза между собой намного более близкие родственники, чем каждый из них со мной. Уже просматривается основа для определенных выводов, особенно когда изучаются не два гаплотипа, а десятки, сотни, тысячи гаплотипов.

Здесь мутации в ряде маркеров подсчитывались специальным образом, но не будем сейчас на этом останавливаться. Эти различия можно перевести в хронологические показатели, зная среднюю скорость образования мутаций в гаплотипах, и получится, что общий предок автора этих слов и указанных киргизов жил примерно 4500 лет назад, в середине III тыс до н. э., как раз во времена арийских миграций по Русской равнине и Средней Азии, а обоих киргизов – примерно 1010 лет назад, в начале 11-го века нашей эры. Как делается такой расчет, мы покажем ниже.


Вопрос 12: Вы упомянули, что в Y-хромосоме происходит в среднем одна снип-мутация за поколение. Как это определили?

По данным разных исследователей, необратимые снип-мутации в Y-хромосоме, и, видимо, в ДНК в целом, происходят со средней скоростью между 0.5 × 10-9 и 1.0 × 10-9 на нуклеотид в год. В последнее время прошла серия работ независимых исследователей, в которых средняя скорость снип-мутаций определена как 0.78-0.82 × 10-9 на нуклеотид в год. Наконец, исследователи в компании YFull, которые занимаются расчетами скоростей мутаций в Y-хромосоме, принимают в своих расчетах величину скорости 0.8178 × 10-9 на нуклеотид за год[14], хотя такая точность определения совершенно нереальна. Поскольку вся Y-хромосома – примерно 58 миллионов нуклеотидов, и если скорость снип-мутации – 0.8178 × 10-9 на нуклеотид за год, то это составляет 0.8178 × 10-9х58 × 106 = 0.04743 на всю хромосому в год, или 1.185 на всю хромосому за 25 лет. Даже если скорость мутаций не такая точная, а, как свидетельствуют разные публикации, между 0.5 и 1.0 × 10-9, то снип-мутации происходят в среднем между 0.725 и 1.45 мутаций на всю Y-хромосому за 25 лет. То есть как ни считать, мутации в Y-хромосоме происходят со средней скоростью примерно одна мутация за поколение.


Вопрос 13: В последнее время датировки образования гаплогрупп и субкладов определяют по числу снип-мутаций между субкладами или от рассматриваемого субклада до настоящего времени. Сколько при этом принимают число лет на снип? В литературе встречаются величины от 90 до 200 лет на снип. Как такое может быть? Судя по вашим сообщениям, вы весьма критически относитесь к расчетам по снипам, предпочитая расчеты по гаплотипам. Так ли это?

Такое быть не может по разным причинам – или неправильно считают, или считают по разным фрагментам Y-хромосомы. В ответе на предыдущий вопрос было показано, что если брать для расчетов всю Y-хромосому, то одна снип-мутация происходит примерно раз в 25 лет, и эта величина еще зависит от того, какую скорость мутации принять для расчетов. Если скорость мутации будут брать от 0.5Х10-9 до 1.о × 10-9 на нуклеотид за год, то снип-мутация происходит раз в интервал времени между 34 и 17 лет. Мы уже видим, что если скорость мутации не откалибровать надежно, то точность такого метода невелика. Помимо того, точность в реальных условиях еще более низкая, потому что почти никто не секвенирует полную Y-хромосому в поисках снипов, а секвенируют фрагменты, либо небольшие, в 300–500 тысяч нуклеотидов, либо в 10 миллионов нуклеотидов (как в методе BigY), либо, реже, в 30 миллионов нуклеотидов. Но когда пишут, что секвенируют фрагмент в 10 миллионов нуклеотидов, там фрагмент легко может оказаться между 8 и 11 миллионами, и это еще оптимистическое заключение.

Давайте посмотрим, к чему это приведет. Как отмечалось выше, компания YFull принимает величину константы скорости мутации 0.8178Х10-9, в таком случае одна мутация во всей

Y-хромосоме происходит в среднем раз в 1/0.04743 = 21.08 лет. Во фрагменте в 30 миллионов нуклеотидов – раз в 41 год. Во фрагменте в 10 миллионов нуклеотидов – раз в 122 лет. Если фрагменты малые, в 300 тысяч нуклеотидов, то раз в 4075 лет. Вот и выбирайте. YFull собщает, что средний размер фрагмента Y-хромосомы, по которому они ведут расчеты, составляет 8467165 нуклеотидов (такая точность тоже смешна, ну да ладно, это у попгенетиков неисправимо). Тогда одна мутация в таком фрагменте происходит в среднем раз в 144.41 лет (это опять сообщают YFull, опять с такой точностью). Когда умножают на число снипов, к этому прибавляют еще 60 лет. Как объясняют в YFull, 60 лет – это средний возраст клиента, который к ним обращается.

Итак, если читатель не хочет разбираться в деталях, то на этом этапе можно резюмировать, что если исследователи сообщают, что анализируют (в поисках снипов) фрагменты Y-хромосомы в 10 миллионов нуклеотидов, то там на самом деле может быть восемь с половиной миллионов нуклеотидов, и если при этом считать, что скорость снип-мутации составляет именно 0.8178 × 10-9 на нуклеотид в год, то одна снип-мутация происходит раз в 144 года. На деле там, конечно, погрешность более чем солидная.

Но это еще не всё, и погрешность часто еще значительно больше. Дело в том, что снип-мутации происходят не через равные промежутки времени, а неупорядоченно. Если при этом рассматриваются цепочки снипов протяженностью десятки и сотни тысяч лет, то это аналогично рассмотрению ситуации с сотнями бросков монеты, и погрешности из-за неупорядоченности нивелируются. Но для относительно недавних снипов метод расчета очень неточный. Например, если снип образовался 750 лет назад, то в цепочке нисходящих снипов их всего 750/144 = 5 снипов, и погрешность определения времени образования, согласно формулам математической статистики, не меньше ±46 % (с 68 %-ной достоверностью) или ±92 % (с 95%ной достоверностью). В итоге погрешности у большинства датировок по снипам в таблице значительно более высокие, чем у датировок по мутациям в гаплотипах, которые будут рассматриваться ниже.

Есть еще серьезная проблема – в расчетах компании YFull часто игнорируют фактическое количество снипов, и ставят ту датировку, которая им представляется более правильной, «по понятиям». При этом они всегда постулируют, что при разветвлении снипов они образовались точно в одно и то же время, хотя это события совершенно независимые. По аналогии, если у отца двое сыновей, то их возраст далеко не всегда одинаковый, один мог родиться, когда отцу было 18 лет, другой – когда отцу было 70 лет. Такой постулат, «о равенстве возраста сыновей» часто приводит к ситуациям, когда к одному снипу от вышестоящего ведет 5 мутаций (в среднем 720 лет), к другому 20 мутаций (в среднем 2880 лет), а YFull записывает их «возраст» как одинаковый, либо 720, либо 2880 лет, выбор датировки фактически произвольный. В итоге получаются несуразные датировки.

Примеры – в переходе R1a-Y35 > YP7278 зафиксировано 9 промежуточных снипов (это приведено в таблице на сайте YFull), что соответствует 1300 лет разницы, однако датировка для обоих снипов, родительского и нисходящего, приведена как одинаковая, 4300 лет назад. В переходе CTS3402 > CTS2613 зафиксировано 17 промежуточных снипов (2450 лет разницы), однако датировка для обоих снипов в списке YFull – одинаковые 4300 лет назад, вместо 1850 лет назад для нисходящего, как должно быть (и как дает более точная датировка по гаплотипам). И так в таблицах YFull повторяется десятки и сотни раз.

Приходится на этом столь подробно останавливаться, потому что в последнее время усиленно распространяется легенда, что расчеты по снипам – значительно более точные, чем любыми другими методами. Историки могут принять эту легенду за чистую монету, и опять повторится ситуация последних 15 лет, когда практически все расчеты популяционными генетиками, опубликованные в академических журналах, были кардинально искажены, с завышениями до 300–400 %. Для расчетов на времена удаленные, как правило, более 5-10 тысяч лет назад, и тем более на 100–200 тысяч лет назад, когда число снип-мутаций исчисляется многими сотнями, расчеты по снипам действительно могут оказаться полезными, но вводимые постулаты, как равенство датировок для «параллельных» снипов, опять сводит эту пользу к нулю, если не к отрицательным величинам.

Так что да, я весьма критически отношусь к расчетам датировок по снипам, если они не подтверждены перекрестными расчетами с использованием других методов, например, по мутациям в гаплотипах, о чем речь пойдет ниже. Но часто бывает, что другие методы непригодны, или нет соответствующих гаплотипов. Тогда приходится принимать то, что есть. Но часто бывает, что совпадение расчетов по снипам и гаплотипам вполне удовлетворительное. Это придает уверенность, что в принципе подход, основанный на числе снипов, правильный, но он нуждается в доработке.

Здесь надо сказать, что попгенетики опять в своем амплуа – Балановский уже провозгласил, что метод расчетов по снипам самый точный, и ненавистные ему расчетные подходы ДНК-генеалогии можно отставить. Это опять было провозглашено без какого-либо исследования, и единственная статья, в которой Балановский этот метод использовал, дала неверные результаты. Дело в том, что Балановский в своей манере выхватил из многих вариантов лишь одну скорость мутации – 122 года на снип, без малейшего ее обоснования или проверки, и опять получил неверные датировки[15].


Вопрос 14: Что такое гаплотип, и откуда получают те числа, которые показаны при записи гаплотипов?

Эти числа называются «аллели», и показывают, сколько раз определенная (относительно короткая) последовательность нуклеотидов повторяется в Y-хромосоме ДНК человека. Например, такая последовательность: аденин-гуанин-аденин-тимин, или в сокращенном виде АГАТ, или, как чаще записывают, AGAT. Участок Y-хромосомы, в котором имеет место такой повтор, который еще называют «тандемным повтором», четко определен, и носит название DYS393 (DYS означает DNA Y-chromosome Segment, то есть “сегмент Y-хромосомы ДНК). Каждый из таких участков ДНК называется «маркером», и таких маркеров в Y-хромосоме человека примерно 2500.

В моем гаплотипе, приведенном выше, как и в гаплотипах обоих киргизов, это – первое число, равное 13. Это записывается как DYS393=13, и означает, что у всех нас в данном маркере четверка AGAT повторяется 13 раз. Вот так:




и эти повторы обрамляются уже неупорядоченными последовательностями нуклеотидов в ДНК, как показано выше.

Второе число, аллель в маркере DYS390, у нас троих у всех разное, у меня 24, у одного из упомянутых киргизов 25, у другого – 26. Это – суммарное число повторов других тандемных четверок, а именно TCTG, то есть тимин-цитозин-тимин-гуанин, и ТСТА, тимин-цитозин-тимин-аденин.




В данном случае четверка, TCTG переходит в четверку TCTA, и число повторов складывается.

То есть мы видим, что тандемные повторы состоят не только из разных нуклеотидов в разных комбинациях, и различаются не только числом повторов, но и порой разные повторы комбинируются в одном маркере. Все это создает огромное число вариантов комбинаций, и, как уже было упомянуто, в Y-хромосоме имеется примерно 2500 разных маркеров. Из них в ДНК-генеалогии используется пока не так много, немногим более ста, в редких случаях несколько сотен, как будет показано ниже. Большинство их стандартизованы, то есть записываются в стандартном виде, содержат определенное число аллелей, записанных в определенной последовательности. Ниже я продемонстрирую разные варианты гаплотипов, взяв свой за пример.

Гаплотипы ДНК выбирают так, чтобы в них маркеров было как можно больше (но все-таки чтобы оставаться в рамках практичности), и в ранних работах, примерно до 2005-го года, использовались 6-маркерные гаплотипы, как, например, такой


16 12 24 11 11 13


Это – аллели в маркерах DYS19, DYS388, DYS390, DYS391, DYS392 и DYS393. Видно, что в ранних работах маркеры в гаплотипах располагали в порядке нумерации. Но система быстро сбилась из-за ее непрактичности, потому что при добавлении новых маркеров приходилось опять перетасовывать всю цепочку гаплотипа. Поэтому до 12-маркерных гаплотипов (в 7-, 8-, 9-, 10-, 11-маркерных) наблюдается разнобой в их последовательности, а с 12-маркерных система в целом упорядочивается, и новые маркеры просто добавляются к первым 12 маркерам:


13 24 16 11 11 15 12 12 10 13 11 17


Это – маркеры DYS393, DYS390, DYS19, DYS391, DYS385a, DYS385b, DYS426, DYS388, DYS439, DYS389-1, DYS392 и DYS389-2.

Впрочем, некоторый разнобой есть и здесь. Например, последняя аллель записывается в двух вариантах – как записано выше (DYS389-2 = 17), и как сумма DYS389-1 и DYS389-2, то есть 30. На мой взгляд, лучше первый вариант, потому что со вторым часто происходит путаница с подсчетом числа мутаций. Например, если мутация в маркере DYS389-1 изменила величину аллели с 13 до 14, то сразу видно, что там всего одна мутация:


13 24 16 11 11 15 12 12 10 13 11 17

13 24 16 11 11 15 12 12 10 14 11 17


А во втором варианте записи имеем


13 24 16 11 11 15 12 12 10 13 11 30

13 24 16 11 11 15 12 12 10 14 11 31


и для неопытного глаза представляется, что там прошли две мутации.


Далее идут 17-, 19- и 23-маркерные гаплотипы, в которые имеются уже несколько рассогласований – и по порядку маркеров, и по величинам аллелей, но не будем на этом здесь останавливаться.

Далее идут 25-маркерные гаплотипы, в которых к первой 12-маркерной панели добавлена вторая, 13-маркерным панель:


13 24 16 11 11 15 12 12 10 13 11 30–16 9 10 11 11 24 14 20 34 15

15 16 16


и 37-маркерные


13 24 16 11 11 15 12 12 10 13 11 30–16 9 10 11 11 24 14 20 34 15 15

16 16–11 11 19 23 15 16 17 21 36 41 12 11


Здесь показан пример записи гаплотипов с разделительными дефисами (или тире) между панелями гаплотипов, чтобы не сбиваться при длинных, монотонных последовательностях чисел. Сейчас работа рутинно ведется с 67-маркерными гаплотипами


13 24 16 11 11 15 12 12 10 13 11 30–16 9 10 11 11 24 14 20 34 15 15

16 16–11 11 19 23 15 16 17 21 36 41 12 11–11 9 17 17 8 11 10 8 10

10 12 22 22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13


и 111-маркерными гаплотипами


13 24 16 11 11 15 12 12 10 13 11 30–16 9 10 11 11 24 14 20 34 15 15

16 16–11 11 19 23 15 16 17 21 36 41 12 11–11 9 17 17 8 11 10 8 10

10 12 22 22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13–31 15

9 15 12 25 27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10

18 15 20 12 24 15 12 15 24 12 23 19 11 15 17 9 11 11


Это все, напоминаю, гаплотип одного и того же человека, автора данной книги, все они – один и тот же «ДНК-генеалогический паспорт», только с разным разрешением, которое, естественно, тем больше, чем более протяженный гаплотип. Но наука на этом не останавливается, и, например, у того же автора определен уже 431-маркерный гаплотип:


13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 31 15 9 15 12 25

27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12

24 15 12 15 24 12 23 19 11 15 17 9 11 11 10 12 15 15 10 10 8 8 9 13 7 8

10 10 13 14 14 15 31 32 11 10 9 9 8 24 8 8 8 16 22 22 24 21 23 14 16

25 28 15 15 6 11 14 15 8 14 11 12 10 11 10 10 11 11 18 10 12 10 7 10 5

8 9 5 5 11 15 8 29 6 7 10 13 11 6 7 7 7 16 10 11 16 22 23 11 12 12 10 7

12 12 13 7 3 20 18 11 11 8 9 13 13 10 11 22 12 16 13 14 11 11 12 10 12

9 13 9 12 11 12 16 7 14 12 10 9 10 4 7 7 13 13 12 11 9 11 10 11 14 8 4 8

6 11 11 16 9 11 13 19 12 12 9 10 9 9 11 11 9 9 14 14 15 9 7 10 12 14 13

14 14 12 6 32 10 11 16 8 7 17 17 11 11 6 13 12 13 11 10 7 13 12 7 12 12

7 14 17 17 11 25 8 8 12 8 8 1113 11 12 10 8 13 8 13 14 10 11 9 20 17 15

36 9 13 14 39 33 36 9 10 10 12 18 19 13 9 14 44 10 8 14 9 8 20 11 11

11 11 10 9 9 9 8 8 8 8 9 11 9 23 11 9 16 31 8 20 8 13 12 8 16 10 9 33

27 23 22 10 8 12 10 8 14 8 8 32 55 7 7 5 9 6 11 11 11 13 9 39 33 7 8

27 7 5 13 7 15 28 25 60 42 12 31 22 20 12 3 4


Таких гаплотипов в мире определено пока всего несколько десятков, так что практическая польза от них пока невелика, за исключением нескольких специальных случаев, которые будут пояснены ниже.

В академических публикациях по популяционной генетике, впрочем, пока продолжают использовать гаплотипы от 8- до 17-маркерных, и лишь в крайне редких случаях более протяженные, и это тот случай, когда «любители» далеко обогнали профессионалов. Хотя те «любители» на самом деле зачастую намного квалифицированнее профетоионалов, это просто профессионалы называют тех «любителями», чтобы не признавать свое колоссальное отставание и интеллектуальный застой в популяционной генетике. Этого вопроса мы коснемся ниже, его не обойти при изложении ДНК-генеалогии.


Вопрос 15. После изложения основ ДНК-генеалогии и ее отличий от популяционной генетики, подведите, пожалуйста, итоги по значимости ДНК-генеалогии, о том, как она появилась и какие в этой области Ваши самые значимые публикации.

Итак, речь здесь идет о новой науке, которая только создается, основы которой только закладываются в последние годы. Если точнее, то основы этой новой науки уже созданы, причем стремительно[16], и идет прогрессивное накопление экспериментального материала. Новый материал поступает потоком, ежедневно в базы данных уходят десятки и сотни новых «экспериментальных точек», которые по принципу обратной связи корректируют методологию новой науки, что приводит к уточнению методов расчета.

Имя этой науки – ДНК-генеалогия. Ее экспериментальные данные – это картина мутаций в нерекомбинантных участках мужской половой хромосомы (на самом деле – и в митохондриальной ДНК, но в этой книге речь пойдет в основном о Y-хромосоме, более информативной для исторических исследований), причем картина мутаций как в Y-хромосомах отдельных людей, так и их групп, популяций. Методология новой науки – перевод динамической картины мутаций в хронологические показатели, во времена жизни общих предков популяций, а на самом деле – общих предков древних родов и племен. То есть фактически производится расчет времен, когда в древности жили эти рода и племена[17]. Более того, расчеты показывают, как эти времена меняются от территории к территории, что может указывать на направления древних миграций[18].

Мутации, рассматриваемые в ДНК-генеалогии – это или одиночные (как правило) замены нуклеотидов в ДНК, как, например, аденин на цитозин, или цитозин на тимин, или вставки нуклеотидов, или делеции, или мутации более сложные, при которых ошибка копирующего фермента приводит к переносу в Y-хромосоме целого блока нуклеотидов, тандемного, как его порой называют. Это дает или удлинение серии таких блоков на один (редко – сразу на два-три блока), или их укорачивание. Первые мутации – SNP (Single Nucleotide Polymorphism, или в переводе «одиночные нуклеотидные вариации»), или «снипы», обычно очень стабильны, и их для ДНК-генеалогии отбирают только такие, которые случаются только один раз (два раза – максимум) за историю человечества. Поэтому они являются маркерами родов человечества. Примеры будут даны ниже.

Мутации второго типа – STR (Short Tandem Repeats, или «короткие тандемные повторы») – значительно более быстрые, и происходят в определенных участках, или локусах, или маркерах (это все синонимы) Y-хромосомы ДНК раз в несколько десятков или сотен поколений. Набор этих маркеров составляет гаплотип, примеры гаплотипов будут даны ниже. Гаплотип – это по сути цепочка чисел, показывающих число повторов в определенных маркерах.

Естественно, чем длиннее гаплотип, тем выше вероятность того, что в нем произойдет мутация. Мы уже поясняли выше, что мутация в гаплотипах – это результат ошибки в копировании блоков нуклеотидов, тех самых «коротких тандемных повторов», биологической системой копирования ДНК в клетке. Поскольку этих «коротких тандемных повторов» в Y-хросомоме многие тысячи (выше показано 431 таких повторов, и это только среди 10 миллионов нуклеотидов Y-хромосомы, этот размер определяется методологией исследования; всего же в Y-хромосоме примерно 58 миллионов нуклеотидов, или, точнее, нуклеотидных пар, но не будем здесь вдаваться в излишние подробности). Отсюда можно заключить, что таких «тандемных повторов» в Y-хромосоме может быть примерно 2500, и это, видимо, максимально возможный размер гаплотипа. Каждый «тандемный повтор», то есть маркер, мутирует, то есть копирующая система ошибается при копировании протяженных гаплотипов, с вероятностью примерно 0.00178 раз в поколение при протяженнности поколения 25 лет, или раз в 560 поколений, или раз в 14 тысяч лет. Здесь надо сделать два замечания. Во-первых, эта скорость мутации, раз в 14 тысяч лет – средняя величина, рассчитанная по большому числу маркеров. Чем короче гаплотип, тем реальная скорость мутации более отклоняется от средней величины. Во-вторых, величина поколения в 25 лет в ДНК-генеалогии называется условным поколением, она – сугубо математическая величина. Если кому-то больше нравится брать 30 лет за поколение, то вероятность мутации на 30 лет составит примерно 0.00214, или раз в 468 поколений (по 30 лет), или раз в 14 тысяч лет. Как видим, конечный результат получается точно такой же. Более подробно это будет показано ниже.

Поэтому долгие споры, которые популяционные генетики ведут уже многие десятилетия, а именно, сколько лет брать на поколение, не имеют большого смысла, да ни к чему так и не привели. Они просто не очень знакомы с понятием константы скорости мутации (k), а она в расчетах всегда помножена на протяженность поколения (t). Поэтому протяженность поколения нельзя брать произвольно, как захотим, она завязана на константу скорости мутации. Если взять 25 лет на поколение для одной константы скорости мутации, 30 лет – для другой константы, 20 лет на поколение для еще одной константы, но конечный результат получается один и тот же. Потому что это произведение (kt) калибруется по известным генеалогиям и историческим событиям.

Как было отмечено выше, мутация в каждом маркере в среднем происходит раз в 14 тысяч лет, но в гаплотипах, то есть определенных наборах маркеров, мутации происходят со следующими средними скоростями:

– в 6-маркерном гаплотипе она происходит (на весь гаплотип) в среднем раз в 135 условных поколений, или раз в 3380 лет (в этом коротком гаплотипе маркеры мутируют более медленно, чем в других гаплотипах),

– в 12-маркерном – раз в 50 поколений, или в 1250 лет,

– в 25-маркерном – раз в 22 поколения, или в 550 лет,

– в 37-маркерном – раз в 11 поколений, или в 275 лет,

– в 67-маркерном – раз в 8 поколений, или в 200 лет,

– в 111-маркерном – раз в 5 поколений, или в 125 лет,

– в 431-маркерном гаплотипе – примерно раз в поколение, или, точнее, раз в 33 года.

Ясно, что мутаций в протяженных гаплотипах будет больше, чем в коротких за тот же промежуток времени, и изучение истории популяций, принимая в расчет число мутаций, случившихся со времени жизни общего предка популяции, будет точнее.

Поясним это на простом примере. У автора этих строк есть коллега, родом из Белоруссии, и, как показали исследования, мы с ним принадлежим не только к одному роду, то есть не только к одной гаплогруппе (это будет пояснено ниже), но и к одному славянскому племени. Мы не знаем точно, как оно называлось в древности – поляне, или древляне, или вятичи, или кривичи (а кривичи были как минимум смоленские, изборские и северные), или дреговичи, полочане, ильменские словене, радимичи, северяне, волыняне или бужане, тиверцы, уличи, белые хорваты или какие другие. В ДНК-генеалогии наше племя (или племена) носит название «восточно-карпатская ветвь гаплогруппы R1a», и дальше идут символы, детализирующие восточно-карпатскую ветвь на много уровней, на которые расходилось это племя, продолжая ДНК-линию патриарха племени, то есть сохраняя в своей Y-хромосоме специфические, уникальные мутации патриарха. Естественно, чем древнее жил патриарх, тем больше мутаций накапливается в гаплотипах его потомков по сравнению с его гаплотипом.

Так вот, в 6-маркерном формате наши с коллегой из восточнокарпатской ветви гаплотипы выглядят так:


16 12 24 11 11 13

16 12 25 11 11 13


Между ними – одна мутация, что соответствует 1/0.0074 = 135 → 156 условных поколений, или 3900 лет, то есть наш общий предок жил примерно 3900/2 = 1950 лет назад. Надо отметить, что 6-маркерные гаплотипы весьма неточны, для показа чего и служит этот иллюстративный пример. Здесь 0.0074 мутаций на гаплотип – контанта скорости мутации для 6-маркерных гаплотипов, стрелка – табличная поправка на возвратные мутации[19].


В 12-маркерном формате:


13 24 16 11 11 15 12 12 10 13 11 30

13 25 16 11 11 14 12 12 10 13 11 29


Здесь между двумя гаплотипами уже три мутации, что дает 3/0.02 = 150 → 176 условных поколений, или 4400 лет, то есть общий предок жил примерно 2200 лет назад. Здесь 0.02 мутаций на гаплотип – контанта скорости мутаций для 12-маркерных гаплотипов. Вариация датировок, примерно 13 %, находится в пределах обычной погрешности расчетов, хотя гаплотипы короткие, мутаций мало.


В 25-маркерном формате:


13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16 16

13 25 16 11 11 14 12 12 10 13 11 29 15 9 10 11 11 25 14 20 32 12 15 15 16


Здесь между двумя гаплотипами 9 мутаций (мутации между последними четверками гаплотипов считаются по определенным правилам, для так называемых мультикопийных маркеров, там всего две мутации), что дает 9/0.046 = 196 → 242 условных поколений, или 6050 лет, то есть общий предок жил примерно 3025 лет назад. Здесь 0.046 мутаций на гаплотип – контанта скорости мутаций для 25-маркерных гаплотипов. Вариация датировок по первым трем форматам гаплотипов уже заметна, и достигает 55 % (1950, 2200, и 3025). Может показаться, что чем длиннее гаплотипы, чем древнее общий предок, но это не так. В 37-маркерном формате


13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15

16 16 11 11 19 23 15 16 17 21 36 41 12 11 13 25 16 11 11 14 12 12 10

13 11 29 15 9 10 11 11 25 14 20 32 12 15 15 16 11 11 19 23 15 16 17

19 35 42 13 11


между двумя гаплотипами 14 мутаций, что дает 14/0.09 = 156 → 184 условных поколений, или 4600 лет, то есть общий предок жил примерно 2300 лет назад. Здесь 0.09 мутаций на гаплотип – контанта скорости мутаций для 37-маркерных гаплотипов. Вариация датировок по первым четырем форматам гаплотипов (1950, 2200, 3025, 2300 лет до общего предка) уже начала стабилизироваться.


В 67-маркерном формате


13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 13 25 16 11 11 14

12 12 10 13 11 29 15 9 10 11 11 25 14 20 32 12 15 15 16 11 11 19 23

15 16 17 19 35 42 13 11 11 8 17 17 8 12 10 8 10 10 12 22 22 15 10 12

12 13 8 14 22 21 12 12 11 13 11 11 12 13


между двумя гаплотипами 19 мутаций, что дает 19/0.12 = 158 → 187 условных поколений, или 4675 лет, то есть общий предок жил примерно 2340 лет назад. Здесь 0.12 мутаций на гаплотип – контанта скорости мутаций для 67-маркерных гаплотипов. Вариация датировок по первым пяти форматам гаплотипов (1950, 2200, 3025, 2300, 2340 лет до общего предка) еще более стабилизировалась.


В 111-маркерном формате

13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 31 15 9 15 12 25

27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12

24 15 12 15 24 12 23 19 11 15 17 9 11 11 13 25 16 11 11 14 12 12 10 13

11 29 15 9 10 11 11 25 14 20 32 12 15 15 16 11 11 19 23 15 16 17 19

35 42 13 11 11 8 17 17 8 12 10 8 10 10 12 22 22 15 10 12 12 13 8 14

22 21 12 12 11 13 11 11 12 13 31 14 9 15 12 25 27 19 12 12 12 12 10 9

12 11 10 11 11 30 12 14 25 13 9 10 19 15 20 11 23 16 12 15 25 12 23

19 11 15 17 9 11 11


между двумя гаплотипами 26 мутаций, что дает 26/0.198 = 131 → 150 условных поколений, или 3750 лет, то есть общий предок жил примерно 1875 лет назад, в начале нашей эры. Здесь 0.198 мутаций на гаплотип – контанта скорости мутаций для 111-маркерных гаплотипов.

Заметим, что чем длиннее гаплотип, тем более стабилизуется константа скорости мутации в расчете на маркер. Для 67-маркерных гаплотипов она равна 0.12/67 = 0.00179 мутаций на маркер, для 111-маркерных гаплотипов она равна 0.198/111 = 0.00178 мутаций на маркер, и если для 409 маркерных гаплотипов она тоже равна 0.00178 мутаций на маркер, то скорость мутаций равна 0.00178x409 = 0.728 мутаций на весь гаплотип. Проверим это. В 409-маркерных гаплотипах между гаплотипами двух упомянутых коллег 95 мутаций


10 12 15 15 10 10 8 8 9 13 7 8 10 10 13 14 14 15 31 32 11 10 9 9 8 24

17 17 8 8 8 16 22 22 24 21 23 14 16 25 28 15 15 6 11 10 14 15 8 14 11

12 10 11 10 10 11 11 18 10 12 10 7 10 5 8 9 5 5 11 15 8 29 6 7 10 13 11

6 7 7 16 10 11 16 22 23 11 12 12 10 7 12 12 13 7 3 20 18 11 11 8 9 13 13

10 11 22 12 16 13 14 11 11 12 10 12 9 13 9 12 11 12 16 7 14 12 10 9 10

4 7 7 13 13 12 11 9 11 10 11 14 8 4 8 6 11 11 16 9 11 13 19 12 12 9 10 9

9 11 11 9 9 14 14 15 9 7 10 12 14 13 14 14 12 6 32 10 11 16 8 7 17 17 11

11 6 13 12 13 11 10 7 13 12 7 16 11 15 12 13 30 24 11 11 13 12 12 9 11

12 14 11 10 12 12 15 12 12 20 34 8 12 11 15 16 9 10 11 11 12 15 15 16

16 7 14 17 17 11 25 8 8 8 12 8 8 23 11 15 13 11 12 12 10 9 15 15 8 13 8

13 15 12 14 10 11 17 10 9 12 20 17 15 36 21 9 10 13 10 14 39 33 36 9

11 12 12 13 11 10 10 12 12 18 19 13 9 14 44 10 12 8 14 24 9 12 15 8 15

20 11 11 21 11 11 10 10 17 9 9 9 9 8 8 8 8 9 12 8 11 15 10 9 23 11 16 9

16 31 8 20 8 13 12 8 16 10 9 33 27 23 22 10 9 8 23 11 12 11 10 11 10 8

11 14 8 8 20 32 55 7 7 5 9 6 11 11 11 13 9 39 33 7 8 27 7 5 13 7 15 28

25 31 60 18 42 25 24 12 31 22 20 12 12 3 4 14 11 10 12 15 15 10 10

8 8 9 13 7 8 10 10 13 14 14 14 31 32 11 10 9 9 8 24 17 17 8 8 8 8 23

23 24 21 22 15 15 25 28 15 16 6 11 10 13 14 8 14 11 12 10 11 10 11

11 11 18 10 12 11 7 10 5 8 9 5 5 11 16 8 29 6 7 10 13 11 6 7 7 16 10 10

16 22 23 11 11 13 10 7 12 12 13 7 3 19 20 10 11 8 9 13 12 10 11 22 11

15 14 14 11 11 12 10 12 9 12 9 12 12 11 16 7 14 13 10 9 9 4 7 7 13 14

12 11 9 11 10 11 14 8 4 8 6 11 11 16 9 11 13 19 12 12 9 10 9 9 11 11 9 9

9 14 14 14 9 7 10 12 14 13 14 14 12 6 32 10 11 16 8 7 17 17 11 11 6 12

12 14 11 10 7 13 12 7 16 11 14 12 13 29 25 11 11 13 12 12 9 11 12 14 11

10 13 12 14 12 12 20 32 8 12 11 15 15 9 10 11 11 11 12 15 16 15 7 14

17 16 11 25 8 8 8 12 8 8 22 11 14 13 11 12 12 10 9 15 15 8 13 8 13 16

12 15 10 11 17 10 9 12 19 14 15 38 21 9 10 16 10 13 39 34 35 9 11

11 12 13 12 10 10 12 12 17 20 13 9 14 43 12 12 8 14 25 9 12 15 8 15

21 11 11 19 11 11 10 10 17 9 8 9 9 8 8 8 8 9 12 8 11 15 10 9 22 11 16

9 15 32 7 19 8 13 12 8 18 10 9 33 28 23 22 10 9 8 23 11 12 11 10 11

10 8 11 14 8 8 19 32 48 7 7 5 9 6 11 11 11 13 9 39 32 7 8 27 7 5 12 7

15 29 22 31 45 19 42 25 23 12 32 22 20 12 11 3 4 14 11


то есть дистанция между ними равна 95/0.728 = 130 → 149 условных поколений, или 3725 лет, и общий предок жил примерно 1860 лет назад. Это практически полностью совпадает с 1875 лет до общего предка, что рассчитано по 111-маркерным гаплотипам. Но и другие оценки на самом деле находятся в пределах погрешностей расчетов. Давайте рассмотрим это более детально. Если формально рассчитать погрешности, то данные для времени жизни нашего с коллегой общего предка (из восточно-карпатской ветви гаплогруппы R1a) выглядят следующим образом:


6-маркерные гаплотипы, 1950±1950 лет назад

12-маркерные 2200±1290 лет

25-маркерные 3025±1050 лет

37-маркерные 2300±660 лет

67-маркерные 2300±575 лет

111-маркерные 1875±510 лет

409 маркерные 1860±270 лет назад


Все эти данные не противоречат тому, что наш с ним общий предок жил в начале нашей эры, но с укорачиванием гаплотипа погрешность определения растет.

Надо сказать, что здесь даются упрощенные примеры, потому что по двум гаплотипам расчеты обычно не ведут, ведут по десяткам и сотням гаплотипов, если таковые есть в наличии, рассчитывают математические погрешности в определяемых цифрах, и т. д. В таких случаях погрешности расчетов приближаются к плюс-минус 10 % от определяемой величины. Здесь только иллюстрируется принцип расчета.

Ясно, что у протяженных гаплотипов 111-маркерных гаплотипов разрешение лучше (400-маркерные гаплотипы пока крайняя редкость). Но их определять дороже, чем более короткие, поэтому в академических исследованиях, при постоянной нехватке денежных средств, приходится работать с более короткими гаплотипами. Длинные гаплотипы определяют в коммерческих компаниях, обычно персонально, каждый для себя, и передают, как правило, в общественные базы данных. Сейчас в общественных базах данных – сотни тысяч гаплотипов, и базы прирастают многими гаплотипами ежедневно.[20]

Несколько опережая изложение в данной Части, сообщим, что примеры характерных 6-маркерных гаплотипов ветвей гаплогруппы R1a (как правило, славянских ветвей, выходцев с Русской равнины) следующие:


16 12 25 11 11 13 Центрально-евразийская ветвь

16 12 25 11 11 13 Ветвь Русской равнины

16 12 25 11 11 13 Северо-евразийская ветвь

16 12 25 11 11 13 Западная евразийская ветвь

16 12 25 11 11 13 Балтийская ветвь

16 12 25 11 11 13 Восточно-карпатская ветвь

16 12 25 11 11 13 Младшая арийская ветвь (индоарии)

16 12 25 11 11 13 Арабская ветвь (потомки митаннийских ариев)

16 12 25 11 11 13 Иранская ветвь

16 12 25 10 11 13 Центрально-европейская ветвь

16 12 25 10 11 13 Балто-карпатская ветвь

16 12 24 11 11 13 Юго-восточная (арийская) ветвь

15 12 25 10 11 13 Западно-карпатская ветвь

15 12 25 11 11 13 Северо-европейская ветвь

17 12 25 11 11 13 Северо-карпатская ветвь

17 12 25 10 11 13 Восточно-славянская ветвь

17 12 24 11 11 13 Младшая центрально-евразийская ветвь


Мы видим, что ветви настолько близкие по происхождению, что первые 9 гаплотипов из 17 в 6-маркерном формате не разделяются. Только в некоторых случаях можно условно определить, к какому наследственному ДНК-роду, то есть гаплогруппе, относятся ветви гаплогруппы R1a. Но разница между ветвями тем больше, чем протяженнее гаплотипы. Обычно в ДНК-генеалогии стараются работать с 67- и 111-маркерными гаплотипами.

Гаплогруппа – это род, который почти во всех указанных примерах в гаплогруппе R1a у славян имеет общего предка примерно 4900 лет назад, у отдельных ветвей – от 5200 лет назад (у предковой арийской ветви) до 2000 лет назад и меньше, то есть начинается только в новой эре. Ниже о родах-гаплогруппах будет пояснено значительно более подробно.

Как мы покажем ниже, гаплотипы, а именно числа в них, называемые аллели, напрямую связаны с хронологией древних миграций людей, переходами людей на новые места, событиями прошлого – войнами, климатическими катаклизмами, эпидемиями, в общем, со всем тем, что так или иначе влияло на численность популяций человека в определенные времена и на определенных территориях. Например, расчеты могут показать когда древние арии появились на Русской равнине, когда они появились в Индии, Иране, Афганистане, на Ближнем Востоке, в Европе – потому что эти события приводили к появлению на этих территориях и в те времена общих предков популяций, которые разрастались вплоть до нашего времени, образуя «кусты» гаплотипов со всеми мутациями в них, то есть изменениями чисел в маркерах.

Столь относительно небольшое время до общего предка двух наших коллег из восточно-карпатской ветви[21], около двух тысяч лет назад (см. выше), нашло объяснение при более глубоком исследовании – оказалось, что они оба по предкам принадлежат не только к «ветви R1a Русской равнины» и несут необратимые метки в Y-хромосоме, характерные для этой ветви (это – метка под названием Z280, время образования примерно 4900 лет назад), но и более специфические «нижеследующие» метки, которые в классификации имеют названия CTS1211 (время образования примерно 4300 лет назад), CTS3402 (время образования примерно 3800 лет назад), Y33 (время образования примерно 3600 лет назад), CTS8816 (время образования примерно 3500 лет назад), далее Y2902 (время образования примерно 2100 лет назад), которая и маркирует восточно-карпатский род. Вот от предка этого рода (или, может, на ступеньку ниже, пока не идентифицированного) и расходятся гаплотипы наших двух коллег, насчитывая между ними 26 мутаций в 111-маркерных гаплотипах, и 95 мутаций в 409-маркерных гаплотипах.

Итак, кроме гаплотипов (и обратимых мутаций в них) наши ДНК несут практически необратимые метки, называемые «снипы» (см. выше, SNP), которые фактически помечают рода и племена, которые, как правило, состоят из потомков одного древнего общего предка, патриарха рода. Если племя «составное», то ветви племени, происходящие из разных родов, легко выявляются по гаплотипам. Вполне возможно, что древним племенем, из которого вышел общий предок двух наших коллег, гаплотипы которых мы рассмотрели выше, и которое получило условное название «восточно-карпатская ветвь», окажется одно из хорошо нам известных древнеславянских племен, но пока соответствующей «калибровки» не проведено. Мы пока не знаем, какие у тех древнеславянских племен были гаплотипы и субклады, но скоро непременно узнаем, при анализе ДНК их ископаемых костей.

Расчеты, приведенные выше, оказались возможными, потому что уже показано и доказано, что мутации в маркерах происходят в основном (или исключительно) неупорядоченно, и к ним оказалось возможным применять правила и подходы химической кинетики, или биологической кинетики, кому какой термин больше нравится – суть одна. Маркеры мутируют по законам кинетики первого порядка, других закономерностей пока не обнаружено. Это означает, что каждому маркеру свойственна определенная константа скорости мутации, и каждому гаплотипу (состоящему, как мы уже знаем, из набора маркеров) – тоже свойственна определенная средняя константа скорости мутации, равная сумме констант скоростей мутаций отдельных маркеров. Поэтому чем древнее общий предок популяции, тем больше мутаций накапливается в гаплотипах его потомков по сравнению с ним, тем больше поколений (и лет) отделяет современных потомков от их общего предка, и это число поколений (и лет) рассчитывается методами ДНК-генеалогии.

Поскольку ДНК-генеалогия – наука новая, коротко опишем ее историю, и проиллюстрируем ее надежность и обоснованность. Иначе мы рискуем, что читатель отнесется к ней с недоверчивостью и скептицизмом – мало ли что кто может напридумывать…

ДНК-генеалогия заявила о себе как о новой научной дисциплине всего восемь лет назад, в 2008 году. Начало было положено обширным анализом в рамках новой науки в то время протяженных (25-маркерных) гаплотипов гаплогруппы R1a Y-хромосомы европейского мужского населения, с расчетом времен жизни общих предков по странам и регионам (результаты были опубликованы в третьем выпуске журнала «Вестник Российской Академии

ДНК-генеалогии» в августе 2008 года). Было показано, что мужское население (гаплогруппы R1a) современной Германии имеет общего предка примерно 4600 лет назад, и базовый (предковый) гаплотип его был следующий:


13 25 16 10 11 14 12 12 10 13 11 30 15 9 10 11 11 24 14 20 32 12 15

15 16


25 ноября того же года, то есть через три месяца, вышла статья Haak et al.[22], в которой были описаны ископаемые гаплотипы гаплогруппы R1a, найденные в местечке Эулау, Германия, с датировкой 4600 лет назад. Ископаемые гаплотипы имели вид


13/14 25 16 11 11 14 X X 10 12/13 X 30 14/15 X X X X X 14 19 X

X X X X


(двойные числа в ископаемых гаплотипах – это те, которые точно определить не смогли, здесь возможны варианты). Знаки X указывают на пропущенные аллели в ископаемых гаплотипах. Только две аллели (числа в гаплотипах выше) различались на один шаг, 10 и 11 в четвертом положении (DYS391), и 19 и 20 ближе к концу гаплотипа (DYS 448). Это вполне естественно, никто не мог утверждать, что найденные в захоронении останки принадлежали именно первопредку «германских» R1a, тем более что там была целая семья. Две мутации разницы по расчетам в рамках ДНК-генеалогии дают всего несколько сотен лет расстояния между ними, что укладывается в диапазон погрешности расчетов[23].

Со времени этого первого положительного испытания и демонстрации практического совпадения расчетов и археологических датировок, то есть с лета 2008 года, и начался отсчет новой науки ДНК-генеалогии.

Продолжая пример, покажем, как проводился расчет и на основании чего. В те времена, 2008-й год, в академической литературе использовались в основном гаплотипы от 6- до 10-маркерных, были известны 12-маркерный (в номенклатуре компании FTDNA, что расшифровывается как Family Tree DNA) и 17-маркерный гаплотип, который был введен в практику в 2006 году, но для хронологических расчетов они практически не использовались. Короткие же гаплотипы обрабатывались популяционными генетиками с применением «популяционной» скорости мутации, которая была ужасающе неверна, и завышала датировки обыкновенно на 250–350 %[24].

В подходе ДНК-генеалогии 2008 года строилось дерево гаплотипов для проверки на общую симметричность, то есть на отсутствие выраженных ветвей. Принципы построения подобных деревьев будут объяснены ниже. Сейчас можно пояснить, что выраженные ветви на дереве гаплотипов означают, что у них был свой отдельный общий предок, и его нужно датировать отдельно, разделяя ветви. Иначе получится «два землекопа и две трети». Иными словами, если в относительно недавнее время некто из данного рода (отраженного на дереве) дал особенно обильное потомство – например, передвинулся в дальние благодатные края, без войн и эпидемий, то дерево окажется гипертрофированным, та «благодатная» ветвь со своим общим предком (тот «некто», который передвинулся в дальние края) будет резко выделяться на дереве, и такое дерево нельзя усреднять по мутациям «поперек ветвей». Грамотный анализ дерева покажет, что, например, патриарх всего дерева жил 2500 лет назад, а этот «некто», основатель отдельной ветви, жил всего 600 лет назад. Так и надо представлять данные.


Рис. 1. Дерево из 67 гаплотипов современных немцев гаплогруппы R1a в 25-маркерном формате (Клёсов, 2008)[25].


Если же усреднять поперек всего дерева, то получится, что якобы общий предок всего дерева жил, например, 1200 лет назад (или любое число между 2500 и 600 лет назад). Как видим, этот «общий предок» оказывается фантомным, и такие некорректно полученные результаты искажают выводы работы. К сожалению, так обычно работают популяционные генетики. Именно так, обрабатывая большую серию гаплотипов евреев, они получили якобы возраст якобы общего предка современных евреев (гаплогруппы J1) как 3200 лет назад, и объявили, что это время исхода евреев из Египта (точнее, когда жил Аарон, первосвященник). На самом деле в их исходных данных было две серии гаплотипов, с общими предками 4000 и 1000 лет назад, но авторы работы на ветви гаплотипов не смотрели [26].

Возвращаемся к дереву немецких гаплотипов образца 2008 года (рис. 1). Ниже будет показано, как получаются такие деревья и как их понимать. Здесь отметим, что дерево на рис. 1 показывает общую симметричность (множество мелких ветвей в нем можно анализировать по отдельности, но опыт показывает, что итоговый результат будет практически такой же), и его можно количественно обрабатывать как единую систему, то есть что все 67 гаплотипов происходят от одного общего предка. На все 67 гаплотипов в 12-маркерном формате имелось 208 мутаций от приведенного выше базового гаплотипа, и в 25-маркерном формате – 488 мутаций. В первом случае получаем 208/67/0.02 = 155^183 условных поколений (по 25 лет) от общего предка (напомним, что стрелка указывает на поправку на возвратные мутации), то есть 4575±560 лет до общего предка. Во втором случае, для 25-маркерных гаплотипов, получаем 488/67/0.046 = 158 ^187 условных поколений, то есть 4675±510 лет до общего предка. Как видим, совпадение почти абсолютное для расчетов по 12- или 25-маркерным гаплотипам. Надо сказать, что уже в первом выпуске Вестника, в июне 2008 года, проводились многочисленные расчеты для 37- и 67-маркерных гаплотипов, что тогда было неслыханно. Результаты всех этих расчетов верны до настоящего времени.

Надо сказать, что неопытный читатель тут же запротестует, что, мол, как можно по всей Германии, или любому другому региону судить по каким-то 67 гаплотипам, а там живут миллионы человек. Эта тема была подробно, с экспериментальными данными проанализирована в ДНК-генеалогии, и объяснена в ответе на Вопрос 37, где был задан риторический встречный вопрос – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить о всей системе.




Рис. 2. Дерево из 286 гаплотипов современных немцев гаплогруппы R1a в 67-маркерном формате (база данных IRAKAZ-2015). Три гаплотипа внизу (номера 1, 2, 3) относятся к древнейшему субкладу гаплогруппы, R1a-M420, и в расчеты (см. текст) не включались. Все остальные гаплотипы относились к субкладу М417 (см. диаграмму) и нижестоящим субкладам (на диаграмме не показаны, их несколько десятков). Расчеты проводили на калькуляторе Килина-Клёсова, поскольку ручной расчет системы с более чем 22 тысячи аллелей слишком трудозатратен.


Продолжая это рассмотрение, рассмотрим выборку по Германии уже 2015 года. Теперь в ней 286 гаплотипов в 67- и 65 гаплотипов в 111-маркерном формате (база данных IRAKAZ-2015). Выше – дерево 67-маркерных гаплотипов.

В подписи к рис. 2 для иллюстрации приведена «лесенка» нескольких субкладов гаплогруппы R1a, родительской которых является гаплогруппа R (ее снип – М207, то есть это индекс характерной и уникальной мутации в Y-хромосоме ДНК, которую (мутацию) несут все потомки первопредка гаплогруппы R. Через тысячелетия (в данном случае примерно через 10 тысяч лет) один из потомков первопредка гаплогруппы R получил мутацию М173 (очередной снип), и эта гаплогруппа, которую это потомок основал, став ее патриархом, в классификации называется R1. Она возникла (путем образования мутации М173) примерно 30 тысяч лет назад. Далее, примерно 20 тысяч лет назад, возникла гаплогруппа R1a (путем образования мутации/снипа М420), это произошло, видимо, в Южной Сибири, на Алтае. Три носителя данного снипа были найдены в Европе, в Германии, и они попали на дерево гаплотипов на рис. 6, под номерами 1, 2 и 3. Их последующие потомки – носители субкладов R1a1, R1a1a1, R1a1a, и так далее, на десятки уровней вниз.

Возвращаемся к дереву гаплотипов на рис. 2. Общий предок всех 67-маркерных гаплотипов дерева жил 4848±415 лет назад, всех 67- и 111-маркерных гаплотипов – 4294±298 лет назад, при округлении получаем 4800±400 и 4300±300 лет назад. Среднюю величину можно не брать, и так видно, что она практически равна полученным ранее, в 2008 году, и с совершенно другой выборкой в Германии 4575±560 лет и 4675±510 лет до общего предка, расчитанным по 12- и 25-маркерным гаплотипам.

Таким образом, обе выборки – 2008 и 2014 гг в Германии являются вполне репрезентативными для целей настоящего исследования.

Помимо этого, в ДНК-генеалогии введен принципиально новый метод для расчетов хронологии, основываясь на картине мутаций ДНК- так называемый логарифмический метод. Покажем его эфективность на примере, приведенном выше, для серии из 67 гаплотипов гаплогруппы R1a из Германии (см. рис. 2). В 12-маркерном формате из этой серии всего три гаплотипа идентичны друг другу, значит, это и есть базовые, то есть предковые гаплотипы (хотя для столь малого числа базовых гаплотипов не исключена ошибка в их отнесении к предковым, потому они и называются базовыми, а не буквально предковыми). Получаем: [ln(67/3)]/0.02 = 155 → 183 условных поколений, то есть примерно 4575 лет до общего предка всей серии. Расчет по мутациям, которых в этой серии было 208 (см. выше), дает 208/67/0.02 = 155→183 условных поколений (по 25 лет) от общего предка, то есть 4575±560 лет до общего предка. Совпадение получилось практически абсолютным, но это в данном расчете случайно, потому что чисто статистически в данной серии могли оказаться как 2, так и 4 базовых гаплотипа, и погрешность при таких малых количествах базовых гаплотипов велика. Тем не менее, логарифмический (без подсчета мутаций) и линейный (с подсчетом мутаций) методы расчетов показывают, что серия гаплотипов вполне подходит для расчетов, и что общий их предок действительно жил примерно 4600 лет назад.

Но для 25-маркерных гаплотипов при таком малом числе гаплотипов и таком довольно удаленном общем предке расчет по логарифмическому методу уже невозможен. Даже два базовых 25-маркерных гаплотипа сохраняются всего лишь на протяжении [ln(67/2)]/0.046 = 76 → 83 условных поколений, то есть примерно 2075 лет. После этого и двух базовых гаплотипов не остается. Но даже отсюда можно – просто на взгляд, без расчетов – получить граничную информацию о времени жизни общего предка серии гаплотипов, в данном случае – больше 2100 лет назад. Здесь 0.02 и 0.046 – константы скорости мутаций для 12- и 25-маркерных гаплотипов.

Чем больше по численности серия гаплотипов, происходящих от одного предка, тем точнее расчет времени жизни этого предка. И тем больше экономия времени при расчетах, поскольку логарифмический метод не требует подсчета числа мутаций в гаплотипах. Например, из 2000 12-маркерных гаплотипов субклада R1b-L21 114 гаплотипов являются базовыми, то есть идентичными друг другу. Это дает [ln(2000/114)]/0.02 = 143 → 167 условных поколений, или 4175±570 лет до общего предка. Расчет по мутациям (для 67-маркерных гаплотипов) дает 4325±350 лет до общего предка. Разница между логарифмическим и линейным (то есть по мутациям) методами расчета дает всего лишь 3.6 % разницы, хотя погрешность расчетов ее увеличивает. Если округлить полученные величины с учетом погрешностей до 4200 и 4300 лет до общего предка, разница между ними становится равной всего лишь 2.4 %.

Другой подобный пример – из 2000 12-маркерных гаплотипов субклада RW-Z280 базовыми являются 88 гаплотипов. Мы уже видим, что R1a-Z280 заметно старше, чем R1b-L21 (см. предыдущий абзац). Действительно, это дает [ln(2000/88)]/0.02 = 156 → 184 условных поколений, или 4600±б70 лет до общего предка. Расчет по мутациям (для 67-маркерных гаплотипов) дает 4825±320 лет до общего предка (см. таблицу выше). Разница между логарифмическим и линейным (то есть по мутациям) методами расчета дает всего 4.9 % разницы. Если округлить полученные величины с учетом погрешностей до 4600 и 4800 лет до общего предка, разница между ними становится равной 4.3 %. Для 25-маркерных гаплотипов базовых в серии из 2000 R1a-Z280 остаются только два базовых, что дает [ln(2000/2)]/0.046 = 150 → 176 условных поколений, или примерно 4400 лет до общего предка. Погрешность там велика, поскольку там, где есть только два базовых гаплотипа, легко могли остаться один или три. Но видно, что закономерности в целом соблюдаются.

Как мы видим, мутации в гаплотипах потомков расходятся от предкового гаплотипа как круги по воде, число мутаций легко рассчитывается, и они подчиняются довольно простым количественным закономерностям. Для кругов на воде, расходящихся от места, куда был брошен камень, легко рассчитать, когда был брошен камень, если знать скорость распространения волны и место нахождения круговой волны в данный момент времени. Чем больше прошло времени – тем дальше круги ушли, тем больше они разошлись. Так и в гаплотипах – чем больше время, прошедшее от общего предка, тем больше мутаций накопилось в гаплотипах его потомков. Число этих мутаций связано с временем, прошедшим от общего предка, с числом гаплотипов в серии, и с константой скорости мутации в гаплотипах, и выражается простой формулой: n/N = kt, где n – число мутаций в серии из N гаплотипов, k – константа скорости мутации (в числе мутаций на гаплотип за условное поколение, равное 25 лет), t – число условных поколений, с табличной поправкой на возвратные мутации[27]. На сотнях и тысячах примеров показано, что эта формула работает при любом числе гаплотипов и мутаций в них, и при любом времени, прошедшем от общего предка рассматриваемых гаплотипов.

Однако при очень больших временах, более 10–20 тысяч лет, и особенно более 100 тысяч лет, нужно использовать гаплотипы с «медленными» маркерами, то есть с малыми константами скоростей мутаций, и тем самым снижать число мутаций и число возвратных мутаций. По аналогии, вряд ли целесообразно изучать скорости радиоактивного распада элементов со временами полураспада в тысячелетия, используя секундомер. Или пытаться изучать круги на воде за километры от места, куда был брошен камень, для этого нужно значительно более мощное воздействие. Как всегда, нужен конкретный анализ в конкретной ситуации, единых подходов на все случае жизни не бывает. Варианты конкретного анализа в конкретных ситуациях и рассматривает ДНК-генеалогия. Некоторые ситуации и расчеты мы расмотрим ниже.

Как мы видим, мутации в ДНК-генеалогии – это не только единичные необратимые мутации-снипы, описанные выше, которые определяют гаплогруппы и субклады, но и обратимые мутации, меняющие числа повторов, или аллели, в гаплотипах. В русскоязычной литературе их называют просто «мутации», с пониманием, что это не те мутации (в генах), которые обычно возникают под действием радиации. Переход числа повторов в маркере Y-хромосомы от 25 к 24 или 26 (или наоборот) имеет совершенно другую природу, чем «поломка» гена. Такой переход является следствием спонтанной ошибки ДНК-копирующей «биологической машины», это процесс первого порядка с точки зрения физико-химической кинетики, он не зависит от внешних воздействий. О процессах первого порядка будет рассказано ниже.

Помимо того, что в 2008 году ДНК-генеалогия прошла проверку на реальных (ископаемых) гаплотипах, показав ту же хронологию, в том же 2008 году, в июне, вышел первый выпуск Вестника, который позже стал международным. В первом выпуске были две больших статьи – «Основные правила ДНК-генеалогии» (54 страницы) и «Происхождение евреев с точки зрения ДНК-генеалогии» (179 страниц). С тех пор вышло 73 выпуска Вестника, общим объемом более 15 тысяч страниц, все выпуски в открытом доступе (http://dna-academy.ru/proceedings/, www.anatole-klyosov.com). Со второго выпуска (июль 2008) в разделе «Обращения читателей и персональные случаи ДНК-генеалогии» публикуются ответы на письма читателей из разных стран мира. До сегодняшнего выпуска опубликованы персональные истории в виде ответов на 249 писем читателей. Авторы Вестника – в основном российские специалисты и любители ДНК-генеалогии, но также специалисты из США, Италии, Франции, Словении, Сербии, Италии, Германии, Бельгии, Шотландии и других стран. Помимо этого, в материалах Академии, которая официально утверждена в федеральных органах РФ в июле 2015 года, публикуются персональные интерпретации гаплотипов и снипов для людей, подавших на рассмотрение данные тестирования своих ДНК.

С того же 2008 года опубликованы 25 научных статей по ДНК-генеалогии в академических журналах (21 на английском языке, одна – в старейшем российском академическом журнале «Биохимия»), и три – в журнале «Исторический Формат») вышли 8 книг по ДНК-генеалогии (7 на русском языке и одна на сербском, в Белграде), и 112 научно-популярных статей по ДНК-генеалогии, из них 80 статей на Переформате – сайте, который выпускается профессиональными историками (http://pereformat.ru/klyosov).

Научные статьи в области ДНК-генеалогии публиковались в журналах Human Genetics (2009), J. Gen. Genealogy (2009), Advances in Anthropology (2011–2014), Биохимия (2011), Eur. J. Human Genetics (2014), Frontiers in Genetics (2014), Исторический Формат (2015). Весной 2013 г. автор настоящей книги получил приглашение быть главным редактором журнала Advances in Anthropology («Успехи антропологии»), и сделал его профильным журналом по ДНК-генеалогии (наряду, конечно, с публикациями авторов по разным направлениям антропологии). Первой статьей в «Успехах антропологии» была статья по константам скоростей мутаций в гаплотипах Y-хромосомы и их калибровке, то есть количественной связи с хронологией[28]. Концептуально сделать это было несложно, поскольку кинетика химических и биологических мутаций – прямая специальность автора данной книги, он в свое время заканчивал кафедру академика Н.Н. Семенова, единственного лауреата Нобелевской премии среди советских химиков, и написал немало учебников для Высшей школы (в основном издательства Московского университета и издательства «Наука»), часть – со специалистом в области химической кинетики, деканом Химического факультета МГУ чл. – корр. АН СССР И.В. Березиным. За разработку кинетики химических и биологических реакций тот же автор стал лауреатом Государственной премии СССР по науке и технике (1984), а до того – лауреатом премии Ленинского комсомола (1978). Так что концептуально разработать количественную основу ДНК-генеалогии сделать было несложно, но надо было ее верифицировать на тысячах примеров, чтобы она была надежной. Это было сделано с использованием 3160 гаплотипов (2489 из них – в 67-маркерном формате, из 55 ДНК-генеалогических линий из 8 основных гаплогрупп). Эта работа и была опубликована в Advances in Anthropology в 2011 году[29], во втором выпуске журнала после его основания в том же году.

В последующем в том же журнале были опубликованы статьи с детальным описанием гаплогруппы R1a в мире, гаплогруппы R1a в Европе (с описанием 38 ветвей гаплогруппы R1a), гаплогруппы R1b, ДНК-генеалогии и лингвистики, ДНК-генеалогии и древней керамики от трипольской культуры до культур Юго-Восточной Азии и обеих Америк, а также четыре статьи об Африке и происхождении человека с точки зрения ДНК-генеалогии (две в 2012 г, и две – в 2014 г, одна из них редакторская). Одна статья из этих четырех[30] установила своеобразный рекорд популярности у читателей журнала – по состоянию на 25 октября 2015 года она была просмотрена более 90 тысяч раз, и «скачана» более 20 тысяч раз (http://www.scirp.org/journal/HottestPaper.aspx?Journalro=737).

Описанное выше – это крупный успех нового направления, отражение его признания. Стало ясно, что ДНК-генеалогия фактически является молекулярной историей (см. выше ответы на Вопросы 3 и 4).

Глава 2

Основные понятия и главные положения ДНК-генеалогии

Вопрос 16: Как в Y-хромосоме образуются мутации?

Время от времени при копировании Y-хромосомы в копии проскакивают ошибки. Фермент под названием ДНК-полимераза (на самом деле вместе с целым набором молекулярных инструментов копировальной машины) или просто ошибается и делает некоторые участки ДНК короче или длиннее, удлиняя или сокращая «тандемные повторы» нуклеотидов, или «ремонтирует» повреждённые участки и в ходе «ремонта» удаляет повреждение (эта операция называется «делеция»), или «вшивает» новый нуклеотид (называется «вставка», или «инсерт»). То, что удалось отремонтировать, в мутации не попадает, как будто мутации и не было. Что не удалось – передается сыну при рождении. Если родилась дочь, то Y-хромосома не передается. Если есть только дочери, или детей нет – Y-хромосома терминируется, вместе с мужской наследственной линией.

Мутации, которые интересуют ДНК-генеалогию, бывают двух типов – или изменение числа повторов, тандемов (STR), что описано выше, или «точечные», одно- или несколько-нуклеотидные (SNP), снипы.

Оказалось, что многие повторы нуклеотидов находятся у разных людей в одних и тех же участках Y-хромосомы. Эти участки уже специалистами пронумерованы, классифицированы, сведены в списки. Они получили название «маркеры». Набор маркеров, точнее, повторов в них, называется «гаплотип». Уже известных маркеров – больше тысячи. Они, как правило, одни и те же у всех людей на Земле и отличаются друг от друга только числом повторов, что вызвано теми самыми ошибками ферментов (и других элементов биологического копирования) при копировании из поколения в поколение.

Примеры повторов приведены в ответе на вопрос 14. Ясно, что «мутации», которые приводят к изменению числа тандемных повторов в Y-хромосоме, не есть те «мутации», о которых все имеют представление как о «поломках в генах», например, под воздействием радиации. Мутации, которые рассматривают в гаплотипах, происходят не в генах и не являются «поломками». Это, как объяснено выше – ошибки при копировании ДНК. Они имеют весьма сложную архитектуру, и радиацией не вызываются. Это – не поломка, а координированная перестройка.


Вопрос 17: Что такое «общий предок» выборки носителей гаплотипов, и как мутации могут помочь определить, когда он жил?

Любая группа мужчин, относящихся к одной и той же гаплогруппе и к одному и то же субкладу, а также к любой выборке гаплотипов, образующей ветвь в пределах одного субклада, являются в каждом случае родственниками, и происходят от одного общего предка. Можно привести и обратное определение – если мутация, которая осуществилась в Y-хромосоме, унаследовалась в ДНК потомков, то все эти потомки происходят от одного общего предка, у которого и произошла данная мутация.

В принципе, в любой гаплогруппе и любом субкладе имеется множество групп людей, которые происходят от их общего предка. Например, у двух родных братьев есть общий предок – их отец. Если к ним добавить дядю, то общий предок всех троих – отец дяди и дедушка братьев.

Чем глубже во времени общий предок группы людей, или популяции, в терминах ДНК-генеалогии, тем больше у него потомков. Все потомки наследуют гаплотип их общего предка, но чем дальше во времени отстоит общий предок, тем больше мутаций накапливается в гаплотипах потомков. Приведем простой пример. Допустим, общий предок жил 2500 лет назад, то есть 100 условных поколений назад (в ДНК-генеалогии за условное поколение принимается 25 лет, и константы скоростей мутации вычисляются в расчете на условное поколение протяженностью 25 лет). Если выявить сто потомков этого общего предка, в их 12-маркерных гаплотипах обнаружится примерно 200 мутаций, причем у 14 человек гаплотипы будут одинаковыми, и все 200 мутаций будут неупорядоченно распределены, в разной степени, между оставшимися 86 потомками.

Вот эти одинаковые 14 гаплотипов и представляют собой предковый гаплотип. За прошедшие 100 поколений – чисто статистически – в гаплотипах 86 потомков пройдут мутации, а в гаплотипах 14 потомков мутаций еще не будет. Вот таким образом определяют предковый, или базовый гаплотип.

Проверим представленные выше числа. 200 мутаций в 100 гаплотипах в 12-маркерном формате (константа скорости мутаций в 12-маркерных гаплотипах равна 0.02 мутаций на гаплотип за условное поколение) соответствуют величине 200/100/0.02 = 100 условных поколений, то есть примерно 2500 лет (здесь для простоты не вводится поправка на возвратные мутации, смысл которой будет пояснен в следующей главе). Это – линейный метод расчета времени до общего предка популяции. В то же время согласно логарифмическому методу если из 100 гаплотипов в 12-маркерном формате остались неизменными 14, то это соответствует времени, прошедшему от общего предка популяции, равному [ln(100/14)]/0.02 = 98 условных поколений, то есть примерно тому же времени, рассчитанному с помощью линейного метода.

Из этого примера должно быть понятно, что чем более недавний общий предок, тем большее число идентичных друг другу гаплотипов (или их фрагментов) наблюдается в выборке, и тем надежнее выявляется предковый гаплотип. Если общий предок жил очень давно, то одинаковых гаплотипов в выборке может остаться всего два-три – например, три гаплотипа из сотни 12-маркерных гаплотипов останутся при [ln(100/з)]/0.02 = 175 условных поколений до общего предка, то есть общий предок жил 4375 лет назад (на самом деле больше при учете возвратных мутаций). Когда в серии гаплотипов наблюдаются всего два-три одинаковых гаплотипа, они могут не обязательно быть предковыми, а оказаться одинаковыми случайно, в результате игры неупорядоченных мутаций. Поэтому понятие «предковый» гаплотип лучше не употреблять, за исключением совсем уже явных случаев, и в ДНК-генеалогии вместо «предковый» гаплотип обычно употребляют «базовый».

Итак, общий предок популяции – это предполагаемый носитель «базового», или «предкового» гаплотипа. Время жизни общего предка популяции вычисляется по совокупности гаплотипов его потомков, принимая во внимание число мутаций, накопившееся в популяции, нормированное на гаплотип или на маркер, и константу скорости мутации, или частоту мутации в расчёте на поколение. Расчёты времён жизни общих предков популяций позволяют делать предположения о времени и направлениях миграций популяций в древности, о передвижениях популяций. Поскольку, передвигаясь, популяции оставляли следы в виде материальных признаков, это позволяет проводить интерпретацию археологических данных в отношении носителей этих признаков, их принадлежности к определённым родам и племенам, связанных родственными взаимоотношениями. Аналогично, популяции, передвигаясь, приводили к перемещению языков, диалектов, и определение общих предков и времён их жизни даёт возможность прослеживать динамику языков в отношении соответствующих родов и племён, связанных родственными взаимоотношениями.


Вопрос 18: Можно ли привести примеры предковых гаплотипов, датируемых десятками и сотнями тысяч лет назад? Можно ли выявить гаплотип общего предка всех мужчин на Земле?

«Общий предок всех людей» – понятие скорее концептуальное, чем буквальное, абсолютное. Чем больше накапливается данных, тем понятнее становится, что «общий предок всех людей» теряется среди переплетений ДНК-генеалогических линий, уходящих на сотни тысяч лет вглубь. Поэтому введенное некоторое время назад понятие «хромосомный Адам» не является научным и никогда не было доказано. Интуитивно, такой общий предок возможен, но он, скорее всего, будет «плавающей мишенью».

Понятие «одного предка» можно рассматривать на разных уровнях сложности. Например, древнейшая африканская линия (гаплогруппа А00) имеет общего предка с гаплогруппой R1a примерно 210 тысяч лет назад, то есть оттуда, из такой глубины тысячелетий расходятся гаплотипы современных носителей гаплогруппы A00 и этнических русских гаплогруппы R1a:


13 11 12 10 11 16 10 8 14 14 8 8 8 9 12 11 12 8 12 12 11 11 (А00)

12 12 11 11 11 11 11 8 17 17 8 10 8 12 10 12 12 8 12 11 11 12 (R1a)


Здесь приведены 22 очень «медленных» маркера Y-хромосомы, каждый из которых мутирует раз во многие тысячелетия. Можно подсчитать, что эти гаплотипы разошлись на 26 мутаций, и расчеты, основанные на скорости мутации каждого маркера, показывают, что эти 26 мутаций соответствуют времени жизни их общего предка примерно 210 тысяч лет назад. Но даже беглый взгляд на эти гаплотипы показывает, что ДНК древнейших африканцев и этнических русских, носителей гаплогруппы R1a, не так уж намного различаются, или, скорее, являются принципиально сходными.

Хорошо, а если вместо типичного гаплотипа R1a подставить гаплотип R1b, преобладающей гаплогруппы Западной Европы? Мутации здесь настолько медленные, что в таком формате представления гаплотипа он будет практически одинаков по всей Западной Европе:


11 12 13 11 11 12 11 9 15 16 8 10 8 12 10 12 12 8 12 11 11 12 (R1b)


Мы видим, что при таком разрешении большая часть аллелей (это – числа в гаплотипах) у R1a и R1b одинаковы (совпадают 16 аллелей из 22). Между гаплотипами А00 и R1b – 24 мутации, что снижает возраст общего предка на семь тысяч лет, то есть на 3 %. Это – в пределах погрешности расчетов. Только не стоит строить пропорции, там счет нелинейный.

Можно ли считать, что общий предок человечества жил 200210 тысяч лет назад? Вряд ли, поскольку гаплогруппа А00 была обнаружена всего два года назад, и до этого считали, что общий предок человечества жил 140 тыс. лет назад. Если завтра исследователи найдут новую гаплогруппу, то срок начала человечества опять отодвинется. И он несомненно будет отодвигаться дальше, по мере углубления наших знаний. Уже появилась еще одна реперная точка – это общий предок шимпанзе и человека. У современного шимпанзе из полной хромосомной последовательности удалось определить 16 маркеров Y-хромосомы.[31] Они показаны рядом со значениями аллелей в тех же маркерах Y-хромосомы «усредненного общего предка» человека:


8 15 10 4 5 9 10 5 10 4 4 7 4 4 8 9 (шимпанзе)

11 12 11 11 10 8 10 8 12 10 12 12 12 11 11 11 (человек)


Это оказались еще более медленные маркеры, и 64 мутации (!) между ними помещают общего предка шимпанзе и человека на глубину времен в 4.4 миллионов лет назад. В целом это же дают и антропологические оценки. Что важно – никаких «инопланетян» в создании современного человека не было, вместо этого имеется непрерывный эволюционный путь от общего предка шимпанзе и человека миллионы лет назад к нам, современным людям.


Вопрос 19: Можно ли считать, что все люди – родственники?

Как было отмечено в ответе на предыдущий вопрос, концептуально – да, но детали нам пока неизвестны. Если даже мы не найдем конкретного общего предка всех людей на Земле, как мужчин, так и женщин, но принципиальное сходство гаплотипов позволяет предполагать, что все люди произошли от одного общего предка. Если даже мы сможем найти нескольких, которых не сумеем свести к одному общему предку, все равно – опять интуитивно – он и она должны быть. В общем, дело опять сводится к определениям, как мы понимаем «общего предка».

Этот предок оказался древнее, чем предполагалось раньше. Еще недавно считалось, что он жил примерно 70 тыс. лет назад, потом 120 тысяч, потом 140 тысяч, сейчас он уже уходит глубже 200 тыс. лет назад, постепенно приближаясь к общему предку с неандертальцем 300–500 тыс. лет назад, и, возможно, уйдет еще далее к приматам, миллионы лет назад. Как мы видим, гаплотипы хоть и отдаленно, но в принципе похожи на те, что есть у всех нас. У шимпанзе и у нас – одни и те же маркеры. Следовательно, общий предок был один и тот же, только очень древний. И действительно, геномный анализ показывает, что шимпанзе из зоопарка и любой современный человек, мужчина или женщина, имеют более 95 % совпадений в составе их ДНК, или в числе и положениях мутаций, как ни считать.


Вопрос 20: Насколько различаются гаплотипы у разных популяций? Как связать гаплотипы с субкладами?

Как уже сообщалось выше, гаплотипы изображают в виде числа тандемов, или повторов, по каждому маркеру, выбранному из десятков и сотен. В англоязычной литературе их называют STR, или Short Tandem Repeats. Самый простой и короткий гаплотип из тех, которые рассматривает ДНК-генеалогия, состоит из пяти или шести маркеров. Примеры были показаны выше. Но можно привести и еще —

у этнических русских, славян с Русской равнины (индекс субклада R1a-Z280)


16 12 25 11 11 13,


у скифов из раскопок в Минусинской котловине, с датировками 3800–3400 лет назад (индекс не определяли),


16 12 25 11 11 13


в высших кастах Индии (R1a-Z93-L342.2-L657) точно такая же, как у скифов


16 12 25 11 11 13,


у современных таджиков гаплогруппы R1a


16 12 25 10 11 13


(хотя число 10 там при усреднении практически равно 10.5, и при добавлении гаплотипов может склониться или к 10, или к 11),

у носителей гаплогруппы R1a, наиболее распространенной у пуштунов Афганистана (индекс R1a-Z93-L342.2-Z2124)


16 12 24 11 11 13


у западных славян (индекс R1a-M458-L260)


17 12 25 10 11 13


Потомки древних носителей гаплогруппы R1a-M458 сейчас живут в основном в Белоруссии, Польше, на Украине, продвинулись в Центральную Европу; возможно, это они были первыми кельтами в Центральной Европе (в частности, в Австрии, образуя ядро гальштаттской археологической культуры). Как мы видим, 6-маркерный гаплотип уже другой, и легко отличается.

Продолжим:

у славян «центрально-европейской группы» (R1a-M458-CTS11962)


16 12 25 10 11 13


у 60 % западноевропейцев, носителей гаплогруппы R1b


14 12 24 11 13 13


Видно, что в ряде случаев у носителей той же гаплогруппы R1a даже короткие гаплотипы немного различаются, часто всего на одну мутацию, потому что они принадлежат разным субкладам, то есть племенам, с разной историей миграций, и с разными общими предками для каждого племени, хотя имеют одного общего предка гаплогруппы (R1a в данном случае). Поэтому надо всегда уточнять, о каком общем предке идет речь. Как уже говорилось выше, с расширением степени родства общий предок уходит в глубь времен, но он всегда есть.

Посмотрим, как это выглядит на сокращенной диаграмме субкладов гаплогруппы R1a c добавлением R1b:




У каждой из этих гаплогрупп и субкладов был свой общий предок, и у каждого – свой гаплотип. Как мы уже увидели, 6-маркерные гаплотипы разделяют только тех общих предков, родоначальников, патриархов своих субкладов, у которых случайно проскочила мутация в тех самых 6-маркерных гаплотипах. Но у близко расположенных субкладов мутация – чисто статистически, неупорядоченно – могла и не проскочить. Так, мы уже видим, что восточные славяне Русской равнины (субклад R1a-Z280) – близкие родственники ариям (точнее, их потомкам из высших каст Индии) и скифам (ископаемые ДНК), у них одинаковые 6-маркерные гаплотипы. А в гаплотипы пуштун, происходящих из исторической Бактрии, и западных славян, с которыми восточных славяне разделены десятью тысячами лет, неупорядоченные ошибки при копировании Y-хромосомы успели добавить за это время одну-две мутации. В гаплотипах R1a и R1b, которые разделены во времени десятками тысяч лет, уже есть пять мутаций разницы. Формальный расчет дает 5/0.0074 = 676 → 1580 условных поколений, то есть 40±18 тысяч лет расстояния между ними. Так оно в общем и получается, в пределах погрешности расчетов, между ними примерно 44 тысячи лет разницы.

Схема выше – предельно сокращенная, на самом деле в ней десятки уровней. Мы просто выделили кратчайший путь к ряду субкладов от образования исходной гаплогруппы R1a, которое произошло примерно 20 тысяч лет назад. От R1a последовательно отходили ветви новых и новых субкладов, в основе каждого была новая мутация в Y-хромосоме новорожденного мальчика, мужские потомки которого выжили и в итоге дали свое разветвленное потомство.

Примерно 5500 лет назад в Европе образовался так называемый юго-восточный субклад Z93, носители которого (потомки очередного мальчика, в Y-хромосоме которого образовалась мутация Z93) прошли на Русскую равнину, примерно 4800 лет назад там образовался очередной субклад L342.2/Z94, носители которого разошлись по нескольким направлениям. Одна часть продвинулась в Индию, с новообразованным субкладом L657, это были легендарные арии, и потомки индоариев в настоящее время продолжают нести в своих ДНК мутацию под индексом L657. Потому носителей L657 так много в высших кастах Индии, до 72 % от общего количества. Другая часть продвинулась в Бактрию, но субклады таджиков пока малоизвестны. Тем не менее, датировка общих предков таджиков гаплогруппы R1a указывает на исторических ариев как их потоков. Еще одна часть ариев прошла в Иран и Афганистан, но у них был уже другой, «параллельный» субклад Z2124, которые сейчас имеют большинство пуштунов.

В итоге мы имеем две параллельные системы отсчета времен миграций и определения их направлений – гаплотипы (с их STR, маркерами, тандемными повторами блоков нуклеотидов) и субклады (с их SNP, снипами). Мутации в них происходят независимо друг от друга, по поскольку эти процессы идут параллельно, в одних и тех же популяциях, то в целом между мутационной динамикой в гаплотипах и субкладах есть некоторая корреляция. Мы уже видели, что и 6-маркерный гаплотип сдвинулся на одну мутацию между индусами и афганцами, носителями гаплогруппы R1a, и субклады сдвинулись тоже.

Мы видим, что даже короткие, 6-маркерные гаплотипы являются вполне информативными, и позволяют распознать представителей разных народов и (порой) этносов. Более протяженные гаплотипы, вплоть до 67- и 111-маркерных, позволяют уточнить картину, выявить более недавние ДНК-генеалогические линии, определить их датировку. Но суть поиска от этого принципиально не меняется, появляется намного более высокое разрешение в исследованиях.


Вопрос 21: Какова скорость мутаций в самых коротких, 6-маркерных гаплотипах?

Как уже пояснялось выше, гаплотипы показывают число повторов нуклеотидных участков в маркерах, которые в 6-маркерных гаплотипах обозначают соответствующими индексами 19, 388, 390, 391, 392 и 393. Например, у большинства афганцев гаплогруппы R1a в первом маркере (номер 393) было найдено 13 повторов определённой последовательности нуклеотидов. Во втором – 24 повтора уже другой последовательности и так далее. При передаче этого гаплотипа от отца сыну с вероятностью примерно 0.7 % процента (то есть в среднем у одного на 135 рождений) может произойти мутация, например, такая – от гаплотипа


13-24-16-11-12-11


в такой:


13-25-16-11-12-11


А может произойти и такая -


13-24-15-11-12-11


Примеры таких мутаций можно найти в изобилии, тысячами. Может пройти и любая другая (как правило, одиночная, то есть на один шаг) мутация в любом маркере, только одни мутации в одних маркерах происходят чаще, в других – реже. А в среднем мутация в таких 6-маркерных гаплотипах происходит, как было найдено, в среднем раз на 135 мальчиков. Если перевести во времена, то константа скорости мутации в 6-маркерных гаплотипах равна 0.0074 мутаций на весь гаплотип за 25 лет.


Вопрос 22: Насколько обосновано положение, что по числу мутаций в гаплотипах можно определять «возраст гаплотипа», и не странно ли последнее понятие, поскольку речь о гаплотипах наших современников?

Действительно, «возраст гаплотипа» это жаргон, речь идет о времени, прошедшем со времени жизни общего предка рассматриваемой популяции. Иначе говоря, сколько времени прошло от предкового гаплотипа до гаплотипа его прямого потомка, нашего современника. То есть речь идет опять о времени до общего предка. Это и есть синоним жаргонного понятия «возраст гаплотипа».

Действительно, по числу мутаций в гаплотипах можно определять возраст гаплотипа, то есть время, прошедшее от общего предка этого гаплотипа до его сегодняшних потомков. Поскольку сыновья в подавляющем числе случаев сохраняют гаплотип отца, переданный по наследству, и мутации в этом гаплотипе проскакивают в среднем только раз примерно в 3375 лет (6-маркерный гаплотип) или раз в 1250 лет (12-маркерный гаплотип), или раз в 125 лет (111-маркерный гаплотип), то даже через 5000 лет у потомков сохранится 23 % исходного 6-маркерного гаплотипа, без изменений. То есть в списке из 100 гаплотипов потомков – 23 гаплотипа будут такими же, какой был у предка 5000 лет назад. Это несложно проверить, применяя логарифмический метод [ln(100/23)]/0.0074 = 199 условных поколений (по 25 лет), то есть примерно 5000 лет. На самом деле 23 гаплотипа из ста сохранятся заметно дольше, чем пять тысяч лет, потому что в гаплотипах время от времени происходят возвратные мутации, как бы «стирающие» мутации, образовавшиеся к тому времени. Расчет показывается, что 23 гаплотипа (6-маркерных) из ста сохранятся через 199 → 227 условных поколений, то есть через 5675 лет. Здесь стрелка показывает поправку на возвратные мутации. Их мы будем рассматривать ниже в этой книге.

При рассмотрении 12-маркерных гаплотипов те же 23 % гаплотипов предка сохранятся через 73 поколения (без поправки на возвратные мутации), или 78 поколений, то есть 1950 лет.

Таким образом, определить гаплотип предка можно и через тысячелетия. И по его виду можно узнать, из каких краёв предок пришёл, сравнив вид гаплотипа с гаплотипами по территориям, и с доступными ископаемыми гаплотипами.

В качестве примера стабильности гаплотипов можно привести 25-маркерные гаплотипы дяди и племянника (гаплогруп-па R1b-U152), которые оказались идентичными (это гаплотипы KLIN00012 и 00013 в базе данных Академии ДНК-генеалогии):


13 25 15 11 11 11 12 12 12 12 13 28–19 9 10 11 11 25 14 19 29 15 15 16 17


Как видно, за три поколения, разделяющих дядю и племянника, 25-маркерный гаплотип полностью сохранился. Действительно, расчеты показывают, что в среднем одна мутация между двумя 25-маркерными гаплотипами случается только на протяжении 11 поколений: 1/2/0.046 = 10.87 условных поколений (по 25 лет каждое; 0.046 – константа скорости мутации в 25-маркерных гаплотипах). Можно было бы написать «в среднем через 11 поколений», но это было бы по сути неверно, так как мутация может произойти неупорядоченно и когда угодно, но при наличии большого числа опытов она происходит в среднем раз в 11 поколений.


Вопрос 23: Можно ли по гаплотипам определять этносы?

Как правило, нет. Гаплотипы не указывают на этносы, это совершенно разные понятия. Гаплотипы указывают на древние рода, племена, которые намного старше этносов. С тех древних времен гаплотипы давно разошлись по разным территориям, на которых потом, через тысячелетия сформировались этносы. Хотя нередко бывают ситуации, когда относительно молодой этнос имеет характерный гаплотип, который мутировал всего лишь незначительно (то есть относительно недавно) от общего предка, и легко узнается. Например, таким характерным является гаплотип евреев гаплогруппы R1a. Он вошел в еврейскую среду субкладом Z2124 (тем самым, который мы видим у афганцев) примерно 4000 лет назад, но у афганцев этот субклад появился только в начале нашей эры. 1300 лет назад группа евреев, носителей этого субклада, к которому за прошедшие тысячелетия добавилась мутация М582 (и цепочка субкладов евреев приобрела вид R1a-Z93-L342.2-Z2124-M582), по каким-то причинам почти полностью вымерла, видимо, была группой компактной, и выживший носитель мутации М582 фактически опять начал свой род. Поскольку это было всего 1300 лет назад, то гаплотип в значительной степени сохранился до настоящего времени, и сейчас почти у всех евреев гаплогруппы R1a, а их многие тысячи, гаплотип (в 67-маркерном формате) имеет вид:


13 25 16 10 11 14 12 12 10 13 11 30 – 14 9 11 11 11 24 14 20 30 12 12

15 15 – 11 11 19 23 14 16 19 20 35 38 14 11 – 11 8 17 17 8 12 10 8 11

10 12 22 22 15 10 12 12 14 8 14 23 21 12 12 11 13 10 11 12 13


В среднем, у всех евреев, носителей этого гаплотипа, наблюдается всего 6 мутаций (на 67 маркерах) от предкового гаплотипа с возрастом 1300 лет. Поэтому данный гаплотип распознается с одного взгляда опытного специалиста. В нем есть характерные только для данного гаплотипа фрагменты.

У афганцев есть тоже характерные по виду гаплотипы. Например, в гаплогруппе G2 в Афганистане преобладает субклад G2b1, c коротким 6-маркерным гаплотипом


13 23 16 11 12 11


а на Кавказе преобладает субклад G2a1, с гаплотипом


14 22 15 10 12 10


Здесь различия множественные, поскольку общий предок обоих субкладов жил не менее 15 тысяч лет назад. За это время гаплотипы разошлись столь далеко друг от друга.

Поскольку у каждого племени и в каждом этносе, в каждом регионе можно определять возраст племени и вообще популяции в целом, то можно определять, когда и в каком направлении шли древние миграции.


Вопрос 24: Можно ли сказать, что где определенной гаплогруппы или субклада больше всех, там и их прародина?

Нет, так сказать нельзя, во всяком случае в большинстве случаев. Например, в Ирландии гаплогруппы R1b больше 90 %, но гаплогруппа R1b появилась наиболее вероятно в Южной Сибири, причем примерно 20 тысяч лет назад, а «возраст» гаплогруппы R1b в Ирландии, как и вообще в Европе, менее 5 тысяч лет. Причина – в далеких древних миграциях. Носители гаплогруппы R1b прибыли в Европу в начале III тыс до н. э., причем основная миграция была со стороны Пиреней, и оттуда мигранты довольно быстро заселили Британские острова, и далее распространились по Европе в виде культуры колоколовидных кубков[32]. К настоящему времени уже изучили шесть ископаемых ДНК из культуры колоколовидных кубков, и из них пять оказались R1b, и один – R1, для всех датировки между 4500 и 4100 лет назад[33], времена культуры колоколовидных кубков, как и предполагалось в ранней работе[34].

В периферийных регионах Европы (Пиренейский полуостров, Британские острова) потомки мигрантов быстро приумножили свое количество, и сейчас доля гаплогруппы R1b с нисходящими субкладами составляет там около 90 % или выше, а в центральной Европе произошло значительное разбавление новыми мигрантами, уже других гаплогрупп. В Восточной Европе исторически сложилось так, что там около 50 % составляет гаплогруппа R1a, но там тоже не их прародина, несмотря на высокую долю гаплогруппы. В Финляндии – выше 60 % гаплогруппы N, но это тоже не ее прародина. В Финляндию носители гаплогруппы N пришли со стороны Алтая. В Осетии более 70 % гаплогруппы G2a, но и это не прародина. Состав и доля гаплогрупп складывается тысячелетиями, и отражает определенные исторические процессы, о которых историки во многих случаях и не догадываются.

Полагать, что там, где гаплогруппы больше, там и прародина, это застарелая ошибка популяционных генетиков. С этой ошибки фактически и началась популяционная генетика человека, когда решили, что высокое содержание гаплогруппы R1b в Европе указывает на то, что эта гаплогруппа в Европе и образовалась. Более того, в академической литературе появилась и датировка для образования R1b в Европе – 30 тысяч лет назад. Эту датировку попгенетики тут же стали обильно цитировать, и никто не задавал вопрос – как эту величину определили? На самом деле ее никто не определял, она была просто записана «по понятиям». Это – типичная схема для популяционных генетиков.

Вывод – доля в процентах гаплогруппы в популяции сама по себе означает не очень много, это просто структура современной популяции, то, чем занимаются популяционные генетики. Как отмечалось выше, часто бывает, что доля большая, а общий предок недавний, просто потомки общего предка быстро размножились, условия были благоприятными. Еще пример – доля гаплогруппы R1a в высших кастах Индии достигает 72 %[35], а сама гаплогруппа пришла в Индию с ариями примерно 3500 лет назад. Хотя в самой цитируемой работе по той же порочной «логике» попгенетиков утверждалось, что раз доля гаплогруппы R1a в Индии (то есть в высших кастах) столь высока, то R1a в Индии и образовалась. На что можно с иронией сказать, что поскольку в нашей фамильной деревне Клёсово в Курской области доля гаплогруппы R1a составляет 100 %, то гаплогруппа в той деревне и образовалась.

Поскольку у каждого племени и в каждом этносе, в каждом регионе можно определять возраст племени и вообще популяции в целом, то можно определять, когда и в каком направлении шли древние миграции.


Вопрос 25: Как современные гаплотипы могут указывать, когда и в какую сторону шли миграции тысячелетия назад?

Когда шли миграции (или пребывание данной популяции на рассматриваемой территории) – рассчитывается по временному расстоянию до общего предка популяции на данной территории, причем такие расчеты проводятся для той же гаплогруппы или субклада на разных территориях. Другими словами, проводится картирование территорий на максимально возможных расстояниях, по всему континенту или на нескольких континентах. Если вдоль пути миграции, то есть шлейфа миграций, идет систематическое уменьшение времен до общего предка, то миграция шла в сторону уменьшения времени.

Пример – сопоставление серий гаплотипов гаплогруппы R1b в Средней Азии и в Европе показало, что общий их предок жил 16 тысяч лет назад[36]. Но в Европе общий предок гаплотипов гаплогруппы R1b жил 4800 лет назад (на Пиренейском полуострове) и 4500 лет назад (в центральной Европе). Следовательно, миграции эрбинов, носителей гаплогруппы R1b, шли со стороны Средней Азии на запад, в сторону Европы. Последующие исследования показали, что гаплогруппа R1b в районе Урала и на Русской равнине имела общих предков как минимум 7000 лет назад, на Кавказе – 6000 лет назад, в Месопотамии и на Ближнем Востоке – 5500 лет назад, на Пиренеях – 4800 лет назад. В ходе этого исследования[37] направления миграций и их времена стали более понятны. Датировки ископаемых гаплотипов позволили подтвердить выводы, полученные при изучении современных гаплотипов – на территории ямной культуры (в Самарской области) были найдены костные остатки носителей гаплогруппы R1b с археологическими датировками 5300 лет назад, а в Южной Сибири – костные остатки носителя гаплогруппы R с датировкой 24 тысячи лет назад[38]. В Европе (в Германии) были найдены ископаемые гаплотипы на территории культуры колокололовидных кубков, принадлежащие гаплогруппе R1b с датировкой 4500–4100 лет назад[39]. Интересен и их состав по субкладам – M269, P310/L151, L51, P312, U152. Первый – обычный далекий родительский субклад из Сибири или ближнего Зауралья, два следующих – ближневосточные (образовались примерно 6200 и 5700 лет назад), P312 – ранний иберийский субклад, начальные колоколовидные кубки, U152 – его потомок (время образования примерно 4500 лет назад).

Как видим, времена и направления миграции эрбинов, полученные поначалу с использованием гаплотипов современников, подтвердились на ДНК ископаемых костных остатков.

Еще пример – датировки (по мутациям в гаплотипах) гаплогруппы R1a-Z93 уменьшаются от 5500 лет назад в Европе до 4050 лет назад в Индии (для субклада R1a-Z93-L657, которого в Европе еще не было), то есть по ходу миграционного маршрута появляются и новые, нисходящие снипы. И таких примеров можно приводить множество.


Вопрос 26: Оперирует ли ДНК-генеалогия понятием «раса»?

Понятия «раса» в ДНК-генеалогии нет. ДНК-генеалогические линии поднимаются из глубин тысячелетий, десятков тысяч лет, сотен тысяч лет, а расовые признаки отдельных людей могут кардинально меняться за несколько поколений. Дело в том, что расовые признаки являются продуктом отца и матери, и если родители принадлежат разным расам, признаки расплываются, и через несколько поколений могут измениться до неузнаваемости.

Вот пример (Рис. 3) – как женитьба на русских женщинах всего в трех поколениях сделала из сибирских монголоидов (хакасов) внучек-европеоидов.

Еще пример – раскопки алтайской пазырыкской культуры позволили выснить, как скифы гаплогруппы R1a стали монголоидными всего за несколько поколений. Причина обратная той, что на фотографиях выше. Раскопки показали, что у этих скифов типичные монголоидные митохондриальные ДНК, то есть они женились на местных монголоидных женщинах, и через несколько поколений дети становились монголоидами, при наличии унаследованной по мужской линии гаплогруппы R1a.


Рис. 3. Переход от монголоидов к европеоидам за три поколения


Иначе говоря, мужские гаплогруппы не определяют расу, и напротив, раса не определяет гаплогруппу. В этой ситуации понятие расы в ДНК-генеалогии ничего не дает.


Вопрос 27: Что могло вызывать массовые миграции в древности?

В самом общем виде ответ такой – поиски лучшей доли. Конкретные причины могли быть самыми разнообразными – это и передвижения за уходящим зверем, который давал пищу и одежду, и уход от превосходящих сил неприятеля, но самый мощный, видимо, фактор был резкое ухудшение климатических условий – суровые зимы, наводнения, засухи, надвигающиеся оледенения.

В середине III тыс до н. э., в результате заселения Европы эрбинами, носителями гаплогруппы R1b, разрушилась Старая Европа, погибли процветающие тысячелетиями балканские культуры, и в Европе древние гаплогруппы либо погибли, либо бежали на периферии континента. Это – гаплогруппы G2a, I2a, E1b-V13, R1a. Гаплогруппа R1a передвинулась на восток, на Русскую равнину, но только малым составом. Об этом говорит то, что в Европе древних гаплогрупп R1a практически не осталось, за исключением малых долей процента, а в Восточной Европе гаплогруппа R1a практически обнулилась, то есть прошла бутылочное горлышко популяции, и общий предок практически всех носителей R1a жил примерно 4600–4900 лет назад (по разным выборкам).


Вопрос 28: Произошли ли люди от обезьян?

Произошли, но не от тех обезьян, которых мы видим в зоопарке. Те, что в зоопарке, или резвятся на полянах в Африке или в Азии, или ходят по краю крыши домов в Индии – это продукты эволюционного развития от общих предков их и человека миллионы лет назад. Например, общий предок шимпанзе и человека жил более 4 миллионов лет назад, и тот, что сейчас в зоопарке – прошел свой эволюционный путь, видимо – не самый удачный. Мы, современные люди, произошли от того же общего предка, несколько более удачным образом, правда, не все.

И не только с шимпанзе у нас был общий предок. Был и общий предок и с гориллой, и с орангутангом, и с макакой. Вот как совпадают их нуклеотидные последовательности в ДНК.


Рис. 4. Сопоставление нуклеотидных последовательностей фрагмента Y-хромосомы для современных человека, шимпанзе, гориллы, орангутанга и макаки (цит. в статье[40]).


Как видно, из 97 нуклеотидов показанной последовательности Y-хромосомы у современного человека и шимпанзе не совпадают только четыре, то есть совпадение наблюдается в 96 % нуклеотидов. Совпадение с гориллой – в 93 % нуклеотидов. Случайных совпадений до такой степени быть не может, мы – родственники, правда, весьма отдаленные.

Многие, даже в научной литературе, педалируют тот факт, что мы не можем найти «пропущенные звенья» эволюции, и что это якобы ставит под сомнение теорию эволюции. Да, найти их было бы интересно, но приведенные выше данные по геному делают эти «пропущенные звенья» не такими уже и обязательными. Ясно, что они где-то лежат глубоко в земле, но всю землю пока не перекопали, и перекопают не скоро. Тем не менее, новые находки не прекращаются, и каждый раз непредсказуемые. Появятся и пропущенные звенья.


Вопрос 29: Коррелирует ли Y-хромосома с общим геномом?

Когда как. Часто коррелирует, иногда нет. Описано немало случаев, когда у двух родных братьев определяли гаплотипы Y-хромосомы, и они были, разумеется, одинаковы или практически одинаковы, а данные по аутосоме (то есть по рекомбинируемым хромосомам генома) заметно различались. И братья далеко не всегда были похожи друг на друга. Порой напротив, геномные данные были близки, а гаплотипы отличались друг от друга на тысячи лет (при переводе мутаций в хронологические показатели).

Осложняет картину и то, что геномные данные разные исследователи представляют по-разному. И действительно, секвенирование геномов дает списки из десятков, сотен тысяч или миллионы снипов, и существует множество способов, как эти списки наглядно или не очень наглядно представлять. Каждый раз – это по сути поиск вариантов приближения или упрощения общей картины, подгонка приближения к ответу на заданный вопрос.

Например, диаграмма ниже показывает рассортированные мутации в геномах, то есть те самые десятки тысяч снип-мутаций, но сортировку их вели в разных предположениях. Основное предположение – это введение понятия «количество общих предков в популяции», или «количество предковых популяций», которое задается компьютерной программе. Оно определяется индексом К справа на картинке. Один предок – это когда популяция совершенно однородна, чего обычно не бывает. При минимальном количестве двух общих предков картина продолжает быть однородной в китайской «референсной» популяции справа, поскольку увеличение количества предков до пяти картину не меняет – популяция вся однородна, сплошная зеленая полоса. Мы знаем, что такого быть не может, китайцы – одна из самых гетерогенных в мире популяций, для этого досточно хотя бы раз пройтись по любому китайскому городу. Но в данном случае у исследователей так получилось, и печально то, что исследователи обычно вопросы не задают – как получилось, так и получилось. Так работает популяционная генетика.

Та же однородная картина наблюдается у ижемских коми, и в значительной степени у итальянцев (синяя полоса) и финнов из Куусамо, на севере Финляндии (пурпурная полоса). У остальных популяций разрешение нарастает с увеличением количества предполагаемых предковых популяций. Самая нижняя панель на диаграмме – «приглаженная» для пяти предковых популяций. На самом деле авторы ушли и выше, до 12 общих предков, но это картину почти не изменило.


Рис. 5. Влияние количества «общих предков в популяции», задаваемых произвольно (показатель К справа) для геномов ряда популяций (указанных внизу диаграммы).


При максимальном количестве в пять предковых популяций мы видим у русских Центрального региона одну доминирующую популяцию, одну менее значительную, и две-три малозначимых. Та же картина у латышей и эстонцев (у последних – две второстепенных по численности популяции), а также у чехов и немцев, только у них основная популяция – иная, нежели у русских. Поляки – почти то же самое, что русские из Курска и Твери. У финнов – тоже одна превалирующая популяция, которая полностью доминирует в провинции, и несколько менее выражена в столице, что в целом понятно. Столица – это обычно конгломерат популяций.

Ижемские коми значительно отличаются от прилужских, первые – почти однородны, у вторых – две почти одинаковые компоненты, у вепсов даже три почти одинаковые, что похоже на картину русских из Мезени, где половина финно-угров. Картина для «стандартного генома русских», что из Архангельской области – промежуточная между русскими Центрального района и вепсами.

Интересно, что авторы цитируемой здесь статьи даже не пытались дать интерпретацию этим картинам. Они ограничились тем же словесным описанием, как я предварительно дал выше, только называли цветные полосы «финской компонентой», «коми-компонентой», и так далее. А ведь интерпретация напрашивается сама собой. Эти полосы – в значительной степени доли гаплогруппы Y-хромосомы в мужских популяциях. Если сказать это попгенетикам, то они занервничают и зашумят, мол, причем здесь Y-хромосома, здесь вообще другие 22 хромосомы, перед которыми Y-хромосома по размеру что мышь перед слоном, здесь десятки тысяч мутаций, которых в Y-хромосоме вообще нет, и среди тех 615 человек половина (наверное) женщин, у которой Y-хромосомы вообще нет.

Я отвечу, что это все прекрасно понимаю, но предпочитаю работать не по понятиям, а по науке. А мне выставляют понятия, из «общих соображений». Покажите, что у меня выводы неправильные. А они сводятся к тому, что хвост в данном случае управляет собакой, то есть Y-хромосома, точнее, ее гаплогруппы – геномными закономерностями в популяциях. А вот почему это так – отвечать надо генетикам. Отвечать по существу, а не возражать «по понятиям». Открытия «по понятиям» не делаются. Открытия обязаны быть непредсказуемыми и для всех неожиданными, иначе это не открытия.

Вот – данные по гаплогруппам, которые попгенетики в цитируемой статье и не рассматривали. А зачем? Компьютер знает, что делает, не так ли? У финнов – три четверти гаплогруппы №с, ее мы и видим в виде пурпурной полосы. В провинции, на севере Финляндии – ее больше, а в столице, Хельсинки, меньше. Другой, желтой полосы, в столице примерно 20 % – это гаплогруппа R1a. Действительно, по Финляндии в целом примерно 10 % R1a, в столице – больше.

У русских центрального района основная гаплогруппа – R1a, что и показывает та же самая желтая полоса. В Курске ее 63 %, в Твери – почти столько же, что и видно на диаграмме. Немало R1a в Латвии и Эстонии, около 40 %. Хотя диаграмма показывает побольше, но мы понимаем, что эти все данные полуколичественные, и погрешности возможны с обеих сторон. В Польше доля R1a – как в Центральной России, что диаграмма и показывает. В Германии – примерно 20 %, на западе меньше, на востоке – больше. Это тоже в целом сходится с диаграммой. Как и то, что у чехов около 40 % R1a. У итальянцев Тосканы – всего 2 % R1a, что мы и видим на диаграмме, на которой представлены данные именно из Тосканы.

Короче, совершенно очевидно, что желтая полоса на диаграмме – это доля гаплогруппы R1a. Так что на возможные протесты попгенетиков я просто посоветую им лучше подумать, как это иначе объяснить. Уверяю, что другого конкретного объяснения от них не поступит. Возражения, что это «так случайно совпало» я не принимаю, пока мне не объяснят, что такое желтая полоса «не случайно».

У ижемских коми никто R1a не измерял, но по диаграмме видно, что ее у них почти нет, из тестированных 96 человек будет у одного-двух. У прилужских коми, как и у вепсов, и у популяции Мезени, судя по диаграмме, будет процентов тридцать. А вот и данные – действительно, у коми выявлено 33 % R1a, а у каких именно коми – мне неизвестно. Возможно, что у прилужских. Или у других. У вепсов не измеряли. У мезенцев – 44 % R1a, как примерно и на диаграмме.

Голубая полоса – это определенно гаплогруппа R1b, поскольку у итальянцев она доминирует, как и показано на диаграмме. В Германии ее примерно 40 %, у чехов чуть меньше, у всех остальных на уровне единиц процентов, что и видно на диаграмме.

Зеленая полоса – гаплогруппа О, она наиболее выражена в Китае, в Европе ее практически нет, что диаграмма и показывает.

Теперь красная полоса. Для нее остается только два варианта – гаплогруппа I (без разрешения на I1 и I2), или уральская, угорская гаплогруппа N1b. Действительно, у итальянцев первой всего 1–3% и вовсе нет второй, что и показывает диаграмма. У остальных – на уровне единиц процентов, как и видно из диаграммы. По данным диаграммы этой гаплогруппы, особенно N1b, должно быть много у тестированных северных народностей. Действительно, в Красноборске Архангельской области гаплогруппы I 22 %, в Вологде – 20 %, и гаплогруппы N1b 3.3 %. Судя по диаграмме, у тестированных прилужских коми ее должно быть примерно 40 %, но в одной из статей 2009 года гаплогруппы N1b у них всего 15 %, но 50 % гаплогруппы N1c1. У ижемских коми ее должно быть, по диаграмме, почти 100 %, но опять же, думаю, что не определяли.

Похоже, что у ижемских коми популяция молодая, всего несколько сотен лет. И вся она – только одна гаплогруппа, либо I1, либо N1b. Потому и однородна. Но поскольку популяционные генетики датировки не определяют, не рассчитывают, делать они этого не умеют, то только будущие исследования подтвердят мою точку зрения. Другого варианта не вижу.

Так что интерпретация диаграммы приобретает довольно простой вид. Получается, и в данном примере не в первый раз, что Y-хромосома, как паровозик, тащит за собой – в отношении картины мутаций – остальные 22 хромосомы, но то, что общая картина мутаций в данном случае отражает долю мужских гаплогрупп Y-хромосомы, это бесспорно. Отвергнуть это просто невозможно, можно только внести некоторые коррективы.

Популяционные генетики представляют те же данные и по-другому, диаграмма ниже. Она строится по другим принципам, здесь геномные картины мутаций растягиваются в двух направлениях, что и дает показанную ниже двумерную диаграмму. По ней видно, как популяции располагаются по степени близости (или отдаленности) друг по отношению к другу.

Теперь, зная, что эти картины отражают в основном мужские гаплогруппы, интерпретировать их довольно легко. Заметим опять, что авторы статьи их так не интерпретировали, ограничиваясь просто констатацией того, что увидели. Типа – вот что мы получили, смотрите. И что же мы видим?


Рис. 6. Двумерная диаграмма, показывающая степень близости (или удаленности) популяций, описанных в другом виде на рис. 5.


Мы видим, что популяции с близким набором мужских гаплогрупп, в которых доминирует (или значителен по представительству) R1a, образуют один кластер. Это – русские Курской, Владимирской, Тверской областей, латыши, немцы, чехи. Там же – эстонцы, которые начинают вытягиваться в сторону финнов (что неудивительно, у эстонцев – треть гаплогруппы N1c1), а именно в направлении финнов Хельсинки, и далее полоса уходит к финнам северной провинции, у которых должен быть максимум N1c1. То есть этот трек диаграммы, в левую сторону вверх, совершенно понятен. Как понятен и хвост этого трека – там крайний справа одинокий кластер итальянцев с максимальным содержанием гаплогруппы R1b. Других таких в рассматриваемых популяциях нет. Были бы ирландцы или баски – попали бы в компанию с англичанами. Вот пусть попгенетики это и проверят.

Симметрично, слева вниз уходит другой трек – предположительно в сторону увеличения содержания гаплогруппы I или N1b. Предположительно – потому что таких данных мало, но основных гаплогрупп больше не остается. К тому же гаплогруппы I и N1b на русском севере есть и немало (см. выше). Сначала вниз и влево пошел «референсный русский геном», который, как и описывалось выше, скорее угро-финский. В том же направлении потянулись вепсы и Мезенская популяция, с ее 7.4 % гаплогруппы N1b (в Пинеге 15.8 %), и далее коми – прилужские, и в конце трека – ижемские.

В целом же исследование полезное, оно позволяет понять, что лежит в основе вариаций в геноме, задающих глубинные различия между популяциями. Эти различия идут из тьмы тысячелетий, и что особенно интригует – они определенно завязаны на мутации, определяющие мужские гаплогруппы. Это – совершенно новая концепция, и решать эту загадку надо в содружестве генетиков и ДНК-генеалогов.

В сети нередко приходится встречать «мнения», в том числе и от биологов по образованию, которые пишут (цитата) – «Y-хромосома является ничтожной частью генома, и ее совпадения ни о каком реальном родстве не свидетельствуют». Автор той цитаты тоже рассуждает «по понятиям», и плохо знаком с литературой по этому вопросу. Да, собственно, здесь дело не столько в литературе (авторы статей тоже часто пишут «по понятиям»), сколько в собственном рассмотрении данных. Если опыта нет, то мнение ровным счетом ничего не стоит.


Вопрос 30: Есть ли «русская ДНК» или «русский геном»?

Говоря об отдельных людях – нет. Если говорить о большой группе этнических русских – в целом есть. Собственно, пример, описанный в предыдущем разделе, это показывает. И понятно, почему есть. Свои обычно, статистически, женятся на своих, как и выходят замуж. Вряд ли в русских деревнях встречали много чернокожих, монголов, австралийских аборигенов или американских индейцев. Поэтому в целом одни и те же огромные наборы снип-мутаций крутятся в популяции веками, вносимых мужчинами и женщинами этой популяции. Если построить карту мира, состоящую из таких популяций, то африканские будут совершенно отличны от монгольских, китайских, латиноамериканских, или европейских. Здесь я пишу «европейских» более осторожно, потому что разойдутся ли они по разным «цветам», или останутся однородными по всей Европе зависит от того, как представлять данные, на каком уровне обработки и приближения. Нередко бывает, что, например, русских от французов не отличить, но если перейти на другой уровень обработки данных, то различаются.


Вопрос 31: Каковы перспективы геномного анализа популяций и их истории?

В целом перспективы у популяционного анализа геномных данных – но это все равно пока не ДНК-генеалогия – огромные, но пока мы находится в самом начале этого пути, идя методом проб и ошибок. Примитивизм обработки данных и получаемых выводов порой просто шокирует, хотя сами исходные данные определенно замечательны. Срезание углов и шапкозакидательство в науке никогда не помогали. К сожалению, у популяционных генетиков не принято при анализе генома давать погрешности расчетов, приводить альтернативные варианты интерпретаций данных, и воздерживаться от мнений, которые в избытке вбрасываются в статьи. В итоге достоверность полученных интерпретаций часто не просто нулевая, а имеет отрицательную величину. Целый ряд рассмотрений подобных статей с «геномным анализом» приведен на сайте «Переформат» – http://pereformat.ru/klyosov/

Например, недавно (2015) по миру прошла широковещательная информация, что геномные данные показали, что носители гаплогруппы R1b из ямной археологической культы (нынешняя Самарская область) принесли в Европу индоевропейские языки. Там что ни слово, то недоразумение. Во-первых, авторы не получили никаких данных, что носители ямной культуры (примерно 5300 лет назад), гаплогруппа R1b, говорили на индоевропейских языках, это было просто придумано. Да и как могли получить? Выкопаннные кости они и есть кости, они не говорят. Всё, что определили, это то, что ДНК в них относилась к гаплогруппе R1b. Далее, то, что носители той ДНК/R1b пришли из ямной культуры в Европу (и принесли ИЕ языки), было провозглашено только на том основании, что в Европе много гаплогруппы R1b. Иначе говоря, авторы просто провели прямую линию между ямной культурой и Европой. Они даже не посмотрели на то, что они нашли не просто R1b, а ее субклад R1b-Z2103/Z2105, которого в Европе почти нет. Миграционный путь субклада Z2103/Z215 был не в Европу, а на юг, в Месопотамию и на Ближний Восток, где этого субклада множество, причем с той же датировкой 5000–6000 лет назад. Но в Месопотамии сейчас нет индоевропейских языков, как нет нигде на миграционном пути гаплогруппы R1b из Южной Сибири в Европу, с основным входом через Пиренейский полуостров, где у басков имеется около 90 % гаплогруппы R1b, и язык опять неиндоевропейский.

Это, к сожалению, типичный пример, как популяционные генетики используют геномный анализ для «изучения истории». Много других – на сайте http://pereformat.ru/klyosov/.


Вопрос 32: Насколько точны (или неточны) расчеты в ДНК-генеалогии?

Отвечу в два приема. Эта часть ответа – скорее качественная, концептуальная. Вторая часть, количественная, будет в разделе «Расчетные методы ДНК-генеалогии» (Часть II).

Все расчеты в ДНК-генеалогии производятся с погрешностями. Точные цифры получены быть не могут в принципе. Дело в том, что мутации неупорядоченные, поэтому мы имеем дело со статистикой.[41] Чем больше выборка, тем точнее расчеты. Чем длиннее гаплотипы – тем точнее расчеты. Погрешность зависит от числа гаплотипов в выборке, от протяженности гаплотипов, от того, насколько точно определена и выверена, откалибрована константа скорости мутации, от того, насколько древний общий предок. Особенно неточно сравнивать мутации в парах гаплотипов, особенно гаплотипов коротких. На двух гаплотипах мутация-другая могла добавиться буквально в предыдущем или нынешнем поколении. Это может сразу привести к прибавлению-отнятию тысячи лет «в одном поколении». А в большой выборке разница относительно нивелируется статистикой. Есть выборки в тысячи гаплотипов – там расчеты, конечно, точнее.

В ДНК-генеалогии часто важна не абсолютная точность, а концептуальный вывод. Например, если некто утверждает, что носители гаплогруппы R1b (которые сейчас составляют примерно 60 % мужского населения Западной и Центральной Европы), жили там, в Европе, еще 30 тыс. лет назад (а такими утверждениями популяционных генетиков, без расчетов, была заполнена академическая литература по данным вопросам до недавнего времени), а расчеты ДНК-генеалогии показали 4800 лет назад[42], то здесь дело не в точности, а в принципиальном выводе. То же самое по ДНК-генеалогии Кавказа – если данные показывают, что Кавказ заселялся носителями гаплогруппы J2 из Месопотамии примерно 7–6 тыс. лет назад, причем заселялся разными племенами и по разным территориям, и уже известно какими именно, и в какое время, то это дает важные данные историкам и археологам, которые продолжают горячо спорить по данным вопросам. То же самое по ДНК-генеалогии Прибалтики – данные показывают, что Прибалтика со стороны Финляндии и со стороны Южной Балтики заселялась всего 2000–2500 лет назад (со стороны Южной Балтики примерно на 500 лет раньше), но сами мигранты, которые на исходе миграции разделились на две большие ветви – северная и южная – имеют общего предка примерно 3575 лет назад, который, видимо, жил на Урале[43].


Вопрос 33: В какой степени гаплотипы определяются территориями и регионами?

Гаплотипы в немалой степени (но не всегда) связаны с определёнными территориями. Причина в том, что в древности большинство людей передвигались племенами, родами. Род, по определению, это группа людей, связанных родством, то есть происходят (по мужской линии) от одного общего предка. То есть гаплотипы у них обычно одинаковые или близкие. Как сообщалось выше, одна мутация в среднем происходит за тысячелетия. Проходили тысячелетия, численность родов порой сокращалась до минимума («бутылочное горлышко» популяции), и если выживший имел некоторую мутацию в гаплотипе, то его потомки уже «стартовали» с этой новой мутацией, копируя ее поколениями в своих ДНК, а мужчины – в своей Y-хромосоме. В популяционной генетике это называется «эффект основателя», что, в общем, особой дополнительной смысловой нагрузки не несет, это просто калька с английского языка, в котором это тоже не несет определенной информации. Некоторые люди покидали род по своей или чужой воле – плен, бегство, путешествия, военные походы, и выжившие начинали новый род на новом месте. В итоге карта мира с точки зрения ДНК-генеалогии получилась пятнистой, и каждое пятно порой имеет свой превалирующий гаплотип – гаплотип рода. Часто он и есть гаплотип предка, начавшего род на данной территории.


Вопрос 34: Получается, людей можно классифицировать по виду гаплотипов и снипов?

Да, это именно так. Например, носители гаплогрупп А и В сейчас в основном живут в Африке (но где эти гаплогруппы появились, пока непонятно, похоже, что не в Африке); гаплогруппа С встречается особенно часто среди монголоидов и жителей Австралии и Океании, хотя жители Австралии и Океании далеко не монголоиды (что показывает, в совокупности с другими данными, что первые носители гаплогруппы С были не монголоидны), подгруппы (субклады) далеко отклонились друг от друга в ходе развития или эволюции; гаплогруппу G находят в древней Европе (в основном ископаемые гаплотипы), на Кавказе, в Передней Азии, в Афганистане; гаплогруппа J – образовалась или в древнейшие времене перешла на Ближний Восток, и оттуда многие носители гаплогруппы J и ее субкладов J1 и J2 перешли Кавказ не позднее 6–7 тысяч лет назад; представителей гаплогруппы J1 довольно много на Кавказе, а также среди арабов и евреев на Ближнем Востоке, гаплогруппы J2 много на Кавказе, в Месопотамии и среди жителей Средиземноморья; гаплогруппа L появилась, похоже, в Передней Азии или на Ближнем Востоке, и разошлась в разные стороны – ее подгруппа (субклад) Lia – в Индии, Lib – в Грузии, Lic – в Афганистане, в северном Пакистане, на восточном Кавказе.


Гаплогруппу N имеют многие жители Китая, Сибири, севера России, Прибалтики и части Скандинавии, куда и прибыли носители гаплогруппы N с востока – Урала и до того Южной Сибири тысячелетия назад.


Гаплогруппа I – возможно, имеет историю на Русской равнине продолжительностью не менее 40–45 тысяч лет, и после почти полного вымирания или истребления примерно 4500 лет назад сейчас почти исключительно находится в Европе, где возродилась относительно недавно, 3700–2300 лет назад (для I1 и части I2, соответственно).


Гаплогруппы R1a и R1b появились в Южной Сибири после долгой миграции их предков, носителей гаплогруппы К, из которой образовалась гаплогруппа Р и затем Q и R, возможно, из Европы или с Русской равнины на восток, далеко за Урал. Оттуда гаплогруппы R1a и R1b пришли в Европу, причем разными миграционными путями. R1a стала основной гаплогруппой Восточной Европы, R1b – западной и центральной Европы.


Данное положение сводится к тому, что у каждого мужчины есть снип из определённого набора, по которому можно отнести носителя к определённому древнему роду. Времена появления снипов, обычно применяемых в ДНК-генеалогии, относятся к диапазону от 25–40 тысяч лет для «старых» снипов до 10–15 тысяч лет для «молодых», но сейчас уже выявляют снипы, образовавшиеся всего 600-1000-1500 лет назад. Четверть всего ирландского мужского населения имеют снип (R1b-M222), который образовался примерно 4300 лет назад, но прошел бутылочное горлышко популяции в начале нашей эры, и общий предок этой четверти населения жил всего 1800 лет назад. В континентальной Европе снипа М222 практически нет.

Для иллюстрации положения о снипах стоит еще раз взглянуть на сокращенную диаграмму субкладов гаплогруппы R1a, приведенную в ответе на 20-й вопрос.


Вопрос 35: Сколько всего имеется основных родов, или гаплогрупп человечества?

Гаплогруппы не просто соответствуют своим родам, но образуют определённую последовательность, лестницу гаплогрупп[44]показывающих их иерархию – последовательный, ступенчатый переход от точки расхождения африканских и неафриканских популяций (примерно 160 тыс. лет назад) до самой недавней гаплогруппы R, образовавшейся примерно 30 тыс. лет назад. Эта лестница называется филогенетическим деревом гаплогрупп и их снипов. Все гаплогруппы и субклады на дереве должны включать снипы «вышестоящих» гаплогрупп и субкладов. То есть принцип «лесенки» должен выполняться. Преемственность узловых родов человечества должна соблюдаться.

Всего в мире насчитывают 20 основных гаплогрупп, которые обозначают буквами латинского алфавита, от А до Т, хотя систему порой нарушают. В последнее время в классификацию добавили гаплогруппы А0 и A00, хотя их носителей обнаружили в количестве считанных единиц, все они живут в Африке. Но они настолько отстоят по снип-мутациям от всех остальных людей на Земле (тестированных на мутации в ДНК), что их пришлось выделить в отдельный род-гаплогруппу. Помимо этого, были идентифицированы промежуточные, сводные гаплогруппы, такие, как СТ, DE, GHIJK и другие (см. диаграмму ниже), так что минимальный состав генеалогического дерева мужской половины человечества включает уже 39 основных гаплогрупп, то есть главных уровней Y-хромосомной генеалогической структуры. С подгруппами это составляет уже много сотен.

Если же считать все уровни генеалогического дерева (уровень в этом случае – это субклад), то гаплогруппа R1a, основная гаплогруппа (род) этнических русских, уже насчитывает 66 субкладов, гаплогруппа R1b – 443 субкладов, и это при том, что на диаграмме ниже они обе входят в сводную гаплогруппу R, которой примерно 30 тысяч лет со времени образования. Образовалась гаплогруппа R при появлении необратимой мутации в виде спонтанного превращения одного нуклеотида в другой в ДНК (Y-хромосоме) патриарха, или его выжившего потомка, в свою очередь потомки которого дожили до настоящего времени в количестве более миллиарда человек. Если точнее, то у него, патриарха гаплогруппы R, по сравнению с ДНК его отца (относящегося к гаплогруппе Р) произошло спонтанное превращение аденина в гуанин, и это произошло в участке Y-хромосомы под номером 15 миллионов 581 тысяч 983. Всего же в Y-хромосоме мужчин насчитывается, как сообщалось выше, примерно 58 миллионов нуклеотидов.




Всё это делает филогенетическое дерево гаплогрупп достаточно прочной и обоснованной структурой. У него есть, впрочем, слабое место – его филогения не показывает, на каком континенте зародилось человечество, откуда пошли гаплогруппы, начиная с первых, на общем стволе, идущими от нашего общего предка с современным шимпанзе. Говоря языком филогении, дерево гаплогрупп не «укоренено». Укоренение дерева – результат интерпретаций, наблюдений и доступных экспериментальных данных.


Вопрос 36: Можно ли представить ДНК-генеалогическое эволюционное дерево человека с максимально сжатой форме, и дать комментарии для его самой ранней части?

Результаты недавних исследований о происхождении человечества методами ДНК-генеалогии представлены на следующей диаграмме, на которой также показаны времена появления основных Y-хромосомных ветвей человечества.


Рис. 6а. Диаграмма эволюции гаплогрупп современного человечества. На горизонтальной оси – основные гаплогруппы Y-хромосомы человечества, на вертикальной – абсолютная шкала времени. Общий предок альфа-гаплогруппы жил примерно 160 тысяч лет назад, общий предок бета-гаплогруппы (или гаплогрупп от В до Т) – 64±6 тысяч лет назад(из статьи[45]).


Естественно, эволюционное дерево уходит от альфа-гаплогруппы вниз, как это показано в верхней части предыдущей диаграммы, где расхождение гаплогруппы А0-Т на А0 и А1 и соответствует, видимо, расхождению двух ветвей, африканской (по месту прибытия) А0 и неафриканской А1:




Датировка этого расхождения по гаплотипам дает примерно 160 тысяч лет назад, но датировка по снипам пока является менее определенной. Компания YFull, наиболее продвинутая в датировках по снипам, сообщает, что гаплогруппу А00 отделяет от настоящего времени 1684 снипа, и потому дает для образования гаплогруппы А00 время 234900±7700 лет назад, что скорее означает 235000±8000 лет назад, потому что давать датировки с точностью до сотни лет при погрешностях в тысячи лет не является математически корректным. Гаплогруппу A0-T отделяет от настоящего времени 587 снипов, то есть в три раза меньше, но YFull дает для нее те же 234900±7700 лет, только исходя из того, что эти гаплогруппы на дереве «параллельны». Это, конечно, недопустимо, поскольку имеем конфликтные показатели -587 снипов соответствуют примерно 82000 лет, что, конечно, в этой ситуации мало.

Для гаплогруппы A0 компания YFull приводит 899 снипов, но датировки не приводит, хотя это соответствует примерно 125000 лет, если исходить из принятой пропорциональности датировок числу снипов. Для «параллельной» гаплогруппы компания приводит всего 62 снипа, но выставляет датировку 146300 лет, которая в таком случае непонятно, откуда появилась. Все это показывает, что расчеты по снипам пока не устоялись, и потому будем опираться на ранее рассчитанную величину расхождения ДНК-линий от альфа-гаплогруппы примерно 160 тысяч лет назад, как рассчитано по мутациям в гаплотипах.

Примерно 64 тысячи лет назад предки современных неафриканцев прошли «бутылочное горлышко популяции», и именно к этому времени сходятся все изученные до настоящего времени ДНК-линии гаплогрупп от В до Т. Видимо, наиболее обоснованной гипотезой об основной причине обрыва генетических линий неафриканцев 64 тыс лет назад является катаклизм планетарного масштаба, вызванной падением метеора в Тихий океан в указанное время[46]. Он привел к тому, что древние африканские гаплогруппы тоже вымерли и сейчас не обнаруживаются. Поэтому ровно никаких генетических оснований для утверждения, что современное человечество вышло из Африки нет, это просто фантазийная (а скорее, совершенно натянутая) схема. Фактически, она полностью строится на положении, что «африканцы более разнобразны» по Y-хромосомам, чем неафриканцы, но диаграмма выше показывает причины этого более высокого разнообразия. Вторая причина более высокого разнообразия в Африке – что в течение десятков тысяч лет в Африку мигрировали носители практически всех гаплогрупп человечества (например, в Камеруне и Чаде сейчас живут многие носители гаплогруппы R1b, пришедшие туда тысячелетия назад), которые, естественно, увеличивали «разнообразие», смешиваясь с африканцами. Подобная же диаграмма построена и для митохондриальных ДНК, присущих в первую очередь женщинам. Вывод один – предки современных неафриканцев из Африки не выходили, напротив, они прибывали в Африку и увеличивали африканское генетическое разнообразие.


Вопрос 37: Можно ли рассчитать, когда жил общий предок всех сегодняшних людей на Земле?

Можно, с определенной степенью допущений. Первое и самое главное допущение – что общий предок сегодняшних людей на Земле на самом деле существовал. Естественно, речь не идет о том, что на Земле когда-то жил один мужчина, и с ним рядом была одна женщина, как повествует библейская притча. Такого никогда не было. Во все времена было множество мужчин и множество женщин, а до них было множество самцов и самок, предшественников тех самых мужчин и женщин, и переход одних в других занял миллионы лет, и никто не может дать четких определений, в чем выражался этот переход, это все вопросы определений, которых, в общем-то, нет. Да, наверное, никого это отсутствие четких определений особенно и не беспокоит.

Чисто концептуально, «общий предок» всех людей на сегодняшней планете – это тот, потомство которого выжило, в отличие от множества его современников, и продолжилось в потомках до настоящего времени. Помимо этого – это был тот человек, у которого было как минимум два сына, потомство которых выжило до настоящего времени. Как следствие первых двух условий, все потомки унаследовали снип-мутации своего «первопредка», и добавили снип-мутации в последующем. Поэтому есть еще одно условие, точнее, следствие – мутации в гаплотипах потомков при экстраполяции в прошлое сходятся к «первопредку». Таким образом, можно определелить его гаплотип, независимо от того, как давно он жил.

Но в реальности картина более сложная – ДНК-линия от первопредка к сегодняшним потомкам часто выглядит как цепь сосисок в перетяжками во многих местах. Эти места – бутылочные горлышки популяции, и порой перетяжки образуют такие сужения, что при расчетах они тоже формально соответствуют одному человеку, патриарху после прохождения бутылочного горлышка. Иначе говоря, имеем последовательную цепь патриархов. Это легко представить на примере хрестоматийного «последнего из могикан» Фенимора Купера. Вспомним сюжет – от всего племени могикан остался один мужчина. Умрет он – и вся линия ДНК, идущая из глубин, возможно, 12–15 тысяч лет назад, оборвется. Для следующего поколения американских индейцев могикан как бы и не существовало, несмотря на их многотысячелетнюю историю. Но если «последний из могикан» выживет, женится, обзаведется сыновьями – он станет патриархом для последующих поколений его рода.

Подобных случаев в истории Земли было, видимо, неисчислимое количество.

В итоге вопрос про «общего предка человечества» несколько расплывается. В каждой прямой ДНК-линии её общий предок жил относительно недавно – где сотни лет назад, где тысячу-другую лет назад. Но совокупность ДНК-линий, даже только выживших, помещает общих предков на 20–40 тысяч лет назад в каждой гаплогруппе. Совокупность ДНК-линий разных гаплогрупп помещает общего предка неафриканцев на 64±6 тысяч лет назад, до наиболее отдаленного бутылочного горлышка популяции, а африканцев – примерно на 217 тысяч лет назад[47], но это не потому, что африканские предки древнее, а потому что по какой-то причине совокупность африканских (по их нынешнему месту обитания) ДНК-линий прошла бутылочное горлышко популяции намного ранее.


Расчет времени жизни общего предка гаплогрупп A0 и A00 с помощью калькулятора Килина-Клёсова (показан фрагмент калькулятора)


Можно ли считать, что 217 тысяч лет назад жил общий предок современного человечества? Нет, нельзя. Потому что неафриканские и африканские ДНК-линии сходятся к общему предку примерно 160 тысяч лет назад. Именно тогда разошлись африканские и неафриканские (по нынешнему месту обитания) ДНК-линии. Но глубже во времени уходит общий эволюционный ствол африканцев и неафриканцев, который расходится на гаплогруппы А00 и А0-Т примерно 217 тысяч лет назад. У нас нет оснований не считать носителей гаплогрупп А00 и А0-Т членами вида Homo sapiens, так что общий предок современного человечества уходит глубже 217 тысяч лет назад. Но еще глубже, 300-400-500 тысяч лет назад, уже времена образования неандертальцев, которых вряд ли можно считать общими предками современного человечества. Вот и очерчены рамки времен возникновения общего предка современного человечества. Называть его «Адам», чем увлекаются некоторые, нет никаких оснований.


Вопрос 38: Почему в ДНК-генеалогии за поколение принимается 25 лет? Ведь протяженность поколения – величина нестабильная. Как это сказывается на расчетах в ДНК-генеалогии?

Действительно, в расчетах ДНК-генеалогии обычно оперируют поколениями, потому что при расчетах на один год константы скоростей мутации имели бы много нулей, а много нулей увеличивает вероятность ошибки. Например, для 12-маркерных гаплотипов (в стандартной системе FTDNA) величина константы скорости мутации равна 0.02 на гаплотип за условное поколение, или 0.0008 на гаплотип за год, или 0.0000666 на маркер за условное поколение. Условное поколение в контексте ДНК-генеалогии – это событие, которое происходит четыре раза в столетие. Численно и по времени оно близко к продолжительности поколения в житейском смысле этого слова, но не обязательно равно ему. Хотя бы потому, что продолжительность «бытового» поколения не может быть точно или хотя бы в среднем определена, она «плавает» в реальной жизни в зависимости от многих факторов, включая культурные, религиозные и бытовые традиции, примерно и в среднем от 18 до 36 лет, хотя границы этого не определены.

Такие организации, как ООН и ее подчиненные организации, как ЮНЕСКО и другие, как и прочие международные организации обычно принимают в своих подсчетах и рекомендациях продолжительность поколения в 25 лет, это же обычно принимают и демографы, например, в работе[48]. Это все, разумеется, условности, и приняты только для некоторой стандартизации. Популяционные генетики рекоментациями ООН не руководствуются, и, в общем, правильно, но при этом используют продолжительности поколения кто во что горазд. Никакой научной основы в это не закладывают, поэтому уйдя от одних рекомендаций они никаких других не выработали. Только что вышла статья по геномному анализу, там в расчетах применяли 29 лет на поколение, на каком основании – не пояснили[49]. Другие берут от 18 до 35 лет на поколение.

В ДНК-генеалогии произвольные значения продолжительности поколений не используются, поскольку использовать столь «плавающую» величину для расчётов в широких временных диапазонах и для разных народов не представляется возможным или разумным. Исходя из этого положения, скорости мутаций откалиброваны под условно взятое поколение продолжительностью 25 лет.[50] Если кому-то больше нравится 30 лет на поколение или любое другое количество лет, скорости можно перекалибровать, и в итоге окажутся ровно те же величины в годах. Так что сколько лет приходится на поколение – в данном случае не имеет значения, потому что при расчётах меньшему числу лет на поколение будет просто соответствовать пропорционально большее число поколений, и итоговая величина в годах не изменится.

Например, для 67-маркерных гаплотипов средняя константа скорости мутаций равна 0.12 на гаплотип на условное поколение в 25 лет. Поэтому при 120 мутаций на 50 гаплотипов общий предок этих 50 гаплотипов жил 120/50/0.12 = 20 условных поколений назад, то есть 20х25 = 500 лет назад. Если кому-то не нравится величина 25 лет на условное поколение (правда, причины такой нелюбви к 25 годам на поколение будут загадочными), и этот некто захочет использовать 30 лет на поколение, то нет проблем, просто константу скорости мутации придется пропорционально пересчитать, и она получится 0.12x30/25 = 0.144 мутаций на поколение в 30 лет. Тогда для 120 мутаций имеем 120/50/0.144 = 16.666 поколений по 30 лет, или те же 500 лет до общего предка. От чего ушли, к тому же и пришли.


Вопрос 39: Какие требования предъявляются к выборкам гаплотипов для расчетов в ДНК-генеалогии?

Как уже пояснялось выше, если взять любую выборку, тупо считать количество мутаций в гаплотипах, и разделить его на число гаплотипов и на константу скорости мутации, то что-то, конечно, получится. Именно так и проводят «расчеты» популяционные генетики. Но на самом деле там скорее всего получится некое бессмысленное число в поколениях или годах до якобы общего предка. Но откуда известно, что для данной выборки общий предок был один? А ведь так всегда и работают попгегетики, усредняя любые выборки. Поскольку после некоторых проб и ошибок ими было найдено, что таким образом происходит «умоложение» общих предков выборок, то попгенетики не нашли ничего лучшего, как втрое занизить величину константы скорости мутаций. Собственно, они ее «константой» никогда и не называли, просто «популяционная скорость мутаций». Вот так и работали – за счет усреднения время до общего предка занижали в неизвестное число раз, а за счет искусственного занижения «скорости мутаций» его опять увеличивали, правда, опять в неизвестное число раз, по принципу – «авось скомпенсируется». А оно не компенсировалось, а либо получалось значительно заниженным, либо значительно завышенным. Когда общий предок выборки был случайно один, то завышение времени до него составляло обычно 280–350 %. Так и работали, и вот такими завышенными датировками заполонили академические журналы.

Честь нанесения такого ущерба науке, если попгенетику называть наукой, принадлежит Л.А. Животовскому, сотруднику Института общей генетики РАН. На основании какого-то вывиха здравого смысла, эту «популяционную скорость» узаконили после 2004 года, и более десяти лет в академических журналах гнали откровенный мусор. Широко известны «датировки» «общего предка» гаплогруппы R1a в Индии, которые Животовский с соавторами (эстонская школа попгенетики) загнали в 12–15 тысяч лет назад, когда они на самом деле составляют 3500–4000 лет назад, для разных выборок. Это на долгие годы не только затормозило изучение истории ариев в Индии, но и направило изучение истории по ложному пути. Этим отличился, например, некто Семененко из Воронежа, представляющийся как «индолог», для которого главный аргумент для отстаивания этих безумных датировок был, что они опубликованы «уважаемыми людьми», «известными специалистами». Нет и не может быть таких критериев в науке, а если их применять, то только как вторичные, вспомогательные.

Возвращаясь к исходному вопросу, только те мутации в гаплотипах имеет смысл рассчитывать, экстраполируя ко времени общего предка, которые подчиняются определённым количественным закономерностям. ДНК-генеалогия оперирует тремя экспериментальными факторами: 1) наличием снипов, относящих человека к определённому роду; 2) наличием мутаций, позволяющих оценивать время, прошедшее от общего предка совокупности гаплотипов и – при больших выборках – от начала самого рода, от самого далёкого из предков ныне живущих потомков данного рода (то есть здесь считаются сами мутации); 3) закономерностями переходов гаплотипов в их мутированные формы, без численного учёта самих мутаций (то есть здесь мутации не считаются, считаются немутированные гаплотипы).

Это позволяет оценить, насколько достоверны расчёты времени жизни общего предка по мутациям, и даёт ещё один, независимый способ расчетов. Методы, в которых считаются мутации, называются линейным, квадратичным и пермутационным,[51]из которых наиболее прост линейный метод. Метод, в котором считаются немутированные гаплотипы, называется логарифмическим. В принципе, он использует формулы химической кинетики первого порядка (дополнительно вводя поправку на возвратные мутации). В линейном методе общее число мутаций в серии гаплотипов делится на число гаплотипов и на константу скорости мутации для данных гаплотипов, как было показано выше. В логарифмическом методе берется логарифм отношения общего числа гаплотипов к числу немутированных гаплотипов, и делится на константу скорости мутации, как тоже было показано выше.

Очень важно понять, что если линейный и логарифмический методы дают разные времена до общих предков, то выборка «кривая», то есть неоднородная, и происходит от нескольких общих предков, как минимум от двух. Получаемые времена до общих предков тогда лишены определенного смысла, предок «фантомный».

Приведем пример. Имеем неоднородную выборку из 300 гаплотипов в 25-маркерном формате, в которой 200 гаплотипов происходят от общего предка, который жил 3000 лет назад, и 100 гаплотипов – от предка, который жил 800 лет назад. Если мы построим дерево гаплотипов, то сразу увидим, что 200 гаплотипов образуют одну большую и глубокую (высокую) ветвь, и 100 гаплотипов – плоскую ветвь. Тогда сразу можно разделить ветви, и каждую из двух ветвей обсчитывать отдельно. В первой ветви из 200 гаплотипов все 25-маркерные гаплотипы будут разными (то есть логарифмический метод с ними работать не будет), что уже покажет, что общий предок жил более 2500 лет назад (при 2500 годах в выборке могли бы быть два одинаковых гаплотипа, потому что [ln(200/2)]/0.046 = 100 условных поколений, или 2500 лет до общего предка). На все 200 гаплотипов будет 1104 мутаций от базового гаплотипа, что даст 1104/200/0.046 = 120 условных поколений, или 120х25 = 3000 лет до общего предка (вкладом возвратных мутаций здесь для простоты пренебрегаем).

Во второй ветви из 100 гаплотипов в 25-маркерном формате 23 гаплотипа будут идентичными друг другу. Это даст [ln(100/23)]/0.046 = 32 условных поколений, то есть 800 лет до общего предка. Иначе говоря, если смешать эти 200 и 100 гаплотипов, то в этой смеси 23 гаплотипа будут одинаковыми (из молодой ветви), и мы получим [ln(зоо/2э)]/о.046 = 56 условных поколений, то есть якобы 1400 лет до общего предка якобы одного для всех 300 гаплотипов. А мутаций во всей составной, неоднородной выборке будет 1251, если базовые гаплотипы обеих ветвей случайно совпадут. Тогда линейный метод даст 1251/300/0.046 = 91 условное поколение, или 2275 лет до якобы общего (фантомного) общего предка. Если базовые гаплотипы обеих ветвей будут разными, то время до фантомного общего предка будет практически любым между 3000 и 800 лет.

Итак, подводим итоги. Выборка составная, неоднородная, общие предки жили 3000 и 800 лет назад. Линейный метод дал фантомного общего предка 2275 лет назад, логарифмический -1400 лет назад. То, что эти времена не совпали друг с другом, говорит о том, что так считать нельзя, и выборки надо разделять. Обычно разделение проводится с использованием деревьев гаплотипов (см. следующий раздел).


Вопрос 40: Выборки в ДНК-генеалогии обычно несоизмеримо малые по сравнению с реальными величинами самих популяций. Как таким выборкам можно доверять? Есть «мнения», что выборки должны иметь как минимум 10 тысяч гаплотипов, чтобы получать относительно разумные данные.

Это совершенно ненаучная постановка вопроса, опять «по понятиям», по «мнениям», ни на чем не основанным. На это можно задать встречный вопрос, который уже был задан выше в настоящей книге – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится не к каким-то с потолка взятым числам, а к к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить о всей системе. Этот вопрос в ДНК-генеалогии давно проработан, и результаты сопоставительных исследований показаны, например, в следующей таблице:


Таблица. История определений времени до общего предка гаплогруппы R1a на «пост-советском пространстве» по разным сериям гаплотипов.[52]


Из таблицы видно, что при последовательном переходе от серии из 26 гаплотипов до 2000 гаплотипов, и при увеличении числа мутаций в них в двести с лишним раз расчетное время до общего предка этих гаплотипов, в данном случае проживавшего на Русской равнине около пяти тысяч лет назад, получается практически одинаковым, в пределах погрешности расчетов. Это значит, что гаплотипы гаплогруппы R1a на пост-советском пространстве перемешаны достаточно хорошо, и все выборки вполне репрезентативны.

Конечно, могут быть и другие ситуации. Например, в горах в каждой долине состав гаплотипов (и гаплогрупп/субкладов) может заметно различаться, в отличие от того, что может наблюдаться на равнине, где гаплотипы более перемешаны за тысячелетия. Но в любом случае расчеты и выводы по гаплотипам относятся только к той конкретной выборке, которая рассматривалась, и только сопоставление разных выборок может показать, насколько система «перемешана», и решить вопрос об обобщении результатов расчетов и выводов на всю популяцию региона, или только ее конкретную часть. Но пока репрезентативность разных выборок наблюдается и в горах. Например, разные выборки осетин и карачаево-балкарцев дают воспроизводимые результаты для каждого из этих этносов. Перемешивание между ними обнаружено, но очень незначительное, практически не влияющее на результаты расчетов.

В большинстве случаев результаты расчетов почти не зависят от размера выборки (при числе гаплотипов больше двух-трех десятков), то есть они устойчивы к статистическим вариациям, если популяция достаточно перемешана и выборка произведена неупорядочено. Размер выборки увеличивает точность, и то только до определенных пределов. Это, повторяем, относится к довольно большим популяциям, которые перемешались за тысячелетия, но именно с такими обычно и работают.


Вопрос 41: Что такое «деревья гаплотипов» в ДНК-генеалогии?

По ходу изложения мы будем показывать деревья гаплотипов, которые отражают ДНК-картину этносов, родов, племен. Это вовсе не значит, что гаплотипы определяют этнос. Но они его в определенной степени описывают, каждый этнос по-разному. Человеку непривычному эти деревья представляются некими абстрактными образованиями, но в них на самом деле заключен большой смысл и в их графическом виде дается большой объем информации. Для того чтобы сделать деревья в этой книге более понятными и осмысленными, приведем несколько вводных, «модельных» примеров.


Рис. 7. Дерево, состоящее из 68 гаплотипов гаплогруппы R1a в их 6-маркерном формате. Базовый гаплотип здесь 13 25 15 11 12 11 (в системе DYS 393, 390, 19, 391, 388, 392). Базовые гаплотипы образуют «гребенку» на дереве.


На рисунке выше приведено дерево реальной выборки из 68 гаплотипов гаплогруппы R1a. Гаплотипы простенькие, 6-маркерные, общий предок всех жил всего 625 лет назад, так что мутаций в гаплотипах набежало мало. Можно даже заранее посчитать, сколько. Это дерево гаплотипов потомков Джона, Лорда Британских островов, который жил в 14-м веке и умер в 1386 году. Его потомки – известный шотландский клан Мак-Доналдов (один из Мак-Доналдов был маршалом у Наполеона). Константа скорости мутации для 6-маркерных гаплотипов равна 0.0074 мутаций на гаплотип на условное поколение в 25 лет. Тогда за 625 лет (25 условных поколений) в каждом гаплотипе набежит 0.0074х25 = 0.185 мутаций, и на все 68 гаплотипов будет 0.185х68 = 13±4 мутаций. Погрешность рассчитывается по обычным правилам математической статистики.

Смотрим на дерево гаплотипов. Там – 15 мутаций, то есть в пределах погрешности. Можно посчитать самим, это все «вылезающие» из колеса спицы. А вылезают они в разных (и заранее непредсказуемых) местах, потому что мутации происходят неупорядоченно. 53 гаплотипа не мутированы, они образуют ровную гребенку, или «колесо» вокруг центральной части. Это – тот же самый гаплотип, что имел общий предок всех 68 человек, то есть Джон, Лорд Островов:


13 25 15 11 12 11


53 человека этот гаплотип полностью сохранили, потому что 625 лет – это относительно малое время, и 15 мутаций – это все отклонения от предкового гаплотипа, что за это время смогли произойти.

Показанные выше шесть чисел соответствуют шести участкам в Y-хромосоме ДНК, в которых повторяются выбранные исследователями короткие нуклеотидные последовательности. В первом участке – 13 повторов, во втором – 25 повторов, в третьем – 15 повторов и т. д. Мутация – это изменение числа повторов. Ошибся копирующий фермент при биологическом копировании Y-хромосомы, скопировал третий участок не 15 раз, как завещали предки, а 16 раз, получилось


13 25 16 11 12 11


Это – два идентичных гаплотипа, на дереве выше под номерами 054 и 060. С правой стороны – гаплотип 061, он имеет вид


14 25 15 11 12 11


У него мутация проскочила в первом участке, было 13 повторов, стало 14. То есть опять система копирования ошиблась в сторону завышения числа повторов. А вот в семерке идентичных гаплотипов под номерами 055–057, 062, 064, 066, 068 – мутация прошла во втором участке, на понижение (25 → 24) и получилось


13 24 15 11 12 11


Действительно, этот участок, или маркер, как их называют, один из самых подверженных мутациям. Теория подсказывает, что в первом участке на все гаплотипы произойдет только одна мутация, во втором – семь мутаций, в третьем – две мутации. Так и получилось на практике. То есть даже при такой малой статистике закономерности в целом выполняются. Более того, все остальные пять мутаций на дереве гаплотипов относятся к тому же (второму) быстрому маркеру. Гаплотипы под номерами 059, 063 и 065 имеют вид


13 26 15 11 12 11


то есть мутация прошла на единицу на повышение, 25 → 26. Последние две мутации, в гаплотипах под номерами 058 и 067, оказались двойными (25 → 23, 25 → 27):


13 23 15 11 12 11

13 27 15 11 12 11


Они и сидят по обе стороны «букета», потому что не происходят одна из другой. Заметьте, что длина «спицы» в двух последних случаях тоже двойная, по сравнению со всеми остальными. То есть по виду дерева гаплотипов можно сказать, какие мутации одиночные, какие – двойные или тройные.

Внешний вид «дерева» определяется настройками профессиональной компьютерной программы, которая строит его на основании вводимого списка гаплотипов. Она сортирует гаплотипы по ветвям, то есть по похожести гаплотипов, сортирует по тому, в каких маркерах произошли мутации, сколько мутаций произошло, и по тому, насколько ветви древние. Поэтому по виду дерева человек опытный сразу может понять, какова структура той или иной популяции, сколько в ней основных ветвей, каков относительный возраст ветвей, и далее по числу мутаций в ветвях рассчитать, когда жил общий предок каждой ветви. Таких компьютерных программ много, наиболее известная – PHYLIP, с преобразованием MEGA.

По виду базовых гаплотипов в разных регионах и по возрасту их ветвей можно устанавливать, откуда, куда и когда проходили древние миграции людей и где сейчас живут их потомки. То есть можно проводить ДНК-генеалогическое картирование регионов, материков, и всей планеты, как в пространстве, так и во времени. В этом – методология ДНК-генеалогии. А дальше идут интерпретации получаемых данных в терминах истории, языкознания, антропологии, стыковка их с известными данными (тогда это по сути «калибровка»), или с данными неустоявшимися, сомнительными, конфликтными – тогда это дополнительная «точка опоры», или, наконец, это введение в научный оборот совершенно новых данных, и открытие пути для их верификации, проверки, обсуждения, выдвижения новых гипотез и положений.

Следующие несколько вопросов с соответствующими ответами образуют своеобразный глоссарий, или словарь. Ряд понятий были уже рассмотрены ранее, но повторение – мать учения. Это вопросы-ответы помогут многим еще раз взвесить, насколько усвоен материал, и насколько могли быть пропущены некоторые детали.

Глава 3

Глоссарий ДНК-генеалогии

Вопрос 42: Что такое ДНК и что такое Y-хромосома?

ДНК, дезоксирибонуклеиновая кислота, сохраняет и реализует генетическую программу развития и функционирования организма человека. Находится в ядре клетки в составе 46 хромосом, одна из которых, самая маленькая по размеру – мужская половая хромосома, или Y-хромосома. В ней примерно 58 миллионов нуклеотидов, повторяющихся структурных единиц ДНК-аденина, гуанина, тимина и цитозина. Все 46 хромосом в совокупности состоят из трёх миллиардов нуклеотидов, и в их составе примерно 30 тысяч генов, в среднем по 652 гена на хромосому. В Y-хромосоме всего 27 генов, остальная часть – некодирующая, «никчёмная», как её часто называют, или, скорее, называли еще недавно. В ней находится много повторов нуклеотидных цепочек, часть которых генетики выбрали в качестве гаплотипов для ДНК-генеалогии. Копирование, или репликацию ДНК выполняет ДНК-зависимая ДНК-полимераза (в составе большого комплекса, реплисомы), которая иногда допускает ошибки, называемые мутациями.


Вопрос 43: Что такое маркер в ДНК-генеалогии?

МАРКЕР, или локус, сегмент, участок Y-хромосомы (в контексте данной книги), выбранный для определения числа повторов нуклеотидов для целей ДНК-генеалогии. Число повторов нуклеотидов в локусе называют «аллель». Маркеры нумеруют и присваивают им индексы, например, DYS19, то есть «DNA Y Segment, локус номер 19». В этом конкретном локусе повторяется четвёрка (квадруплет) ТАГА, то есть тимин-аденин-гуанин-аденин, причём повторяется у разных людей от 11 до 19 раз подряд. Эти границы чисто эмпирические. Возможно, у кого-то среди людей Земли он повторился 10 или 20 раз подряд, но вероятность такого события крайне мала. Число повторов – индивидуальная характеристика человека, и при увеличении числа маркеров совокупность аллелей становится всё более индивидуальной. В ранних академических исследованиях типировали (то есть определяли последовательности) от 5 до 9 маркеров, в современных – от 10 до 17, реже до 23 маркеров, в коммерческих работах обычно типируют от 12 до 111 маркеров, и выше – в специальных геномных исследованиях (стандартные варианты – 12, 17, 25, 37, 67 и 111 маркеров). Ниже приведен пример гаплотипа автора данной книги, в котором типировали 431 маркеров:


13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 31 15 9 15 12 25

27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12

24 15 12 15 24 12 23 19 11 15 17 9 11 11 10 12 15 15 10 10 8 8 9 13 7 8

10 10 13 14 14 15 31 32 11 10 9 9 8 24 8 8 8 16 22 22 24 21 23 14 16

25 28 15 15 6 11 14 15 8 14 11 12 10 11 10 10 11 11 18 10 12 10 7 10 5

8 9 5 5 11 15 8 29 6 7 10 13 11 6 7 7 7 16 10 11 16 22 23 11 12 12 10 7

12 12 13 7 3 20 18 11 11 8 9 13 13 10 11 22 12 16 13 14 11 11 12 10 12

9 13 9 12 11 12 16 7 14 12 10 9 10 4 7 7 13 13 12 11 9 11 10 11 14 8 4 8

6 11 11 16 9 11 13 19 12 12 9 10 9 9 11 11 9 9 14 14 15 9 7 10 12 14 13

14 14 12 6 32 10 11 16 8 7 17 17 11 11 6 13 12 13 11 10 7 13 12 7 12 12

7 14 17 17 11 25 8 8 12 8 8 1113 11 12 10 8 13 8 13 14 10 11 9 20 17 15

36 9 13 14 39 33 36 9 10 10 12 18 19 13 9 14 44 10 8 14 9 8 20 11 11

11 11 10 9 9 9 8 8 8 8 9 11 9 23 11 9 16 31 8 20 8 13 12 8 16 10 9 33

27 23 22 10 8 12 10 8 14 8 8 32 55 7 7 5 9 6 11 11 11 13 9 39 33 7 8

27 7 5 13 7 15 28 25 60 42 12 31 22 20 12 3 4


Таких гаплотипов в мире определено пока всего несколько десятков, так что практическая польза от них пока невелика, за исключением нескольких специальных случаев, которые будут пояснены ниже.


Вопрос 44: Что такое аллель в ДНК-генеалогии?

АЛЛЕЛЬ, число тандемных повторов определенных блоков нуклеотидов в маркерах. Обычно в биологии понятие аллели относят к разным формам генов, расположенных в одинаковых маркерах хромосом одного типа, то есть гомологичных хромосом, и которые (аллели) при кодировании приводят к появлению различных вариантов одного и того же признака. В ДНК-генеалогии аллели задают разное число тандемных повторов в одном и том же маркере. Выше был приведен пример, когда в маркере DYS19 число повторов квадруплета ТАГА (TAGA) может быть от 11 до 19 раз. Числа аллелей в маркерах – важнейшая характеристика в ДНК-генеалогии, поскольку статистическое отклонение числа аллелей от предкового в каждом маркере гаплотипа позволяет рассчитывать, когда жили общие предки популяций, и эти расчеты работают на временах от сотен лет до нескольких миллионов лет.


Вопрос 45: Что такое гаплотип в ДНК-генеалогии?

ГАПЛОТИП – это совокупность аллелей, то есть наборов повторов в маркерах. Гаплотип записывается в виде набора чисел, которые отражают число аллелей в каждом маркере. Например, предковый гаплотип славян гаплогруппы R1a Русской равнины: в 12-маркерном формате (формате FTDNA)


13 25 16 11 11 14 12 12 10 13 11 30


в 25-маркерном формате


13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16


(здесь поставлено тире между первой и второй панелью маркеров, точнее – аллелей, потому что в длинных последовательностях чисел легко потеряться, а тире представляют собой метки, на которые можно ориентироваться),


в 37-маркерном формате


13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 11 19 23 16 16 18 19 35 38 14 11


в 67-маркерном формате


13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 11 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11

10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13


в 111-маркерном формате


13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 12 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11

10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13–32 15

9 15 12 26 27 19 12 12 12 12 10 9 12 11 10 11 11 30 12 13 24 13 9 10

19 15 20 11 23 15 12 15 24 12 23 19 10 15 17 9 11 11


Вопрос 46: Что такое «стандартная запись гаплотипов в формате FTDNA»?

ФОРМАТ FTDNA – форма записи гаплотипов, принятая компанией Family Tree DNA (США), основной компанией в мире по тестированию ДНК, и далее принятая в ДНК-генеалогии. В статьях по популяционной генетике такая запись практически не используется, и по простой причине – протяженные гаплотипы там не используются. Порядок записи гаплотипов в попгенетике другой, и часто нестандартный, меняющийся у разных авторов. Но поскольку гаплотипы в попгенетике используются редко, то им такой разнобой не мешает.

Порядок маркеров в 12-, 25-, 37-, 67- и 111-маркерных гаплотипах следующий (в верхней строке – порядковый номер маркера, в нижней – индекс маркера DYS):




Вопрос 47: Что такое дерево гаплотипов, и какую программу для их построений можно использовать?

ДЕРЕВО ГАПЛОТИПОВ, серия гаплотипов, рассортированная с помощью специальной компьютерной программы и представленная в виде круговой, спиральной или линейной диаграммы (см. ниже). Эта диаграмма группирует гаплотипы по динамике их мутаций во всех маркерах, и таким образом представляет дерево в виде совокупности ветвей гаплотипов, соответствующих их наиболее вероятным ДНК-генеалогическим линиям. Например, среди гаплотипов гаплогруппы R1a встречаются гаплотипы с «типовой» мутацией, в которой маркер DYS388=12 заменён на DYS388=10. Это отдельная (и древняя) ДНК-генеалогическая линия, потому что и многие остальные мутации более присущи этой линии «10», по сравнению с мутациями для линии «12». Действительно, на дереве гаплотипов линия «10» выделяется в отдельную ветвь, которую следует анализировать отдельно. В настоящей книге деревья гаплотипов строились с помощью программы PHYLIP[53].

В качестве примера приведем дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент) (рис. 8.).


Вопрос 48: Что такое гаплогруппа в ДНК-генеалогии?

ГАПЛОГРУППА, совокупность гаплотипов, объединённая «групповой» необратимой мутацией, присущей определённому человеческому роду, то есть потомкам одного «патриарха», как правило, тысячелетия назад. Эквивалентна понятию «род» в ДНК-генеалогии. Эти мутации («снипы») выбирают по определённым критериям. Гаплогруппой также называют сам род в таких выражениях, как «гаплогруппа мигрировала шесть тысяч лет назад на восток», понимая, естественно, что мигрировали носители данной гаплогруппы. В настоящее время классификация включает 20 основных гаплогрупп (плюс A0 и A00), от А до Т в алфавитном порядке, и тысячи «нисходящих» гаплогрупп и субкладов. Индекс гаплогруппы с надстрочным * (например, I*) показывает, что «нисходящих» мутаций у их носителей в классификации пока не обнаружено. Все тестированные носители – прямые потомки данной гаплогруппы или субклада.




Рис. 8. Дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент)


Вопрос 49: Что такое «бинарная гаплогруппа»?

БИНАРНАЯ ГАПЛОГРУППА, устаревшее название гаплогруппы, приводится здесь, потому, что всё ещё иногда встречается в публикациях. То же, что и «биаллельная гаплогруппа», потому что у мутации, её определяющей (снип, SNP, см. ниже) есть всего два состояния – либо мутация есть, либо её нет. То есть в соответствующем участке ДНК есть две аллели – исходная и мутированная. В отличие от них, тандемные мутации, или тандемные повторы (см. выше) являются, как правило, множественными и имеются в популяции в виде различных аллелей, то есть «полиаллельными».


Вопрос 50: Что такое субклад в ДНК-генеалогии?

СУБКЛАД, подчинённая, «нижестоящая» гаплогруппа, ДНК-генеалогическая ветвь в пределах той же гаплогруппы, все члены которой имеют не только мутацию основной гаплогруппы, но и дополнительную мутацию, общую только для данной ветви/ субклада. Например, гаплогруппа R имеет «подчинённые», или «дочерние» гаплогруппы R1 и R2; R1, в свою очередь, имеет R1a и R1b и так далее. R1a в настоящее время имеет 66 субкладов, утвержденных Международным обществом генетической генеалогии, R1b в настоящее время имеет 443 «официальных» субкладов.


Вопрос 51: Что такое мутация в ДНК-генеалогии?

МУТАЦИЯ, в ДНК-генеалогии биологическая ошибка при копировании последовательности Y-хромосомной ДНК, в результате которой (ошибки) или меняется число аллелей в определённом локусе (STR мутации, от Short Tandem Repeats), или происходит модификация гаплогруппы (SNP мутации, от Single Nucleotide Polymorphism). В отличие от мутации в генах, вызванной, например, радиоактивным излученияем, и при которой нуклеотид «ломается», то есть мутация там деструктивная, мутация в гаплотипах происходит обычно путем ошибочного копирования достаточно длинных фрагментов ДНК, при котором (копировании) происходит или удлинение, или укорачивание копируемого фрагмента ДНК. Это – не деструкция, а модификация. Но поскольку происходит отклонение от исходной «матрицы», то есть происходит ошибка копирования, то это тоже называют мутацией.


Вопрос 52: Что такое тандемная мутация в ДНК-генеалогии?

ТАНДЕМНАЯ МУТАЦИЯ в гаплотипе – это изменение числа аллелей в маркере. Происходит в среднем в маркере примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 11100 поколений (DYS426, раз примерно в 280 тысяч лет) до одного раза в 140 поколений (CDYb, раз примерно в 3500 лет). Среди 67 маркеров есть такие, в которых мутация происходит раз в 125 тысяч поколений, то есть раз в 3.1 миллионов лет. По скоростям мутаций это сопоставимо со снипами. В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько наиболее отдаленных предков популяции. Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.

Например, DYS426 – очень «медленный» маркер, всё человечество имеет всего четыре варианта аллелей – 10, 11, 12 и 13. Действительно, этот маркер имеет малую скорость мутации, она по оценкам равна 0.00009 мутаций на маркер на условное поколение. Это значит, что через пять тысяч лет среди тысячи наших современников всего у пятнадцати произойдет мутация в этом маркере – за 5 тысяч лет! Это несложно проверить, используя логарифмическую формулу, описанную выше: [ln(1000/985)]/0.00009 = 168 → 202 условных поколения, то есть 5050 лет.

Напротив, наиболее часты мутации в маркерах DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 разных аллелей, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.


Вопрос 53: Поясните понятие «среднее число мутаций на маркер»

Это – важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».

Поскольку число маркерах в гаплотипах достигает – для обычно используемых гаплотипов в ДНК-генеалогии – 111, то в каждом маркере за определенное число лет от общего предка накапливается определенное среднее количество мутаций. Например, в серии из 968 гаплотипов гаплогруппы I1 за 3690±370 лет, прошедшие от общего предка современных носителей гаплогруппы, в маркере DYS19 накопилось 263 мутации. При известной константе скорости мутации для маркера DYS19, полученной независимым путем и усредненной по всем выборкам и по всем гаплогруппам, и равной 0.00179 мутаций на маркер за условное поколение, получаем, что общий предок жил примерно 263/968/0.00179 = 152 условных поколений назад, или примерно 152x25 = 3800 лет назад. Как видим, это в пределах погрешности измерений, поскольку величина 3690±370 лет, показанная выше, была рассчитана по всем 968 гаплотипам в 111-маркерном формате. Мы постоянно пишем «примерно», потому все такие расчеты носят статистический характер. Даже 263 мутации, полученные прямым путем, все равно «примерные», и по законам статистики имеют погрешность ±6.2 %, что дает 263±16 мутаций, и это при щадящей достоверности в одну «сигма», то есть с надежностью 68 %. При надежности в 95 % это было бы 263±32 мутации. Далее, при расчетах по всем гаплотипам поправка на возвратные мутации вводилась, а при расчетах по одному маркеру она для простоты не вводилась. Наконец, величина константы скорости мутации (0.00179 мутаций на маркер за условное поколение) тоже определена с определенной погрешностью. Все это заставляет для корректности писать «примерно».

Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.

Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54], опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55] рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.


Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:




Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.

Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».

Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.

Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.


Вопрос 55: Что такое «снип» в ДНК-генеалогии?

СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой, несвойственный для данной последовательности ДНК. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, Z280 (это – «входная» мутация для ДНК большинства этнических русских гаплогруппы R1a), M343 («входная» мутация в гаплогруппу R1b), L21, что эквивалентно снипу S145 (мутация, определяющая один из наиболее распространных субкладов в центральной и западной Европе), и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован. Наиболее используемые индексы следующие:

М, лаборатория под руководством Peter Underhill, Stanford University (США);

Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);

S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);

L, исследовательский центр под названием Family Tree DNA's Genomics Research Center (США).

U, университет центральной Флориды (Lynn M. Sims и Jack Ballantyne) и университет Gonzaga (Dennis Garvey);

V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);

CTS, лаборатория Chris Tyler-Smith, The Wellcome Trust Sanger Institute, Hinxton (Англия)

Page, David C. Page, Whitehead Institute for Biomedical Research

Z и DF, международная группа независимых исследователей, работающих с геномными базами данных

А, Thomas Krahn, YSEQ.net, Houston, Texas (США)

FGC, Full Genomes Corp. of Virginia and Maryland (США)

Y и YP, группа независимых исследователей Y Full Team, работающих с геномными данными

BY, группа Big Y, компания Family Tree DNA, Houston, Texas (США)

F, лаборатория Li Jin, Fudan University, Shanghai (Китай)

KMS, группа российских и международных исследователей

N, лаборатория биоинформатики, Institute of Biophysics, Chinese Academy of Sciences, Beijing (Китай)

PK, Biomedical and Genetic Engineering Laboratories, Islamabad (Пакистан).


Вопрос 56: Как измеряют скорости мутаций в ДНК-генеалогии?

СКОРОСТЬ МУТАЦИИ, средняя частота изменения числа повторов в маркере, обычно измеряется в числе мутаций на условное поколение в 25 лет. Средняя скорость мутаций составляет 0.00167 и 0.00183 на маркер на условное поколение для первых 12-ти и 25-ти маркеров в стандартном формате гаплотипов (см. выше), соответственно. Для первых 37-и маркеров средняя скорость мутаций составляет 0.00243 на маркер на поколение, для первых 67, 111 и 409 маркеров (см. ниже) – 0.00178-0.00179 мутаций на маркер на поколение. В неопределённых ситуациях для полуколичественной оценки часто принимается в виде «канонической» величины 0.002 мутаций на маркер на условное поколение.

В реальных условиях скорости мутаций иногда измеряют по мутациям в гаплотипах в одном поколении на большом числе пар отец-сын. Однако полученные данные не могут быть использованы для практических расчетов, так как даже при столь большом количестве, как 1700 пар отец-сын почти в половине изученных маркеров мутаций или не наблюдалось (и таких маркеров было большинство), или наблюдались всего одна-две мутации, что явно не дает приемлемой статистики.

Еще пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8 %) и одна – двухшаговая (1,2 % от всех). Поскольку все 1752 гаплотипа содержали 1752 х 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84/29784 = 0.00282 мутации на маркер на поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз». Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4±11.6 лет (округленно 34±12) и 30.3±10.2 лет (округлённо 30±10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.

Эти оценки в целом приемлемы для расчетов, но только полуколичественно. Дело в том, что 84 мутации для 1752 пар гаплотипов – это неважная статистика. Мало того, что 84 мутации – это на самом деле 84±9 мутаций с 68 %-ной доверительностью, и 84±18 мутаций с 95 %-ной доверительностью, но это только для 17-маркерных гаплотипов, то есть для более протяженных (да и для более коротких) гаплотипов эти константы неприменимы. Далее, при 84 мутациях на 1752 пар гаплотипах и при 17 маркерах даже при относительно высоких скоростях мутаций в отдельных маркерах на них приходилось всего несколько мутаций. Например, в маркере DYS458, в котором наблюдалось максимальное количество мутаций, их было всего 13, что дало константу скорости мутации 13/1752 = 0.0074 мутаций на маркер на поколение. В другой серии экспериментов по парам отец-сын получили величину константу скорости мутации 0.0084 мутаций на тот же маркер на поколение. В наших исследованиях по 11 тысячам гаплотипов мы получили величину 0.0062 мутаций на маркер на поколение[56]. Но с такими экспериментами, как в цитируемой статье, дело на самом деле хуже – например, сообщенную в статье величину константы скорости мутации 0.0003 для DYS448 получить вообще нельзя, так как даже при одной мутации на все 1752 пары отец-сын получится 1/1752 = 0.0006, то есть скорость вдвое выше. На самом деле ошибка получилась из-за статистически малого числа мутаций. По нашим данным, в маркере DYS448 константа скорости мутаций равна 0.0014 мутаций на маркер за поколение, то есть для 1752 пар отец-сын авторы эксперимента должны были получить 2.45 мутации, то есть 2.45/1752 = 0.0014. Но 2.45 мутаций получить невозможно, можно две или три, но авторы и этого не получили, что неудивительно. Если бросить монету два или три раза, никакой статистики не получится.


Вопрос 57: Какова средняя скорость мутаций не на маркер, а на гаплотип?

СРЕДНЯЯ СКОРОСТЬ МУТАЦИИ НА ГАПЛОТИП, для первых 6-ти маркеров в «научном формате», DYS19, 388, 390, 391, 393, 393 – 0.0074 мутаций на гаплотип на поколение, для первых 12-ти маркеров (первая панель маркеров в формате

FTDNA) – 0.020 мутации на гаплотип на поколение, для первых 25-ти маркеров – 0.046 мутаций на гаплотип на поколение, для первых 37-ти маркеров – 0.09 мутаций на гаплотип на поколение, для 67-ми маркеров – 0.12 мутаций на гаплотип на поколение, для 111 маркеров – 0.198 мутаций на гаплотип на поколение. Отсюда сразу можно заключить, что если два 67-маркерных гаплотипа отличаются, например, на 6 мутаций, то они разошлись от общего предка, который жил 6/2/0.12 = 25 поколений назад, или 625 лет назад. Однако для таких расчётов надо знать, что оба гаплотипа относятся к одной гаплогруппе и одному субкладу, и понимать, что для двух гаплотипов и столь немногих мутаций подобные расчёты могут быть только оценочными. Например, в данном конкретном случае оценка равна 625±260 лет с 68 %-ной надёжностью.


Вопрос 58: Что такое «бутылочное горлышко популяции» и какова его значимость в ДНК-генеалогии?

«БУТЫЛОЧНОЕ ГОРЛЫШКО» ПОПУЛЯЦИИ – это резкое или медленное сокращение популяции до критической численности, после чего популяция либо выживает (проходя «бутылочное горлышко»), либо терминируется. Причинами «бутылочного горлышка» могут быть события, катастрофические в отношении популяции (природные катаклизмы, эпидемии, войны), либо медленное вымирание популяции. Обычно выжившая популяция «обнуляет» набор своих мутаций в гаплотипах до гаплотипа выжившего члена популяции, давшего выжившее мужское потомство, и он становится «общим предком» для потомков. Исследования показывают, что многие популяции в прошлом имели пульсирующий характер и многие популяции терминировались, не проходили «бутылочное горлышко». Многие древние популяции остались во «фрагментах», в серии относительно недавних популяций, «кластеров», которые очень значительно отличаются друг от друга по гаплотипам, оставаясь внутри одной и той же гаплогруппы. Примеры – гаплотипы американских индейцев, африканские гаплотипы, гаплотипы Русской равнины, ряд европейских гаплотипов.

Для описания этих явлений в популяционной генетике используют понятие «генетический дрейф». Это понятие для ДНК-генеалогии непригодно, поскольку термин «генетический» здесь некорректен, в ДНК-генеалогии с генами не работают. Принятое в попгенетики понятие «эффект основателя» также не привилось в ДНК-генеалогии, и понятно, почему – оно не несет никакой информации, и является просто калькой с соответствующего англоязычного термина. «Бутылочное горлышко», впрочем, тоже калька, но оно понятно в смысловом отношении. Именно из-за соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100 % преобладает аллель DYS426=11, а у гаплогрупп R на 99 % преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) эффект привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30 % наиболее частой аллели (ср. с 99 % или 100 % в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).


Вопрос 59: Что такое база данных IRAKAZ?

Ответ на этот вопрос приведен на сайте Академии ДНК-генеалогии http://dna-academy.ru/irakaz/, и мы здесь его в значительной степени воспроизводим. Эта база представляет собой список практически всех доступных из открытых источников гаплотипов R1a в 67- и 111-маркерном формате по состоянию на дату выхода версии. Она оформлена в виде электронной таблицы в программе MS Excel, содержит информацию о стране происхождения и, если известно, этнической принадлежности самого раннего из документированных предков участника, отнесение к той или иной ветви гаплогруппы и список подтвержденных снипов (SNP). Персональная информация опущена, поскольку технически невозможно получить согласие на ее публикацию от каждого из участников. Однако для тех, кто предоставил в открытых проектах данные о своих предках и указал места их рождения, такую информацию можно найти на картах по линку выше.

База данных IRAKAZ ориентирована на использования гаплотипов в исследовательских целях, поэтому порядок записи гаплотипов следует определенной классификации. В базе данных предусмотрена также возможность поиска самых близких гаплотипов в 25-, 37-, 67- и 111-маркерном формате, как это описано на указанном сайте. Название IRAKAZ обозначает инициалы составителей базы: Igor Rozhanskii, Anatole Klyosov, Aleksander Zolotarev. Там же приведен список карт гаплогруппы R1a, составляющий часть базы данных IRAKAZ.

Глава 4

Расчетные методы ДНК-генеалогии. Константы скоростей мутаций в маркерах и в гаплотипах

Это – центральный вопрос ДНК-генеалогии, и мы уделим этому особое внимание. Вопросов в этом отношении задается много, что вызвано тремя основными причинами: (1) относительная сложность вопроса, (2) неупорядоченный, статистический характер мутаций, при котором число мутаций при относительно малом числе маркеров и за относительно малый промежуток времени является нестабильным, и для неопытного человека представляется принципиально невоспроизводимым, и (3) крайняя запутанность популяционными генетиками этой темы на протяжении последних 20 лет.


Вопрос 60: С какими скоростями происходят мутации в гаплотипах?

Выше (в ответе на Вопрос 14) было показано, что в маркере DYS393 значение аллели 13 сохраняется во всех трех рассмотренных гаплотипах (русского и двух киргизов), отделенных друг от друга тысячелетиями, а в маркере DYS390 за то же время мутация произошла дважды, и все три аллели оказались разными – 24, 25 и 26. Три гаплотипа в данном случае не очень показательны, статистика не та, но в целом так и должно быть, потому что константа скорости мутации в маркере DYS393 равна 0.00059 мутаций на условное поколение (25 лет), а в маркере DYS390 – почти в четыре раза выше, 0.0022 мутаций на условное поколение.

Что эти числа реально означают?

Они означают, что в маркере DYS393 мутация происходит в среднем раз в 1/0.00059 = примерно 1700 условных поколений, то есть раз в 42 500 лет. В трех независимых маркерах DYS393 мутация в среднем проходит примерно раз в 14 тысяч лет. А общий предок всех трех гаплотипов в примере выше жил примерно 5 тысяч лет назад, поэтому мутация и не успела произойти, все три аллели равнялись 13, то есть показывали 13 тандемных повторов. В маркере DYS390 мутация происходит в среднем раз в 1/0.0022 = 455 условных поколений, то есть примерно раз в 11 тысяч лет, то есть для трех независимых маркеров мутация в среднем произойдет раз в 3800 лет (округлено). Вот она и произошла, и даже дважды за 5 тысяч лет. Естественно, здесь это только полуколичественные расчеты, потому что три маркера – это не статистика, но здесь показан принцип расчета. Если бы у нас было в наличии тысяча гаплотипов, расчеты были бы намного точнее. В таком случае в тысяче маркеров DYS393 за пять тысяч лет (200 условных поколений) было бы 1000х0.00059х200 = 118 мутаций, а в маркере DYS390 было бы 1000х0.0022х200 = 440 мутаций. С такой статистикой уже можно работать.

Давайте посмотрим, что наблюдается в более протяженных сериях гаплотипов. Взглянем на серию из 3466 гаплотипов гаплогруппы R1b-L21. Число аллелей в маркере DYS393:

11 – 2 (то есть аллель 11 встречается в 3466 гаплотипах всего два раза)

12 – 81

13 – 3237

14 – 145

15 – 1


Считая, что все мутации одношаговые, получаем 232 мутации на 3466 аллелей – от базового значения аллели, равного 13, то есть в среднем 0.067 мутаций на маркер DYS393. Как проводятся поправки на возвратные мутации в таких системах мы рассмотрим в следующем разделе. Такие поправки нужны, потому что часть мутированных маркеров не только продолжают мутировать, уходя все дальше от предковой аллели (например, 13 → 14 → 15, или 13 → 12 → 11), но по тем же законам статистики возвращаются в исходное положение (13 → 14 → 13, 13 → 12 → 13), и потому мы часть мутаций недосчитываем.

Для другого примера возьмем не «медленный» маркер, как DYS393, а «быстрый», например, DYS390, из той же серии в 3466 гаплотипов субклада R1b-L21. Число аллелей в маркере DYS390:


21 – 3

22 – 22

23 – 228

24 – 2364

25 – 815

26 – 33

27 – 1


Видно, что мутации уже более «размазанные» по аллелям. Считая, что все мутации одношаговые, получаем 1165 мутаций на 3466 аллелей, то есть в среднем 0.336 мутаций на маркер DYS390. Мы видим, что среднее число мутаций в маркере DYS390 для той же серии гаплотипов уже в пять раз выше. Если бы не сложности статистического характера, упомянутые выше, можно было бы полагать, что эта разница отражает количественную разницу в соответствующих константах скорости мутации для маркеров DYS393 и DYS390, но это не совсем так. Константы равны 0.00059 и 0.0022 мутаций на маркер на условное поколение, то есть различаются только в 3.7 раз. Под «сложностями статистического характера» здесь понимаются и введение поправок на возвратные мутации, и несимметричность распределения числа мутаций «вверх» и «вниз» (см. приведенные выше примеры), и наличие нижестоящих субкладов, гаплотипы которых могут (системно) по мутациям отличаться от гаплотипов вышестоящих субкладов, и многие факторы, которые надо учитывать при корректном анализе в ДНК-генеалогии. Примеры даны ниже.


Вопрос 61: Что такое поправки на возвратные мутации, и как они рассчитываются?

Как было пояснено выше, вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели (13 или 24 для случаев маркеров DYS393 и DYS390, рассмотренных выше), и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[57], и в простейшем виде симметричной картины мутаций формула следующая:




где:

λobs = наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов,


λ = среднее число мутаций на маркер, с учетом поправки на возвратные мутации.

В примере с DYS393, рассмотренном выше, поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.067, поправочный коэффициент равен 1.0345, и полная запись расчета следующая:




(1+1.069)/2 = 1.0345


Итак, мы наблюдаем 0.067 мутаций на маркер, а на самом деле их 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.

В примере c маркером DYS390, также рассмотренном выше, поправка будет значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997, и полная запись




Итак, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.


Вопрос 62: Насколько точны (или неточны) расчеты в ДНК-генеалогии? – продолжение Вопроса 32.

В сети довольно часто встречаются сомнения в отношении расчетов в ДНК-генеалогии, например, в таком виде (вопрос взят с международного форума DNA Rootsweb, перевод с английского):

✓ Есть фундаментальная проблема с «научными» расчетами времен жизни общего предка, где расчеты, основаны на частотах встречаемости мутаций разных маркеров. Эти частоты – просто оценки, основанные на встречаемости мутаций в современных гаплотипах. Но когда я смотрю на гаплотипы людей, общий предок которых известен и жил 400–500 лет назад, и я не вижу в их гаплотипах никаких мутаций, то у меня возникают резонные сомнения о надежности расчетов, основанных на мутациях.

Ну что здесь сказать? Когда человек не имеет понятия о том, о чем говорит, и «выходит на публику с сомнениями», когда рассуждают «по понятиям», где надо «по науке», то там может помочь только методичное просвещение. Например, следующее.

Если этот «критик» говорит о 6-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.0074 = 135 условных поколений, то есть раз в 135х25 = 3375 лет. Если речь о 12-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.02 = 50 условных поколений, то есть раз в 50х25 = 1250 лет. Если – о 37-маркерных гаплотипах, то там одна мутация образуется в среднем раз в 1/0.09 = 11 условных поколений, то есть раз в 11х25 = 275 лет. Но в среднем – это не обязательно точно раз в 275 лет, как часы. Это может быть мутация через 100 лет, и через 600 лет, и как угодно, но при большом числе гаплотипов это получается в среднем раз в 275 лет. Поэтому критик не понимает того, что просто «гаплотипов» в таких случаях писать нельзя, надо обязательно указывать, какой протяженности гаплотипы. Как мы видим, и в случае 37-маркерных гаплотипов вполне возможно, что за 400–500 лет в них не происходит мутации. Но если речь о 111-маркерных гаплотипах, в которых мутация происходит в среднем раз в 125 лет, то за промежуток времени 400–500 лет мутации должны наблюдаться. Хотя и при бросании монеты бывает, что орел или решка выпадают подряд 4–5, и даже 6 раз. Хотя в среднем выпадают каждый второй раз.

Поэтому принцип должен быть такой, что при рассмотрении и обсуждении мутаций надо всегда исходить из вероятностного характера процесса.

Вообще при обсуждении вопроса в понятиях «точны» или «неточны», надо сначала определиться, «точны» для чего, для какой задачи, которая должна ставиться. Если задача ставится вычислить время рождения или смерти общего предка с точностью до года, то никакие статистические методы для этого в принципе не подходят, включая ДНК-генеалогию. Не подходят и задачи, в которых требуются проводить расчеты с точностью до десятилетий. ДНК-генеалогия решает задачи в первую очередь концептуальные, на уровне открытий, пересмотров старых концепций, и создания концепций новых. Никто же не требует в астрофизике расчета времени «большого взрыва» Вселенной с точностью до сотен лет, и тем более до года, там оценки идут на сотни миллионов и миллиарды лет, и не в сотне лет точности была важность новой концепции.

Например, когда 20 лет назад популяционными генетиками было сообщено, что носители гаплогруппы R1b жили в Европе 30 тысяч лет назад, во времена неандертальцев, то расчетов вообще никаких не делалось, это было предложено «по понятиям», подхвачено, и устоялось в науке. Потребовалось больших трудов убедить научную общественность, что R1b появились в Европе всего лишь около 5000 лет назад, как показали расчеты ДНК-генеалогии[58], и это имело концептуальную значимость. В той ситуации было неважно, это 5000±3000 лет назад, 5000±1000 лет назад, или 4800±400 лет назад (последняя величина была показана в расчетах). Таких примеров можно привести много, и каждый раз это был фактический прорыв в науке, прорыв разного масштаба.

Обычно расчеты общих предков выборок в ДНК-генеалогии проводятся с точностью 10–15 %, и причина этого довольно проста – мы постулируем, что величина константы скорости мутации определяется с точностью ±10 %, и тогда точность расчетов по определению не может быть лучше, чем ±10 %. На самом деле сотни и тысячи расчетов показали, что точность определения констант скоростей мутаций составляет примерно 2.5–3.0 %, но для расчетов мы оставляем те же 10 %. Лучше пусть доверительный интервал расчетов будет больше, чем претендовать, что наши расчеты точны, и время от времени подвергаться обвинениям, что другие данные показывают несколько отличающуюся величину. Не все знают, что расчеты погрешностей дело весьма условное, и зависит от закладываемых параметров доверительности. Если мы хотим результаты с доверительностью 95 %, или 99 %, то погрешности при тех же исходных величинах будут уже другими. В ДНК-генеалогии неразумно считать с требуемой доверительностью 95 % или 99 %, потому что тогда мы выходим уже не на концептуальность, а на точность, которой в обычно используемых сериях гаплотипах нет и быть не может. Даже если выборки будут состоять из десятков и сотен тысяч протяженных гаплотипов, в них непременно окажутся «примесные» гаплотипы, из других субкладов, из несимметричных ДНК-линий, да и просто ошибки типирования, которые неизбежны в больших сериях.

Поэтому реальность показывает, что погрешности расчетов ±10 %-15 % это то, из чего надо исходить и соответственно формулировать требования и задачи исследования.

В качестве примеров осложняющих факторов рассмотрим приведенные выше распределения мутаций в маркерах DYS393 и DYS390 в серии из 3466 гаплотипов субклада R1b-L21. Как мы видели, в обоих случаях мутации дают несимметричную картину. В DYS393 – в одну сторону, на понижение аллелей, произошло 85 одношаговых мутаций, в другую, на повышение, произошло 147 мутаций. На самом деле это не мутации несимметричные, а несимметричное распределение потомков по мутациям. Например, среди тех 3466 человек рассматриваемой серии оказалось больше потомков с DYS393 = 14, чем с DYS393 = 12. Причин к такому несимметричному распределению мутаций много. Например, среди всей серии из 3466 гаплотипов могло оказаться непропорционально много потомков того, у кого много веков назад произошла мутация DYS393 = 13 → 14. Далее, в число этих 3466 человек могли попасть обладатели подчиненных (или вообще других) субкладов, с преобладанием базовой аллели, DYS393 = 14. Если в данную серию попали носители других субкладов с другой базовой аллелью, то такая несимметричность несколько искажает результаты расчетов, как мы покажем ниже на нескольких характерных примерах, и потому результаты расчетов времени до общего предка всегда должны даваться с определенной погрешностью, которая перекрывает искажения. Если это «свои» потомки, то результаты расчетов обычно не искажаются. Этот вопрос пока недостаточно проработан в ДНК-генеалогии с теоретической точки зрения.

В маркере DYS390 в той же серии гаплотипов субклада R1b-L21 мутации тоже дают несимметричную картину. В одну сторону, на понижение аллели на одну единицу, произошло 228 мутаций, в другую, на повышение, произошло 815 мутаций, и в целом на понижение аллелей произошло 281 одношаговый мутаций и на повышение – 884 одношаговых мутаций. Причины несимметричности могут быть те же, что описаны выше. Надо отметить, что в этих двух примерах случайно получилось, что на повышение прошло больше мутаций, чем на понижение, но есть множество обратных примеров, например для того же маркера DYS393 в серии из 269 гаплотипов гаплогруппы N1c1 на понижение произошло больше мутаций (но по сути мутации были почти симметричными). Число аллелей в маркере DYS393:


13 – 12 (то есть аллель 13 встречается в 269 гаплотипах 12 раз)

14 – 248

15 – 8

16 – 1


Всего среди 269 маркеров DYS393 в данной серии суммарно произошло 22 одношаговых мутаций (12 «вниз» и 10 «вверх»), и зная, что константа скорости мутации в маркере DYS393 равна 0.00059 (это было определено по множеству серий гаплотипов разных гаплогрупп), мы можем примерно расчитать, когда жил общий предок рассмотренной серии гаплотипов группы N101 (строго говоря, серии маркеров DYS393):

22/269 = 139 условных поколений назад, то есть примерно 139х25 = 3475±740 лет назад (при стандартном расчете погрешности). Действительно, расчеты по гаплотипам разной протяженности дали время жизни общего предка данной выборки из 269 гаплотипов 3233±326 лет назад (111-маркерные гаплотипы), 3287±333 лет назад (67-маркерные гаплотипы), 346±353 лет назад (37-маркерные гаплотипы), 4127±424 лет назад (25-маркерные гаплотипы). Здесь мы расчеты умышленно не округляем, чтобы не вносить произвол при сопоставлении серии результатов. Мы видим, что расчеты даже по одному маркеру дали вполне приемлемую величину времени до общего предка данной серии гаплотипов. Возможно, это потому, что серия мутаций в данном маркере вполне симметричная.

Если мы посмотрим на DYS390 c его средней величиной числа мутаций на маркер в серии из 3466 гаплотипов субклада R1b-L21, равной 0.4031 (после введения поправки на возвратные мутации), то получим 0.4031/0.0022 = 183 условных поколений, или примерно 4580 лет со времени жизни общего предка субклада R1b-L21. Заметим, что по данным компании YFull (http://www.yfull.com/tree/R1b/) субклад L21 образовался 4500±300 лет назад. Правда, расчет по всем 111 маркерам для 3466 гаплотипов субклада L21 показал, что общий предок современных носителей этого субклада жил 3810±381 лет назад. Это приходится на границу диапазона погрешности расчетов, но в принципе результаты расчетов в их совокупности и в совокупности с данными других независимых расчетов показывают, что общий предок современных носителей субклада R1b-L21 жил действительно на несколько сотен лет позже времени образования самого субклада; потомство от более ранних предков не выжило.

Пример того, что во многих случаях несимметричность в распределении мутаций в маркерах выражается в том, что на повышение проходит меньше мутаций, чем на понижение (то есть обратно тому, что наблюдается в маркере DYS390 в серии гаплотипов субклада R1b-L21), является серия из 4769 гаплотипов гаплогруппы R1a. Там число аллелей в маркере DYS390 выглядит следующим образом:


22 – 5

23 – 66

24 – 755

25 – 3544

26 – 383

27 – 16


Считая, что все мутации одношаговые, находим, что в 4769 маркерах DYS390 прошло 1317 мутаций, получаем, что среднее число мутаций на маркер равно 0.276. Это число не является корректным, потому что мы знаем, что среди тех 4769 гаплотипов было множество, относящихся к разным субкладам, каждый из которых имеет разную историю и своих общих предков. Поэтому любые расчеты с этими числами будут являться «поверхностными», очень приблизительными. Задача ДНК-генеалогии – проводить «рассечения» серий гаплотипов на ветви, семейства, группы, и при соответствующей поставленной задаче проводить их отдельные и независимые рассмотрения.

Подобные расчеты по всем 111 маркерам (или тому числу маркеров, которое было выбрано для рассматриваемых гаплотипов) после усреднения дает «возраст» общего предка рассматриваемой выборки гаплотипов, при условии, что общий предок был один, согласно соответствующим критериям ДНК-генеалогии.

Не нужно думать, что все 111 маркеров дадут одну и ту же величину «возраста» до общего предка, например, как 4580 лет в случае маркера DYS390 в серии гаплотипов субклада R1b-L21. Как раз в данном конкретном случае датировка маркера оказалась несколько завышенной из-за несимметричности распределения мутаций. Но по одному маркеру никогда возраст до общего предка не считают. В данном случае для 3466 гаплотипов в 111 маркерном формате для статистических расчетов суммарно имеются 384728 аллелей, причем расчет с применением калькулятора Килина-Клёсова (см. ниже) ведется и по каждому из маркеров, «по вертикали», и по всем мутациям по всем гаплотипам, «по горизонтали», как по «квадратичному» методу, в котором поправки на возвратные мутации уже учтены, так и «линейным методом», с введением поправок на возвратные мутации, а также и по разным длинам гаплотипов. В итоге калькулятор выдает результат по каждому варианту расчета, так что можно сравнивать и смотреть, нет ли систематических отклонений. В данном случае, по 3466 гаплотипам, получилось (лет до общего предка субклада R1b-L21):


3810±381 по 111-маркерным гаплотипам, линейный метод

4197±274 по 111-маркерным гаплотипам, квадратичный метод

3841±384 по 67-маркерным гаплотипам, линейный метод

3576±358 по 37-маркерным гаплотипам, линейный метод

3571±358 по 25-маркерным гаплотипам, линейный метод

3679±369 по 17-маркерным гаплотипам, линейный метод

3499±352 по 12-маркерным гаплотипам, линейный метод

4161±421 по 6-маркерным гаплотипам, линейный метод


Как видим, расчеты дали вполне удовлетворительное совпадение в пределах погрешности измерений, даже для коротких 12- и 6-маркерных гаплотипов.

Человек сторонний, не очень знакомый со статистикой, скажет – как же так, расчеты по одному маркеру, DYS390, дали примерно 4580 лет со времени жизни общего предка субклада R1b-L21, а расчеты по всем 111-маркерным гаплотипам, с общим числом аллелей 384728, дали 3810±381 или 4197±274 лет, по линейному и квадратичному методам, то есть заметно ниже. Но в этом статистика и заключается, что мутации неупорядоченные, по отдельности различаются, но все они группируются вокруг некого «центра», «ядра», и при усреднении математический аппарат дает среднюю величину и величину погрешности расчетов, или среднее квадратичное отклонение при определенных доверительных интервалах. В данном случае DYS390 – это всего один маркер, а их сто одиннадцать. Но даже в 6-маркерных гаплотипах, куда DYS390 входит, усреднение по всем шести дает датировку 4161±421 лет, то есть датировка по одному DYS390 входит в диапазон погрешностей. А датировка по 6-маркерному гаплотипу входит в диапазон погрешностей для серии 111-маркерных гаплотипов.


Вопрос 63: Как проводились расчеты констант индивидуальных скоростей мутаций для всех 111 маркеров?

Это – результат большой работы, которая проводилась с 24 сериями 111-маркерных гаплотипов практически всех гаплогрупп, для которых в базах данных эти гаплотипы были числом хотя бы в несколько десятков. Для большинства гаплогрупп расчетные серии содержали сотни гаплотипов – помимо упомянутых ранее 3466 гаплотипов субклада R1b-L21, были 859 и 976 111-маркерных гаплотипов гаплогруппы R1a (разные серии), 829 гаплотипов гаплогруппы R1b-Uio6, 968 гаплотипов гаплогруппы I1, 661 гаплотипов гаплогруппы J, 1417 гаплотипов гаплогруппы J2, и так далее, общим числом П850 гаплотипов в 111-маркерном формате. При этом проверялась сходимость расчетов гаплотипов разных форматов и расчетов разными методами. Результаты этой работы опубликованы в Вестнике Академии ДНК-генеалогии в 2015 году[59].

Расчеты констант скоростей мутаций в маркерах производятся на основании их распределений в больших сериях гаплотипов. Чем меньше константа скорости мутации данного маркера, тем, естественно, меньше мутаций за определенное время, в качестве которого обычно рассматривается время, прошедшее от общего предка. Если взять, например, серию из 3466 гаплотипов субклада R1b-L21, к которой мы здесь неоднократно обращались именно потому, что она одна из наиболее репрезентативных по численности гаплотипов, то маркере DYS472 там всего пять мутаций:

7 – 1 (то есть аллель 7 встречается в 3466 маркерах DYS472 всего один раз)

8 – 3461 раз

9 – 4 раз


В маркере DYS393 в той же серии уже 232 мутации:

11 – 2

12 – 81

13 – 3237

14 – 145

15 – 1


В маркере DYS390 – 1165 мутаций:

21 – 3

22 – 22

23 – 228

24 – 2364

25 – 815

26 – 33

27 – 1


Поскольку время от общего предка во всех трех случаях одно и то же, то даже не зная его, уже можно заключить, что константы скорости мутаций должны отличаться друг от друга в пропорции 5: 232: 1165 (числа – количества мутаций от базового маркера для трех маркеров), или, пропорционально, 1: 46: 233 Это – тогда, когда нет осложняющих факторов, которые, впрочем, есть всегда. Среди этих факторов – примесь посторонних гаплотипов, почти неизбежная при массовых тестированиях, перекошенная серия гаплотипов, когда одних родственников (даже отдаленных) в серии больше, чем других, когда в серии присутствуют представители нижестоящих субкладов, причем одних субкладов больше, чем других, и так далее. Вывод такой, что одной серией гаплотипов при расчетах констант скоростей мутаций ограничиваться нельзя, надо проводить рассмотрение многих серий гаплотипов из разных гаплогрупп, выяснять по возможности причины различий, и усреднять полученные константы скоростей мутаций по разным сериям. В некоторых сериях отклонения буквально гипертрофированные – например, в той же серии R1b-L21 оказалось несколько сотен гаплотипов дочернего субклада R1b-M222, у которого характерная величина аллели DYS392=14 вместо обычной DYS392=13. Если этого не знать или не заметить, то число мутаций в медленном маркере DYS392 окажется завышенным на сотни мутаций, и формально рассчитанная «константа скорости» окажется несуразно высокой.

При сопоставлении расчетных констант по большой серии гаплогрупп такие искажения должны быть заметны, проанализированы, и если причина выяснена и действительно показано, что это искажения, то эти выпадающие величины должны быть приняты во внимание. Таким образом видно, что это кропотливая и большая работа. Дилетанты или прочие любители обычно выхватывают одну серию гаплотипов, делят одно на другое, без всяких перекрестных проверок и размышлений, и вуаля, ответ готов. Он часто такой – «расчеты по мутациям смысла не имеют». Пример такой дилетантской (в данном отношении) статьи Busby et al (2011)[60], сюда же относятся неквалифицированные рассуждения Dienekes Pontikos[61], и прочих. Они основывались именно на выхватывании отдельных величин, которые оказались искаженными, и отсюда делались «глобальные» негативные выводы. По аналогии, можно бросить монету три раза, и на основании полученного результата объявить теорию вероятности «псевдонаукой».

Проще с протяженными гаплотипами, в первую очередь 67- и 111-маркерными, в которых искажения в индивидуальных маркерах, которые (искажения) также имеют статистический характер, уравновешиваются, компенсируются на множестве маркеров, и в итоге дают взаимно согласованные данные. Примеры (показаны датировки протяженных серий 111-маркерных гаплотипов, первая колонка – 67-маркерные гаплотипы, вторая – 111-маркерные), датировки без округления:






Часто спрашивают, а сохраняются ли константы скоростей мутаций в других гаплогруппах и субкладах? Ответ – естественно, сохраняются, так как откуда, например, маркер DYS393 «знает», какая там снип-мутация имеется на другом конце Y-хромосомы, и которая определяет носителя Y-хромосомы в определенный субклад? Маркер есть маркер, это обычно три- или тетра-нуклеотид, повторяющийся определенное количество раз в Y-хромосоме. Раз в несколько тысяч лет он удлиняется или укорачивается на одно (обычно) звено, и что ему до удаленной снип-мутации? Но люди интересуются, обычно не задумываясь о таких деталях, им представляется, что гаплогруппа – это что-то большое и материальное, вляющее на скорости мутации во всей Y-хромосоме каким-то чудодейственным образом.

Еще пример – субклад R1b-M222, в котором 818 аллелей маркера DYS393 распределяются следующим образом:

12 – 5

13 – 791

14 – 22


Число мутаций (от базового значения маркера) равно 27, что дает 27/818/0.00059 = 56 → 57 условных поколений, или 1425±310 лет до общего предка. По данным расчета по снипам субклад R1b-M222 образовался 4300 лет назад (http://www.yfull. com/tree/R1b/), но популяция прошла бутылочное горлышко, и общий предок современных носителей R1b-M222 жил на три тысячи лет позже. Такое бывало довольно часто.

Еще один непростой пример – гаплогруппа J2. Пример непростой, потому что гаплогруппа древняя, и состоит из многих обрывков ДНК-генеалогических линий, которые усложняют расчеты. Посмотрим, насколько однородный там набор из 587 аллелей маркера DYS393, которые распределяются следующим образом:

9 – 1

10 – 0

11 – 5

12 – 510

13 – 65

14 – 5

15 – 1


Всего – 86 одношаговых мутаций. Мы видим опять несимметричное распределение аллелей, идущих «на понижение» и «на повышение». Но если это пока отложить на последующее рассмотрение, то 86 мутаций для 587 аллелей – это при равном «возрасте» общего предка соответствует 508 мутациям для 3466 аллелям (в субкладе R1b-L21), а там – только 232 мутации, то есть в 2.19 раз меньше. В идеальном случае (без осложняющих факторов) это соответствует датировке общего предка для выборки J2 примерно 3810x2.19 = 8300 лет. Определение датировки по 417 гаплотипам (другая выборка) гаплогруппы J2 дало 8993±903 и 9914±993 лет до общего предка (по 67- и 111-маркерным гаплотипам). Разница заметная (8 % и 19 %, соответственно), но район датировок тот же, тем более с учетом, что мы сравниваем датировку по одному маркеру с датировками по 67 и 111 маркерам.

Еще одна илюстрация, как примеси сторонних субкладов искажают датировки. В субкладе R1b-L21 3466 аллелей DYS392 распределяются следующим образом:

11 – 8

12 – 22

13 – 2715

14 – 675

15 – 30

16 – 16


Здесь перекос в распределении (по маркеру DYS392=14) вызван тем, что подавляющая часть аллелей «14» относится к нижестоящему субкладу R1b-M222, в котором данная аллель является предковой, и закрепилась в последующих поколениях. В итоге из 821 мутаций 675 относится к отдельному субкладу, со своим общим предком. Для правильного расчета надо инородные аллели снимать, например, путем построения дерева гаплотипов, в котором субклад М222 уйдет в отдельную ветвь, и соответствующие гаплотипы из счета надо также снимать. При этом снятыми окажутся 655 аллелей «14», 24 аллели «15» и все 16 аллелей «16», и распределение окажется вполне симметричным:

11 – 8

12 – 22

13 – 2715

14 – 19

15 – 5


Вопрос 64: Как связаны между собой индивидуальные константы скорости отдельных маркеров, и суммарная (кумулятивная) константа скорости мутации по всему гаплотипу?

Выше мы рассматривали константы скоростей мутаций в отдельных маркерах, как 0.00059 мутаций на условное поколение в маркере DYS393, или 0.00220 мутаций на условное поколение в маркере DYS390. И здесь вступает в силу важное правило химической кинетики: константы скоростей в параллельных реакциях (в данном случае – мутациях) суммируются, если регистрируется расходование исходного вещества или образование суммарного продукта реакции, и изучается скорость этого суммарного процесса. Простой пример – если из бассейна вода вытекает по нескольким трубам разной толщины, то можно изучать скорость вытекания воды по каждой трубе отдельно, но если интересует общая потеря воды, то суммируется потеря воды по всем трубам. Это практически полная аналогия с расходованием предкового гаплотипа и с накоплением гаплотипов потомков. Этот процесс можно изучать по каждому маркеру в отдельности, а можно – по всему гаплотипу, то есть по сумме маркеров.

Рассмотрим простой случай – 12-маркерный гаплотип, состоящий из маркеров DYS 393, 390, 19, 391, 385a, 385b, 426, 388, 439, 389-1, 392, 389-2. Пример – гаплотип гаплогруппы I2a, а именно ее ветви L147.2, к которой относятся почти все восточноевропейские носители этой гаплогруппы, общий предок которых жил примерно 2300 лет назад:


13 24 16 11 14 15 11 13 13 13 11 31


Константы скоростей индивидуальных маркеров следующие:

DYS393 0.00059

DYS390 0.00220

DYS19 0.00179

DYS391 0.00220

DYS385a 0.00280

DYS385a 0.00360

DYS426 0.00009

DYS388 0.00022

DYS439 0.00300

DYS389-1 0.00080

DYS392 0.00040

DYS389-2 0.00231


Но поскольку мутации во всех этих маркерах происходят независимо и неупорядоченно, и мы, как правило, заинтересованы в скорости мутации всего гаплотипа, а не его отдельных маркеров (многочисленные примеры будут даны ниже), то суммарная константа скорости мутаций во всем гаплотипе равна сумме индивидуальных констант скоростей, которая равна 0.0200 мутаций на условное поколение (25 лет).

Так же рассчитываются суммарные константы скорости мутаций в гаплотипах, которые приведены ниже.

Надо сказать, что здесь даются упрощенные примеры, потому что по двум гаплотипам расчеты обычно не ведут, ведут по десяткам, сотням и тысячам гаплотипов, если таковые есть в наличии, рассчитывают математические погрешности в определяемых числах, и т. д. В таких случаях погрешности расчетов приближаются к плюс-минус 10 % от определяемой величины, поскольку именно такой определена погрешность вычисления константы скорости мутации. Здесь только иллюстрируется принцип расчета.

Ясно, что у протяженных 111-маркерных гаплотипов разрешение лучше (400-маркерные гаплотипы пока крайняя редкость). Но их определять дороже, чем более короткие, поэтому в академических исследованиях, при постоянной нехватке денежных средств, приходится работать с более короткими гаплотипами. Протяженные гаплотипы определяют в коммерческих компаниях, обычно персонально, каждый для себя, и передают, как правило, в общественные базы данных. Сейчас в общественных базах данных – сотни тысяч гаплотипов, и базы прирастают многими гаплотипами ежедневно[62].


Вопрос 65: Какие значения имеют все 111 маркеров, применяемые в ДНК-генеалогии?

Таблица приведена ниже. Числа 0.02, 0.046 и 0.09 справа – значения констант скоростей мутаций для 12-, 25-, и 37-маркерных гаплотипов, выраженных в мутациях на гаплотип на условное поколение (в 25 лет). Для 67-маркерных гаплотипов, которые заканчиваются маркером DYS565 константа скорости равна 0.12 мутаций на гаплотип на условное поколение. Самое последнее число, 0.198 – константа скорости мутаций на 111-маркерный гаплотип на условное поколение. Эти величины приведены и обоснованы в статье[63] Клёсова и Килина (2015). Обоснование велось по восьми направлениям:

1) Сопоставление датировок, полученных с помощью линейного метода (ЛМ) по 67- и 111-маркерным гаплотипам. Это – наиболее достоверные форматы гаплотипов.

2) Сопоставление датировок, полученных с помощью ЛМ по п.1, и 37-, 25-, 17-, 12 и 6 – маркерным гаплотипам. При этом надо принимать во внимание, что чем меньше число маркеров, тем выше разброс. Поэтому разброс – это нормально, но систематическое (или постоянное) завышение или занижение результатов по сравнению с 67/111 маркерными расчетами – это ненормально. В каждом случае причины соответствующих отклонений анализировались.

3) ЛМ по п.1 и 22-маркерным (медленным) гаплотипам.

4) ЛМ по п.1 в применении к документальным генеалогиям, и тем, для чего известны расчеты другими достоверными методами (например, по снипам). Правда, по снипам надо принимать во внимание, что там нет «бутылочных горлышек популяции», поэтому результаты расчетов по снипам будут или равны результатам расчетов по ЛМ, или давать завышенные результаты. Если есть и то, и другое, то это нормально.

5) ЛМ по 67- и 111-маркерным гаплотипам, и ККК (квадратичный по индивидуальным константам) по ним же.

6) ЛМ по 22-маркерным гаплотипам, и ККК по ним же.

7) «Медленные» 22-маркерные гаплотипы в сопоставлении с известными древними датировками.

8) Сопоставление расчетов по 111- и 67-маркерным гаплотипам с данными документальной генеалогии.


Рис. 9. Значения индивидуальных констант скоростей мутаций для 111 маркеров


Вопрос 66: Почему датировки по мутациям в гаплотипах и по снипам часто не совпадают?

Строго говоря, это разные датировки. Расчеты по мутациям в гаплотипах наших современников дают временное расстояние до общего предка выборки. Если выборка малая, нерепрезентативная, то она может дать заниженное или завышенное расстояние до общего предка. С увеличением размера выборки, или числа выборок по изучаемой территории (вплоть до всего континента или всей планеты) датировка постепенно стабилизируется, приходя к значению, которое можно принять за наиболее особно-ванное. По аналогии, если бросать монету всего немного раз, то усредненное значение «вероятности» выпадения орла или решки может быть завышенным или заниженным по сравнению с известной вероятностью 0.5, но при увеличении числа бросков это усредненное значение стабилизируется, приближаясь к 0.5.

Важно, что время жизни общего предка выборки современников из определенной и выбранной гаплогруппы вовсе не обязательно покажет датировку образования данной гаплогруппы. Популяция данной гаплогруппы могла пройти «бутылочное горлышко», при котором могли выжить только некоторые, и потомство могло выжить и дожить до наших дней только от одного человека, пережившего бутылочное горлышко. Тогда, разумеется, датировка общего предка будет более недавней, чем датировка образования рассматриваемой гаплогруппы.

В отличие от этого, датировка по снипам не ограничена вымираниями древних популяций, если остался хотя бы один мужчина, прямое потомство от которого дожило до наших дней. Тогда цепочка снипов проходит в его Y-хромосоме до общего предка с шимпанзе и древнее. В этом причина, почему «датировка общего предка выборки» или «датировка общего предка региона», даже обширного, часто не совпадают друг с другом.

Пример – субклад V13 гаплогруппы E1b. Датировка образования субклада по снипам (компания YFull) – примерно 7600 лет назад, с учетом погрешности, приведенной YFull – 7600±1300 лет назад. С этим согласуется археологическая датировка ископаемого субклада E1b-V13, обнаруженный на севере Испании – примерно 7000 лет назад. Для вычисления датировки общего предка выборки современных гаплотипов собрали 193 гаплотипа в 67-маркерном формате по всей Европе, и их дерево гаплотипов оказалось почти идеально симметричным:


Рис. 10. Дерево 193 гаплотипов в 67-маркерном формате субклада E1b-V13


Все 193 гаплотипа содержат 2857 мутаций, что дает 2857/193/0.12 = 123 → 141 условных поколений до общего предка, то есть общий предок всей выборки жил 3525±360 лет назад[64][65]. Мы столь подробно на этом останавливаемся, чтобы показать разрыв во времени между датировкой ископаемого гаплотипа группы E1b-V13, и датировкой общего предка современных носителей той же группы. Разрыв – почти четыре тысячи лет. На самом деле, разрыв, скорее всего, начался примерно 4500 лет назад, в ходе заселения континентальной Европы эрбинами, носителями гаплогруппы R1b, и продолжался тысячу лет. Это было время выживания ДНК-генеалогической линии E1b-V13, пока выживание не состоялось окончательно, то есть критический размер популяции был преодолен.


Теперь проверим, как ископаемый гаплотип соотносится с современными гаплотипами субкладаVl3. Ископаемый имеет вид


13 24 13 10 16 19 11 13 11 31 16 14 20 10 22

(ископаемый E1b-V13, Испания)


Предковый гаплотип, к которому сходится дерево, показанное выше, в 67-маркерном формате имеет вид


13 24 13 10 16 18 11 12 12 13 11 30–15 9 9 11 11 26 14 20 32 14 16

17 17 – 9 11 19 21 17 12 17 20 31 34 11 10–10 8 15 15 8 11 10 8 12 10

0 23 24 18 11 12 12 17 7 12 22 18 12 13 12 14 11 11 11 11

(предковый гаплотип E1b-V13, 3525 лет назад)


В маркерах, показанных для ископаемого гаплотипа, он редуцируется до следующего:


13 24 13 10 16 18 12 13 11 30 15 14 20 10 22

(предковый E1b-V13, 3525 лет назад)


Четыре мутации между гаплотипами (отмечены) разводят их на 2625 лет, и помещают их общего предка на (2625+3525+7000V2 = 6575±700 лет назад, что и соответствует датировке ископаемого гаплотипа в пределах погрешности расчетов. Таким образом, выжил, пройдя бутылочное горлышко популяции, прямой потомок «испанского» гаплотипа, и он принял эстафету рода, образовавшего сейчас дерево гаплотипов, показанное выше.

Напротив, для множества субкладов датировка для их образования по снипам и мутациям в гаплотипах, практически совпадают. Приведем всего несколько примеров – для субкладов I2a-S17250, l2a-Y4460 и I2a-Z17855, основных для носителей гаплогруппы I2a Восточной Европы, и снипы, и мутации в гаплотипах дали датировку 2300 лет назад. Для субклада R1a-Z280, который имеют половина этнических русских (наряду с субкладом R1a-M458), датировка по снипам и мутациям в гаплотипах дала 4900 лет назад, для субклада R1b-L23, основного субклада древнеямной культуры на территории современной России, потом переместившегося на Кавказ и в Месопотамию, датировка по снипам и мутациям в гаплотипах дала 6400±900 и 6000±600 лет, соответственно, и так далее.


Вопрос 67: В примере выше вы приводили значения констант скоростей мутаций и для отдельных маркеров, как DYS393 и DYS390, так и для всего гаплотипа, от 6- до 111-маркерного, и даже до 409-маркерного. Как же все-таки нужно считать, по отдельным маркерам или по целым гаплотипам?

Это – хороший вопрос, он часто служит предметом путаницы. Считать можно и по отдельным маркерам, и по целым гаплотипам, и это определяется целесообразностью в каждом конкретном случае, удобством, экономией времени.

Приведем пример – серию из 27 гаплотипов в 12-маркерном формате. Это – реальная серия гаплотипов из одного из проектов (киргизского) FTDNA.


13 24 16 10 11 14 12 12 10 13 11 18

13 24 16 11 11 14 12 12 10 13 11 18

13 24 16 11 11 14 12 12 10 14 11 17

13 24 16 11 11 14 12 12 10 14 11 18

13 25 16 10 11 14 12 12 10 14 11 18

13 25 16 10 11 14 12 12 10 14 11 18

13 25 16 10 11 14 12 12 10 14 11 19

13 25 16 10 11 14 12 12 10 14 11 19

13 25 16 11 11 14 12 12 10 13 11 18

13 25 16 11 11 14 12 12 10 13 11 18

13 25 16 11 11 14 12 12 10 13 11 18

13 25 16 11 11 14 12 12 10 13 11 18

13 25 16 11 11 14 12 12 10 14 11 17

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 18

13 25 16 11 11 14 12 12 10 14 11 19

13 25 16 11 11 14 12 12 10 14 11 19

13 25 16 11 11 14 12 12 10 15 11 17

13 25 17 11 11 14 12 12 10 14 11 18

13 26 16 11 11 11 12 12 10 14 11 17


Девять из них идентичны друг другу, это – базовые, или предковые гаплотипы. Они не успели мутировать за время, прошедшее от их общего предка. На все 27 гаплотипов приходится 27 мутаций (отмечены жирным шрифтом). Иначе говоря, за время, прошедшее от их общего предка, девять 12-маркерных гаплотипов полностью сохранились, 18 гаплотипов приобрели мутации. Популяционный генетик рассчитал бы «коэффициент разнообразия» гаплотипов, который никому и никогда не нужен, и на этом бы свою работу закончил соответствующей публикацией, а рецензент в журнале, тоже, естественно, попгенетик, статью бы без вопросов пропустил в печать. То, что это фактически мусор, ему бы и в голову не пришло, там «наука» такая. На самом деле эта серия гаплотипов позволяет расчитать, когда жил общий предок этих гаплотипов, и далее, прослеживая подобные гаплотипы по территориям, и каждый раз рассчитывая времена жизни общих предков, можно понять, в какую сторону направлялись древние миграции, и сопоставляя полученные данные с археологическими и лингвистическими показателями, можно получать более содержательные картины прошлого.


Рис. 11. Расчет времени до общего предка для 27 гаплотипов в 12-маркерном формате из Киргизского проекта FTDNA. Поскольку гаплотипы 12-маркерные, то же расстояние до общего предка (TMRCA), 1304±283 лет, повторено в колонке для 225-, 37-, 67- и 111-маркерных гаплотипов. Колонка для 6-маркерных гаплотипов показывает 1425±453 лет до общего предка, что является тем же самым в пределах погрешности расчетов. Остальными колонками следует пренебречь.


Так вот, рассчитать время жизни общего предка можно разными способами. Можно – используя все 12 индивидуальных констант (k) скоростей мутаций, и считать по каждому маркеру, раздельно. Их величины приведены выше, в ответах на вопрос 65. Тогда результатом расчета будет набор из 12 «времен жизни до общего предка», который следует усреднить Это – очень непродуктивный метод расчета, и так вручную никто не считает (тем более всего для 27 гаплотипов, с крайне бедной статистикой). Но это – основа для машинных (компьютерных) расчетов, особенно для сотен и тысяч гаплотипов, и итоговое усреднение проводится по всему полю данных. Именно так работает калькулятор Килина-Клёсова[66], в который заложены значения констант скоростей для 111 маркеров, и расчет проводится по массиву данных до 10 тысяч гаплотипов практически в любом формате. Время расчета даже для 10 тысяч 111-маркерных гаплотипов занимает всего несколько секунд. В данном случае у шести маркеров из 12 мутаций нет, так что для них формальное «время до общего предка» равно нулю, но оно усредняется с результатами по шести оставшимся маркерам, и суммарно оно оказывается равно 1304±283 лет до общего предка (без округлений). Скриншот калькулятора с экрана компьютера приведен на рис 11.

Мы видим и сами гаплотипы, которые вводятся в соответствующие ячейки в формате Excel – или вручную, или копируются целиком из соответствующего файла, и число мутаций по каждому маркеру (третья строка снизу на сером фоне), сумма которых равна в данном случае 27. В формате Excel сумму их не обязательно подсчитывать вручную, можно просто все высветить курсором и прочитать сумму на экране. Программа также показывает базовые (предковые) значения аллелей (шестая строка снизу на сером фоне), и много другой важной информации. Датировка времени жизни общего предка читается в колонке LM12, что означает «линейный метод (расчета) по 12-маркерным гаплотипам». В колонках для 25-, 37-, 67- и 111-маркерных гаплотипов появляется то же самое число лет, что и для 12-маркерных гаплотипов, и странно было бы ожидать другого. В других колонках числа не являются правильными, потому что для них просчитывается только часть маркеров (колонки для 17-маркерных и 22-маркерных гаплотипов, и обозначенные ККК, то есть квадратичный расчет для 111- и 22-маркерных гаплотипов). Для проверки работы калькулятора можно разделить число мутаций на число гаплотипов и на константу скорости мутации для 12-маркерных гаплотипов, 27/27/0.02 = 50 условных поколений без введения поправки на возвратные мутации, которая равна 1.0433. Эта поправка рассчитывается, как показано в ответе на вопрос 61. В данном случае средняя величина числа мутаций на маркер равна 27/27/12 = 0.0833, и формула для расчета поправки приобретает вид




где величина поправочного коэффициента (1+e0.0833)/2 равна 1.0433, и вместо 50 условных поколений получаем 52.165, что соответствует 1304 годам до общего предка, то есть в точности то, что выдал калькулятор. Погрешность при 27 мутациях рассчитывается путем обратной величины квадратного корня из 27, что есть 0.19245, возведением полученной величины в квадрат и прибавлением 0.01 (10 %-й погрешности для константы скорости мутации), получая 0.0470, и после извлечения квадратного корня получаем общую погрешность в ±21.69 %. Окончательно записываем, что датировка общего предка рассмотренной серии из 27 гаплотипов равна 1304±283, в точности то, что рассчитал калькулятор, только в данном случае он рассчитал за долю секунды.

Надо заметить, что калькулятор выдает такую точность, которая не только бессмысленна, но и неправильна, потому что расстояние до общего предка с точностью до одного года не бывает, и погрешность с точностью до одного года не определяется. Поэтому полученную величину следует округлить, например, так: 1300±280 лет до общего предка.

Еще один способ расчета называется логарифмическим[67], в котором мутации даже не считаются. Поскольку в серии из 27 гаплотипов 9 базовых, то получаем [ln(27/9)]/0.02 = 55 → 58 условных поколений, то есть 1450±500 лет до общего предка. Как видно, это в пределах погрешности расчетов совпадает с величиной, полученной и линейным способом, и с помощью калькулятора Килина-Клёсова. Для концептуальных выводов это вполне приемлемо. Концептуальными здесь называются выводы (или результаты), которые ставят задачей расчеты с точностью, которая позволяет сделать принципиальные выводы, например, исторического характера. Как известно, историки и археологи часто оперируют концептуальными положениями, например, что скифы играли роль на исторической арене примерно с 7-го века до начала нашей эры, сарматы – с начала нашей эры до примерно 4-го века нашей эры, кельты – примерно с 4-го века до н. э., хотя есть варианты. Иначе говоря, в этих случаях датируются не конкретные события, а концептуальные. ДНК-генеалогия часто очень полезна в таких случаях. Например, что общий предок этнических русских гаплогруппы R1a и общий предок индийцев высших каст гаплогруппы R1a жил практически в одно и то же время. В пределах погрешности измерений, это был – концептуально – один и тот же общий предок. Никто не ожидает там датировку с точностью до года или около того. Речь – о концепции, а не о точной формальной датировке.


Вопрос 68: Как измеряют константы скоростей мутаций?

Часто приходится слышать, что если скорости мутаций такие малые, что одна мутация происходит порой раз в несколько тысяч лет, то как же их измеряют? Скептики тут же заключают, что эти величины недостоверны, поскольку эксперименты длиной в тысячи лет невозможны. Это только показывает ментальную удаленность скептиков от науки. Аналогия – времена полураспада многих радиоактивных элементов составляют тысячелетия или намного большие времена – например, период полураспада радия-226 составляет 1620 лет, а урана-238 – 4.5 миллиарда лет. Никто из исследователей не сидит и не ждет, пока половина вещества распадется.

Один из подходов при измерении величин констант скоростей мутаций – сопоставление гаплотипов в парах отец-сын. Если изучается группа, например, в 2000 пар отец-сын, то среднее количество мутаций между их гаплотипами определяется по формуле x/2000/k = 1, где х – количество мутаций, k – константа скорости мутаций.

Чтобы понять, сколько мутаций можно ожидать в таких опытах, приведем список диапазонов констант скоростей мутаций[68](в числе мутаций за условное поколение, то есть за 25 лет), из полного списка выше.

Ниже приведены самые «медленные» 22 маркера в 67-маркерной панели:


DYS472 0.000008

DYS436 0.000040

DYS425 0.000042

DYS568 0.000050

DYS490 0.000070

DYS426 0.000090

DYS455 0.000100

DYS450 0.000110

DYS492 0.000150

DYS640 0.000150

DYS641 0.000170

DYS594 0.000170

DYS388 0.000220

DYS454 0.000300

DYS590 0.000340

DYS438 0.000350

DYS392 0.000400

DYF395Sib 0.000400

DYF395Sia 0.000400

DYS459a 0.000400

DYS578 0.000430

DYS617 0.000500


Все они, кроме DYS459a, образуют «медленную» 22-маркерную панель для расчетов особенно удаленных по времени общих предков серий гаплотипов. Маркер DYS459a в 22-маркерную панель не включен, поскольку для него характерен так называемый палиндромный, или «мультимаркерный» эффект, при котором при мутациях маркеры меняются синхронно, парами. Правда, этот эффект присущен также маркерам DYF395S, но так уж сложилось, что они вошли в эту панель. Вместо DYS459a в 22-маркерную панель введен DYS531.

Самые медленные маркеры панели от маркеров от 68 до 111 следующие:


DYS632 0.000100

DYS494 0.000100

DYS435 0.000110

DYS593 0.000120

DYS726 0.000170

DYS636 0.000230

DYS638 0.000270

DYS575 0.000300

DYS434 0.000300

DYS462 0.000300

DYS445 0.000500

DYS716 0.000500


Самые «быстрые» маркеры в 111-маркерной панели следующие:


DYS710 0.007300

CDYb 0.007000

DYS449 0.006800

CDYa 0.006600

DYS712 0.006200

DYS458 0.006200

DYS576 0.006000

DYS570 0.004700

DYS714 0.004500

DYS456 0.004320

DYS442 0.004300

DYS481 0.004000


Мы видим, что самые «медленные» маркеры мутируют со средней скоростью от 0.000008 мутаций в поколение (то есть в среднем раз в 125 тысяч поколений, или более чем в 3 миллиона лет) до 0.00050 мутаций в поколение (в среднем раз в 2000 поколений, или примерно раз в 50 тысяч лет). Можно эти числа объяснить по-другому – наиболее «медленные» мутации происходят в среднем раз на 125 тысяч рождений мальчиков (DYS472), или раз на 125 тысяч пар отец-сын, до одного раза на 2000 рождений мальчиков, или один раз на 2000 пар отец-сын. Отсюда уже ясно, что большинство из приведенные выше «медленных» маркеров практически бесполезны на парах отец-сын, потому что подавляющее большинство из них вообще не дадут мутаций даже на 2000 парах, в лучшем случае некоторые дадут одну мутацию, из которых константу скорости не вычислить, погрешность таких расчетов составит плюс-минус 100 % даже при доверительном интервале в 68 % (одна сигма). Поразительно, что популяционные генетики используют такие «скорости мутаций», расчитанные из одной мутации, или даже без единой мутации в парах отец-сын (приведенные, например, в работах[69], [70]), даже не задумываясь, что смысла в этом нет практически никакого. Естественно, получают при этом невоспроизводимые «времена жизни общих предков», и объявляют, что по мутациям в гаплотипах считать нельзя (D. Pontikos[71]; Busby et al[72]).

Самые «быстрые» маркеры мутируют в среднем от частот (1/0.0073) один раз в 137 условных поколений, то есть примерно раз в 3400 лет, или один раз на 137 рождений мальчиков, до примерно (1/0.004) один раз в 250 условных поколений. Давайте посмотрим, как это выглядит на практическом примере. Воспользуемся тем же набором из 3466 гаплотипов гаплогруппы R1b-L21. В маркере DYS472, самом «медленном», аллели образуют следующий набор:

7 – 1 (то есть аллель 7 встречается в 3466 маркерах DYS472 всего один раз)

8 – 3461 раз

9 – 4 раза


Таким образом, мы наблюдаем всего пять мутаций на 3466 маркеров DYS472 за 152 условных поколений (расчеты см. выше), прошедших со времени жизни общего предка этих гаплотипов. Это дает константу скорости мутации, равную примерно 5/3466/152 = 0.95 × 10-5 мутаций на условное поколение. Если давать более строгую формулировку, то при пяти мутациях надо написать (0.95±0.43) × 10-5 мутаций на условное поколение, или, что более правильно, (1.0±0.4) × 10-5 мутаций на условное поколение. Погрешности здесь рассчитываются по обычным правилам статистики, как квадрат обратной величины квадратного корня из числа мутаций. Здесь мы пренебрегли поправкой на возвратные мутации, потому что она в данном случае практически ничего не меняет, поправка составит менее одной сотой доли процента.

Но этот расчет проведен только на одной серии гаплотипов. В серии из 976 гаплотипов гаплогруппы R1a в маркере DYS472 прошла всего одна мутация, что при 154 условных поколениях до общего предка дает константу скорости мутации 1/976/154 = 0.67 × 10-5 на условное поколение. В целом, при подобном рассмотрении серий гаплотипов из 24 разных субкладов средняя величина для константы скорости мутации для DYS472 оказалась равной 0.8 × 10-5 мутаций на условное поколение.

Заметим, что это – самая «медленная скорость мутации из всех 111 маркеров. Для остальных задача решается еще проще, там мутаций больше.

Приведем еще несколько примеров «медленных» маркеров, расчеты по которым самые сложные. По парам отец-сын они вообще не определяются. Например, маркер DYS455. В серии из 3466 аллелей этого маркера наблюдаем следующее распределение:

9 – 6 (то есть аллель 9 встречается в 3466 маркерах DYS455 всего 6 раз)

10 – 28

11 – 3409

12 – 23


Считая, что все мутации одношаговые, получаем 63 мутации на 3466 аллелей DYS455 за те же 152 условных поколения, прошедших со времени жизни общего предка этих гаплотипов. Это дает константу скорости мутации, равную 63/3466/152 = 0.00012±0.00002 мутаций на маркер DYS455 за условное поколение. Поправка на возвратные мутации здесь составляет менее одного процента, поэтому вводить ее бессмысленно. В таблице выше дана константа скорости 0.00010, усредненная из многих расчетов по разным гаплогруппам.

Маркер DYS594:

7 – 1

8 – 2

9 – 4

10 – 3401

11 – 58


В сумме это дает 69 мутации на 3466 аллелей DYS594 за 152 условных поколения до общего предка. Это дает константу скорости мутации, равную 69/3466/152 = 0.00013±0.00002 мутаций на маркер DYS594 за условное поколение. Поправка здесь тоже составляет менее одного процента, поэтому вводить ее не будем. В таблице выше дана константа скорости 0.00017, усредненная из многих расчетов по разным гаплогруппам.

Маркер DYS490:

11 – 4

12 – 3437

13 – 18

14 – 7


В сумме это дает 36 одношаговых мутаций на 3466 аллелей DYS490 за 152 условных поколения до общего предка. Это дает константу скорости мутации, равную 36/3466/152 = 0.00007±0.00001 мутаций на маркер DYS594 за условное поколение. Поправка здесь тоже составляет менее одного процента, поэтому вводить ее не будем. В таблице выше дана константа скорости 0.00007, усредненная из многих расчетов по разным гаплогруппам, то есть точно такая же, как рассчитанная выше.

Маркер DYS492:

11 – 44

12 – 3398

13 – 22

14 – 2


В сумме это дает 70 одношаговых мутаций на 3466 аллелей DYS492 за 152 условных поколения до общего предка. Это дает константу скорости мутации, равную 70/3466/152 = 0.00013±0.00002 мутаций на маркер DYS492 за условное поколение. Поправка здесь тоже составляет менее одного процента. В таблице выше дана константа скорости 0.00015, усредненная из многих расчетов по разным гаплогруппам, то есть в пределах погрешности такая же, как рассчитанная выше.

А теперь приведем несколько примеров того, к чему приводят «быстрые» константы скоростей мутаций. Рассмотрим самую «быструю» – DYS 710, которая входит в 111-маркерную панель. Этот маркер не изучался в экспериментах на примерно 1700 парах отец-сын[73], как и многие другие маркеры. Точнее, там вообще не изучались 24 маркера, в 17 маркеров мутаций не было, в 15 маркерах прошла всего одна мутация, то есть 56 маркеров из 111 оказались непригодными для количественного определения скоростей мутаций. А поскольку еще в 11 маркерах прошли всего две мутации, то почти две трети всех маркеров оказались непригодными для определения констант скоростей мутаций.

Даже при одной сигма (доверительный интервал плюс-минус 68 %) погрешность в определении скоростей мутаций (точнее, констант скоростей мутаций) составляет ±100 % при одной мутации, и ±71 % при двух мутациях. А попгенетики их используют, в том числе и те маркеры, в которых мутаций вообще не было, при этом умудряясь рассчитать «скорости мутаций» для тех маркеров! В результате, разумеется, опять мусор в академических публикациях. Пример такой работы – исследование 2013 года[74], в авторах которого Chris Tyler-Smith, один из ведущих популяционных генетиков мира, и журнал один из ведущих. Я немедленно написал критическую статью в тот же журнал, и началась типичная для попгенетиков ситуация. Полгода ответа от журнала вообще не было. Я написал напоминание. После этого пришла одна рецензия, совершенно уклончивая, суть которой состояла в том, что несправедливо критиковать исследование, в котором используются мутации, определенные по парам отец-сын, поскольку многие их применяют. Поэтому моя статья быть принята не может. Я написал ответ, выразив возмущение сроками рецензии – более полугода, а также тем, что рецензент всего один, и само замечание неквалифицированное.

Через месяц пришла еще одна рецензия, в которой опять предлагалось снять критику за использование «скоростей мутаций» по парам отец-сын, снять таблицу, в которой показано, что значительная часть маркеров, используемых в работе Tyler-Smith, основывается всего на нескольких мутациях в парах отец сын. Так, по разным цитируемым авторами данным, в маркере DYS643 мутаций вообще не было, в DYS448, и DYS549 прошло всего по одной мутации (в 1213 и 555 парах отец-сын, соответственно), маркерах DYS533 и DYS 438 по две мутации (в 555 и 4565 парах отец-сын, соответственно), и это уже шесть маркеров из 21, используемых в работе, более четверти. Помимо того, в работе использовались печально известные «популяционные скорости Животовского», которые вообще завышали датировки в три раза. Я ответил, что ничего снимать не буду. После этого получил письмо уже от главного редактора с приложением еще одной рецензии. Суть ее была в том, что несправедливо критиковать именно эту статью, и особенно несправедливо по отношению к Tyler-Smith, поскольку то, о чем я пишу, характерно по отношению почти ко всем статьям популяционных генетиков, и почему начинать именно с Tyler-Smith? Поэтому мне предлагалось вообще снять всю критику данной статьи, и написать общую статью по скоростям мутаций в гаплотипах. Я отказался, написав, что сначала пусть они публикуют эту критическую статью, а потом обсудим более общую статью. После этого в течение года редактор мне регулярно напоминал, что они ждут общую статью, но о критической статье не упоминал. Но мне статьи не очень нужны, у меня их более пятисот, и более двадцати книг, поэтому я и не отвечал. Такое отношение к авторам мне не подходит. И после этого попгенетики еще мне высказывают претензии, что я не публикуюсь в журналах по популяционной генетике. Нет уж, меня ангажированные издания не устраивают.

Возвращаемся к «быстрым» скоростям мутаций. В маркере DYS710 в рассмотренном выше списке из 3466 гаплотипов (и, соответственно, аллелях данного маркера) наблюдается следующая картина распределений:

29 – 1 (то есть аллель 29 встречается в 3466 маркерах DYS710 всего один раз)

30 – 21 раз

31 – 49 раз

32 – 93

33 – 427

34 – 808

35 – 1058

36 – 759

37 – 182

38 – 50

39 – 17

40 – 1 раз


Видно, что картина мутаций значительно более «размазанная» по сравнению с медленными константами скоростей. Считая, что все мутации одношаговые, получаем 3594 мутации на 3466 аллелей DYS710 за те же 152 условных поколения, прошедших со времени жизни общего предка этих гаплотипов. Мы видим, как высокие скорости мутаций «размазывают» распределение мутированных аллелей в широком диапазоне. Если при минимальной скорости мутаций в DYS472 сохранились неизменными 3461 предковые аллели в гаплотипах 3466 потомков (константа скорости мутации 0.000008 на условное поколение), и в DYS617 сохранились неизменными 2921 предковые аллели в гаплотипах 3466 потомков (константа скорости мутации на в 63 раза выше, 0.0005 на условное поколение), то в случае самого «быстрого» маркера сохранились всего 1058 предковые (базовые) аллели, и число мутаций равно 3594 вместо 5 в DYS472, то есть в 700 с лишним раз больше. Константа скорости мутации была бы равна 3594/3466/152 (без учета поправки на возвратные мутации), то есть была бы равна примерно 0.0068 мутаций на условное поколение. Но из-за высокой скорости мутаций настолько много, что отношение числа мутированных аллелей к общему числу аллелей превышает единицу (3594/3466 = 1.037), и поправки на возвратные мутации «захлебываются», дают заниженные показатели, и в целом перестают работать. Формальный расчет по формуле, приведенной выше, показывает, что число возвратных мутаций здесь практически равно числу «прямых» мутаций, и полученную величину 0.0055 нужно удвоить. В действительности усредненная контанта скорости мутации этого маркера по разным гаплогруппам равна 0.0073 на условное поколение (25 лет), и она приведена в таблице выше.


Еще пример относительно «быстрого маркера» – это DYS534. В том же списке из 3466 гаплотипов (и, соответственно, аллелях данного маркера) наблюдается следующая картина распределений:

12 – 3 раза

13 – 48

14 – 524

15 – 1574

16 – 1043

17 – 229

18 – 43

19 – 2


Считая, как обычно, что все мутации одношаговые, получаем 2267 мутаций на 3466 аллелей DYS534 за те же 152 условных поколений, прошедших со времени жизни общего предка этих гаплотипов. Мы видим, что по сравнению с самым «быстрым» маркером DYS710 (в котором сохранились всего 1058 предковых (базовых) аллелей, и число мутаций равно было 3594, в случае DYS534 сохранилось 1574 предковых аллелей, и общее число мутаций равно 2267. Давайте посмотрим, что получится в этом случае. Константа скорости мутации, получаемая из экспериментальных данных, равна 2267/3466/152 (без учета поправки на возвратные мутации), то есть равна примерно 0.00430 мутаций на условное поколение. Моделирование дает среднюю константу скорости 0.00315 мутаций на условное поколение по разным гаплогруппам.

Таким образом можно проводить расчет констант скоростей мутаций, используя большие серии гаплотипов. Но работа на этом не заканчивается, потому что серии гаплотипов могут быть искаженными, включать примеси из других серий, с другим общим предком, включать другие субклады, с другим распределением аллелей по частотам, и так далее. Поэтому получаемые значения констант скоростей мутаций необходимо калибровать по известным документальным генеалогиям, опять желательно по нескольким. Как это делается, мы увидим в следующем разделе.


Вопрос 69: Насколько константы скоростей мутаций, определенные в разных регионах мира, надежны для проведений расчетов в ДНК-генеалогии? Что такое «калибровка» констант скоростей мутаций?


Приведу некоторую аналогию – а насколько надежны расчетные скорости (на самом деле – константы скоростей) радиоактивного распада соответствующих веществ? Влияют ли на них регионы планеты, где проводятся измерения? Любой образованный человек ответит – конечно, нет, не влияют. Скорость распада радиоактивных материалов определяется исключительно «внутренними» свойствами вещества, а не внешними воздействиями. Это – фундаментальные показатели. Вот так же должен отвечать каждый образованный человек на соответствующий вопрос о константах скоростей мутаций в гаплотипах. Это – фундаментальные показатели. Никакие регионы, питание, физические упражнения, национальность, гражданство или партийная принадлежность на них не влияют. Естественно, речь здесь идет о нормальных условиях, а не, скажем, в условиях солнечного ядра, или при смертельных уровнях радиации.

Итак, мутации в гаплотипах потомков расходятся от предкового гаплотипа как круги по воде, число мутаций легко рассчитывается, и они подчиняются довольно простым количественным закономерностям. Для кругов на воде, расходящихся от места, куда был брошен камень, легко рассчитать, когда был брошен камень, если знать скорость распространения волны и место нахождения круговой волны в данный момент времени. Чем больше прошло времени – тем дальше круги ушли, тем больше они разошлись. Так и в гаплотипах – чем больше время, прошедшее от общего предка, тем больше мутаций накопилось в гаплотипах его потомков. Число этих мутаций связано с временем, прошедшим от общего предка, с числом гаплотипов в серии, и с константой скорости мутации в гаплотипах, и выражается простой формулой: n/N = kt, где n – число мутаций в серии из N гаплотипов, k – константа скорости мутации (в числе мутаций на гаплотип за условное поколение, равное 25 лет), t – число условных поколений, с табличной поправкой на возвратные мутации[75]. На сотнях и тысячах примеров показано, что эта формула работает при любом числе гаплотипов и мутаций в них, и при любом времени, прошедшем от общего предка рассматриваемых гаплотипов. Однако при очень больших временах, более 10–20 тысяч лет, и особенно более 100 тысяч лет, нужно использовать гаплотипы с «медленными» маркерами, то есть с малыми константами скоростей мутаций, и тем самым снижать число мутаций и число возвратных мутаций. По аналогии, вряд ли целесообразно изучать скорости радиоактивного распада элементов со временами полураспада в тысячелетия, используя секундомер. Или пытаться изучать круги на воде за километры от места, куда был брошен камень, для этого нужно значительно более мощное воздействие. Как всегда, нужен конкретный анализ в конкретной ситуации, единых подходов на все случае жизни не бывает. Варианты конкретного анализа в конкретных ситуациях и рассматривает ДНК-генеалогия. Некоторые ситуации и расчеты мы рассмотрим ниже.

Теперь вопрос – насколько надежны величины констант скоростей мутации в соответствующих маркерах Y-хромосомы? Они надежны настолько, насколько надежно их определяют, калибруют, проверяют исследователи. Когда это делают популяционные генетики – совершенно ненадежны, они это показали последними двадцатью годами их так называемых «исследований». Они до сих пор так и не знают, какие значения эти константы имеют. Они до сих пор, в академических статьях 2015 года, продолжают использовать «скорости Животовского»[76]. Причем «на полном серьезе» обсуждают, что на временах до 5 тысяч лет эти «скорости» сильно завышают датировки, и вот на временах 40–60 тысяч лет подходят в самый раз. Они так и не поняли, что 23-маркерные гаплотипы на временах 40–60 тысяч лет вообще не применимы, там больше половины столь «быстрых констант скоростей», что они вообще не работают, потому что мечутся как белка в колесе. Это все равно, что секундомером измерять астрономические явления продолжительностью в тысячи и миллионы лет. И попгенетики этого так еще и не поняли!

Иногда принцип датировки «разбега» мутаций в гаплотипах с течением времени называют «принципом молекулярных часов». Смысл в этом есть, но примитивный. Дело не в том, что часы, а в том, чтобы правильно ходили. Любая реакция в химических или биологических системах, описываемая константой скорости первого порядка, есть «обычные молекулярные часы», поскольку связана с хронологией процесса на молекулярном уровне. Динамика любого такого процесса связана с временем согласно формуле с = с0е-kt, где c0 – исходное состояние системы (например, начальное количество или концентрация изучаемого вещества; количество гаплотипов Y-хромосомы в изучаемой выборке, и т. д.), с – состояние системы в определенный момент времени t (где t – время прошедшее с начала реакции, t-to), или количество базовых, то есть исходных гаплотипов в изучаемой выборке в настоящее время, спустя время t, прошедшее со времени жизни общего предка изучаемой серии гаплотипов), k – константа скорости реакции (мутаций, в данном случае). Эту же формулу можно переписать в виде ln(co/c) = kt, и она становится выражением логарифмического метода анализа выборок гаплотипов в ДНК-генеалогии. Берем, скажем, сто или тысячу гаплотипов, или любое другое их число, делим на число базовых (то есть одинаковых, идентичных друг другу гаплотипов, суть предковых гаплотипов, которые не успели мутировать за время t, прошедшее со времени жизни общего предка), берем натуральный логарифм (ln), и получаем произведение kt, то есть константу скорости мутации, помноженную на число лет, прошедшее со времени жизни общего предка, или на число условных поколений, опять же прошедших после общего предка – в зависимости от того, выражали константу скорости в годах, или в поколениях.

Логарифмический метод будет обсуждаться в следующем разделе, а пока обратим внимание, что результаты расчетов в ДНК-генеалогии обычно получаются в виде произведения kt. Это относится и к логарифмическому методу (см. выше), и к так называемому линейному методу, в котором считают число мутаций в серии гаплотипов, происходящих от одного общего предка, и делят их на число гаплотипов и на константу скорости мутаций в гаплотипе.

Отсюда уже видно, что неважно, сколько лет положить на условное поколение – 20, 25, 30, 35 или любое другое число лет, поскольку константа скорости мутации тут же подстроится, они завязаны друг на друга, произведение-то одно. В ДНК-генеалогии, как отмечалось выше, берется 25 лет на условное поколение, и, соответственно, константы скорости мутации приобретают определенные значения, получаемые по калибровке (см. ниже). Например -

для 12-маркерных гаплотипов константа равна 0.02 мутаций на гаплотип на условное поколение,

для 25-маркерных 0.046 мутаций на гаплотип на условное поколение,

для 37-маркерных – 0.09,

для 67-маркерных – 0.12,

для 111-маркерных – 0.198 мутаций на гаплотип на условное поколение.


Если это пересчитать в расчете не на гаплотип, а на маркер, то получим соответствующие константы скорости 0.00167, 0.00184, 0.00243, 0.00179, 0.00178 мутаций на маркер на условное поколение. Уже видно, что константы скорости разные для разных гаплотипов, и различаются, например, для 37-маркерных и 12-маркерных гаплотипов в 1.46 раз, то есть на 46 %. А если сравнить с 6-маркерными гаплотипами (константа скорости мутации на гаплотип равна 0.0074, на маркер 0.00123), то диапазон различий в константах в зависимости от длины маркера расходится на уже на 1.98, или на 98 %. Вывод – никак нельзя принимать константы скорости мутации на маркер за постоянные величины, одинаковые для всех гаплотипов, как делают в своих расчетах популяционные генетики. 98 % ошибки в расчетах только за это допущение – цена такого неумного (или неквалифицированного, или некомпетентного) предположения. Иначе говоря, иметь часы – дело нехитрое, но надо, чтобы они были отрегулированы. Это означает, что к ним должны прилагаться корректные константы скоростей мутаций, а корректные величины получаются корректной калибровкой.

Подходим к вопросу о калибровке констант скоростей мутаций.

Данные по калибровке были опубликованы в 2011 году в журнале Advances in Anthropology[77], и недавно изложены в популярном виде на Переформате (http://pereformat.ru/2014/11/dna-calibration/). Суть в том, что были взяты генеалогические данные для 13 семей, удовлетворяющие сформулированным жестким критериям. Эти 13 семей (или «Проектов») были отобраны из сотен других, которые были менее многочисленны или датировки которых были менее достоверны, или гаплотипы были короткими, то есть низкого разрешения.

В указанной статье[78] приведены многочисленные графики для гаплотипов разной протяженности, и каждый график иллюстрировал надежность калибровки, доверительные интервалы и прочее. Статья – редкая по глубине обоснований и достоверности полученных данных, результаты калибровок выверены на 3160 гаплотипах из 55 гаплогрупп и субкладов, из них 2489 гаплотипов были 67-маркерными.

Не будем приводить все калибровочные графики, дадим только калибровочную диаграмму для 37- и 67-маркерных гаплотипов. На рис. 12 на горизонтальной оси – число лет до общего предка каждой из документированных ДНК-генеалогических «семей», на вертикальной оси – среднее число мутаций на маркер (поскольку гаплотипы разные – 37- и 67-маркерные) в гаплотипах, принадлежащих этим семьям.


Рис. 12. Калибровочные взаимоотношения между временем, прошедшим от общих предков генеалогических серий гаплотипов в каждой группе («генеалогической семье»), и числом мутаций, накопившхся с того времени, в расчете на маркер в гаплотипах в 37- и 67-маркерном формате. Данные и принцип подхода опубликованы в журнале Advances in Anthropology (2011, Rozhanskii & Klyosov) и приведены в дополненном виде И.Л. Рожанским на Переформате (http://pereformat.ru/2014/11/dna-calibration/).


Видно, что есть четкая линейная зависимость между «возрастом» ДНК-линии и числом мутаций на маркер. Так и должно быть, поскольку мутации в гаплотипах (и маркерах) происходят случайным образом и описываются кинетикой первого порядка. Угол наклона корреляционной прямой для 37-маркерных гаплотипов выше, чем у 67-маркерных, поскольку мутации в 37 маркерах (где большая доля «быстрых» по мутациям маркеров) в совокупности происходят чаще, чем в 67-маркерных (где, напротив, маркеры с 38 до 67-го по порядку содержат высокую долю «медленных» маркеров). Отсюда и получились те константы скоростей мутаций, приведенные выше в данной статье: для 37-маркерных гаплотипов 0.00243 мутаций на маркер (0.09 мутаций на гаплотип) за условное поколение, для 67-маркерных гаплотипов 0.00179 мутаций на маркер (0.12 мутаций на гаплотип) за условное поколение. Для 67-маркерных гаплотипов точность калибровки больше, и соответствует погрешности в определении константы скорости мутаций ±2.5 %[79]. Рассмотрение тех нескольких тысяч гаплотипов, упомянутых выше, из 55 гаплогрупп и субкладов позволило заключить, что использованная калибровка и метод расчета дают точность в определении времени жизни предка с точностью ±10 % или меньше в интервале от 500 до 6000 лет назад.


Вопрос 70: Могло ли быть так, что мутации в ДНК в одном регионе планеты возникали с большей частотой, чем в другой (скажем, в местах, где радиоактивность была выше или по каким-то климатическим причинам и т. п.)?

Нет, не могло, если речь идет об обратимых мутациях в гаплотипах.

Часто слово «мутации» люди понимают ограниченно, как поломка чего-то в живых организмах под влиянием внешних воздействий, обычно радиации. Но в гаплотипах – это не поломка. Это процесс филигранной перестройки, перемещения блоков нуклеотидов в ДНК. Выше в этой книге был уже приведен пример строения маркера DYS393, в котором четверка нуклеотидов AGAT, то есть аденин-гуанин-аденин-тимин, повторяется определенное количество раз. Например, 13 раз, как у большинства носителей разных гаплогрупп:




и эти повторы обрамляются уже неупорядоченными последовательностями нуклеотидов в ДНК, как показано выше. И вот «мутация» приводит к тому, что вместо 13 раз эта четверка стала повторяться у потомков 12 или 14 раз, в результате однократной ошибки копирующей ДНК-полимеразной системы. Ну как радиация это сможет сделать? В любом случае, этого никто не показал, поэтому и вопроса как такового нет. Мы же не спрашиваем, могут ли на скорость мутации повлиять инопланетяне? Спросим, когда к такому вопросу появятся основания. Пока их нет.

Но выше шла речь в основном о мутациях в гаплотипах, с их филигранными перестройками, с вопроизводимыми константами скоростей. А вот в случае снипов картина может быть значительно более сложной и намного менее воспроизводимой. Там мутации не филигранны, там часто просто «поломки», простые превращения одного нуклеотида в другой, делеции (то есть просто выпадения нуклеотидов, иногда сразу нескольких) и прочие повреждения. Вот там внешняя среда может и влиять на мутации и частоту их появления, просто это пока мало изучено. Возможно, это поставит определенные и немалые ограничения для датировок по снип-мутациям. Иногда это видно даже простым глазом – например, выявляются десяток снип-мутаций там, где должны быть просто одна-две, чтобы было соответствие с уже выявленными закономерностями. Поэтому по снип-мутациям ошибки пока очень велики, возможно, такими и останутся.


Вопрос 71: Как производят расчет времен до общего предка серии гаплотипов?

По определению, чтобы рассчитать время до общего предка серии гаплотипов, необходимо, чтобы данная серия происходила от одного общего предка. Другими словами, чтобы современные носители этих гаплотипов все происходили от одного общего предка, в отношении которого производятся расчеты. Это, казалось бы, совершенно очевидное правило, игнорировалось популяционными генетиками на протяжении последних 20 лет, то есть практически всегда.

Давайте посмотрим, к чему это приводило и продолжает приводить попгенетиков.

Начиная с 1997 года время от времени выходят статьи израильских (в основном) популяционных генетиков, которые раз за разом утверждают, что они идентифицировали предковый гаплотип прародителя «ветхозаветных первосвященников», коэнов, который по их расчетам по мутациям в гаплотипах жил по разным расчетам между 3000 и 2600 лет назад. Он якобы имел следующий 6-маркерный гаплотип (маркеры DYS19, DYS388, DYS390, DYS391, DYS392, DYS393), который получил название «модального гаплотипа коэнов» (МГК):


14 16 23 10 11 12


В статье[80] рассматривали 306 гаплотипов евреев из Израиля, Канады и Англии, и нашли 112 вариантов гаплотипов. Из них отобрали те, которые близки к «модальному гаплотипу коэнов», исключили из рассмотрения DYS388, и в оставленных 5-маркерных гаплотипах нашли, что среднее отклонение их от усеченного МГК равно 0.226 мутаций на маркер. Поскольку авторы принимали, что средняя скорость мутаций в этих 5-маркерных гаплотипах равна 0.0021 на маркер на поколение (продолжительность поколения не была определена), то общий предок всех отобранных гаплотипов жил, по мнению авторов, 0.226/0.0021 = 108 поколений назад. У авторов при этом делении получилось 106 поколений назад, но это уже несущественно. Авторы написали, что если брать 25 лет на поколение, то общий предок жил 106х25 = 2650 лет назад, а если брать 30 лет на поколение, то он жил 3180 лет назад. Можно было бы и не упоминать, но со средней скоростью мутаций на маркер в данных гаплотипах авторы тоже ошиблись, она равна 0.00171, а не 0.0021 мутаций на маркер, и общий предок тогда жил якобы 132 поколения, или 3300 лет назад (при 25 годах на поколение) или 3960 лет назад (при 30 годах на поколение). Действительно, можно было бы не упоминать, потому что основная ошибка авторов не в делениях одного на другое, а в том, что ими постулировалось, что все рассматриваемые гаплотипы происходят от одного общего предка, хотя это оказалось, как мы покажем ниже, не так. Авторы по сути просто усреднили «отклонения величины аллелей от средней», а там были гаплотипы по меньшей мере от двух разных предков, один из которых, самый основной по количеству гаплотипов в выборке, жил всего тысячу лет назад. Никаким «ветхозаветным священником» он не был. Авторы на самом деле рассматривали разные ДНК-генеалогические линии, усредняя их, как берут хрестоматийную «среднюю температуру по больнице». Так работает популяционная генетика.

Следующая статья по гаплотипам евреев[81] могла бы прояснить ситуацию, но для попгенетиков не прояснила. В статье были опубликованы 194 гаплотипа в 6-маркерном формате, из которых 91 гаплотип были идентичны друг другу, и соответствовали «модальному гаплотипу коэнов» (см. выше). Авторам должно было быть ясно, что когда половина гаплотипов представляют собой предковый гаплотип, то предок явно не древний, и не мог жить больше 3 тыс лет назад, раз половина гаплотипов не успела мутировать. Но ясно бывает тогда, когда есть соответствующие знания, «ощущение ситуации». У авторов этого, очевидно, не было. А в другой половине (точнее, в 103 гаплотипах из 194) имелось 263 мутаций от «модального гаплотипа коэнов». Если бездумно разделить общее число мутаций на общее число гаплотипов и на константу скорости мутации 0.0074 на 6-маркерный гаплотип на поколение, 263/194/0.0074, то получим 183 ^224 условных поколений (стрелка показывает поправку на возвратные мутации), или 5600±660 лет до общего предка «гаплотипов коэнов». Это неразумно высокая величина, намного превышающяя времени жизни библейского Аарона по любым библейским интерпретациям, который по толкованию Библии жил примерно 3600 лет назад, но это все «лирика». Проблема в том, что так вести расчеты, постулируя, что гаплотипы происходят от одного общего предка, вообще нельзя. Вот как выглядит ДНК-генеалогическое дерево этих 194 гаплотипов (рис 13.).

На дереве видны многочисленные ветви, в каждой из которых – свой общий предок. Нет и не может быть в такой ситуации некоего «одного общего предка», ветви нужно анализировать раздельно. Как было показано в наших работах, серия идентичных гаплотипов, идущих по кругу выше, имеют общего предка, который жил 1075±130 лет назад («академическая выборка») или 1050±190 лет назад («коммерческая выборка», то есть по коммерческим базам данных), что практически одно и то же, и разница между ними заметно проявляется уже в 67-маркерном формате гаплотипов.

Какой вывод из этого следует? Тот, что нельзя проводить расчеты по сериям гаплотипов «чохом», без разделения их на ветви. Нет ничего проще, чем выписать гаплотипы в серию, посчитать в них мутации от чего-то среднего, или от какого-то заранее заданного «предкового» гаплотипа, и разделить число мутаций на число гаплотипов и на скорость мутаций, которая нравится, или почему-то принимается. Какое-то число при этом всегда получится. Но это будет, как правило, мусор, с претензией на «научность». Популяционные генетики заполняют подобным мусором академические журналы на протяжении последних 20 лет. Никакого смысла в этих «расчетах» нет.


Рис. 13. Дерево 6-маркерных гаплотипов евреев гаплогруппы J, построено по данным Behar et al. (2003). В выборке – 194 гаплотипа.


Но как узнать, рассматриваемая серия гаплотипов «однородная», от одного общего предка, или разнородная, от разных общих предков, и дальнейшие расчеты в таком виде бессмысленны? Это – важный, и даже важнейший вопрос, который в ДНК-генеалогии решается двумя путями – графическим и аналитическим. Графический метод – это постройка дерева гаплотипов и его рассмотрение, симметричное ли дерево, или состоит из различных ветвей. Если симметричное (примеры даны ниже), то можно применять простые метода расчета, как линейный или с помощью калькулятора Килина-Клёсова. Если дерево состоит из четко разделяющихся ветвей, как на рис. 13, то расчеты (линейный или калькуляторный) следует проводить по каждой ветви раздельно.

Аналитический метод – это применение логарифмического метода анализа гаплотипов, и полученный результат (число лет до общего предка) сравнивается с результатом линейного расчетного метода, применяемого «чохом», ко всей серии гаплотипов. Если результаты различаются (пример дан ниже), то серия гаплотипов неоднородна, и надо переходить к графическому методу разделения ветвей, как описано выше.

Например, в ситуации с 194 гаплотипами евреев гаплогруппы J (рис. 13), линейный метод («чохом») дает 263/194/0.0074, и получается 5600±660 лет до общего предка «гаплотипов коэнов». Логарифмический метод дает [ln(194/91)/0.0074] = 102 → 114 условных поколений, или 2850±410 лет до общего предка. Результаты совершенно разные, значит, ни тот ни другой метод не подходят. Собственно, это и показывает рис. 13.

Вот этого попгенетики никогда не могли усвоить.


Вопрос 72: Можно несколько подробнее о линейном методе расчета?

Как было неоднократно объяснено выше, линейный метод – самый простой при вычислении времени, прошедшего от общего предка данной серии гаплотипов. Поскольку чем больше это время, тем больше мутаций накопилось в гаплотипах потомков общего предка, и мутации в гаплотипах накапливаются в основном неупорядоченно, то к расчетам применима простая формула:


n/N = kt,


где n – число мутаций в серии гаплотипов, N – число гаплотипов в серии, k – константа скорости мутации, t – время до ближайшего общего предка.

Пояснения: (1) число мутаций считается от базового гаплотипа, который или является предковым, или максимально к нему приближен, насколько позволяет подборка гаплотипов, (2) отношение числа мутаций к числу гаплотипов определяет произведение kt, которое выражается в числе мутаций; как видно, константа в таких формулах всегда связана со временем до общего предка, (3) время до общего предка обычно определяют в условных поколениях протяженностью 25 лет, и тогда константа скорости мутациях определяется в числе мутаций на условное поколение протяженностью в 25 лет. Как видно, извечный вопрос попгенетиков о том, какую протяженность поколения использовать в расчетах, лишен смысла, поскольку какую протяженность мы бы ни брали, она входит в величину константы скорости мутаций, и итоговая величина kt остается той же, равной отношению n/N. А это – независимая переменная, она задается серией гаплотипов, то есть независимой выборкой. «Независимой» здесь означает, что гаплотипы для выборки не подбираются по усмотрению исследователя, они выбираются неупорядоченно.

Пример: имеются 275 111-маркерных гаплотипов гаплогруппы N1C1. В них суммарно имеются 6270 мутаций. Общий предок жил 6270/275/0.198 = 115 → 130 условных поколения, или 3250±330 лет назад (округленно). Калькулятор Килина-Клёсова дал 3233±326 лет назад.

Поправка на возвратные мутации производится или по специальным таблицам[82], [83], или по формуле, приведенной в этой книге выше[84].


Вопрос 73: Можно подробнее о квадратичном (пермутационном) методе, и расчете погрешностей при его использовании?

Квадратичный метод, в отличие от линейного, есть в двух основных вариантах – с использованием базового гаплотипа и без ориентации на базовый гаплотип. В первом случае считаются не мутации от базового гаплотипа, а квадраты мутаций. Например, в серии из трех 12-маркерных гаплотипов


13 24 16 10 11 15 12 12 10 13 11 30

13 25 16 11 11 15 12 12 10 13 11 30

13 24 16 11 11 15 12 12 11 13 11 30


с базовым гаплотипом


13 24 16 11 11 15 12 12 10 13 11 30


и тремя мутациями от базового гаплотипа (выделены), линейный метод дает 3/3/0.02 = 50 → 53 условных поколения, то есть 1325±780 лет до общего предка. Столь большая погрешность вызвана малым числом гаплотипов в серии, причем гаплотипов коротких, и малым числом мутаций. Напомню, что расчет погрешности в данном случае проводится извлечением квадратного корня из трех (мутаций), что дает 1.732, далее его обратной величины (1/1.732 = 0.577), возведением ее в квадрат (0.5772 = 0.333), прибавлением 0.01 (это – квадрат принятой погрешности величины константы скорости мутации, которая принимается равной ±10 %, то есть ±0.1), что дает 0.343, и, наконец, извлечением квадратного корня из последней величины, что дает 0.586 (то есть ±58.6 %). Это и есть величина погрешности определения времени до общего предка при трех мутациях в серии гаплотипов. При величине 1325 лет погрешность равна 1325x0.586, то есть ±780 лет.

Надо сказать, что в описанном (упрощенном) варианте есть много допущений. Допущения есть всегда, в любом варианте расчета погрешностей. Например, в данном случае мы принимаем, что погрешность определения константы скорости мутации в 12-маркерных гаплотипах (ее величина равна 0.02 мутаций на гаплотип на условное поколение) составляет ±10 %. Это – эмпирическая величина, полученная при изучении серии данных документальной генеалогии. Такую же погрешность мы принимаем и в случае 67-маркерных гаплотипов, хотя сопоставление ДНК-генеалогических данных с многочисленными данными документальной генеалогии показало, что реальная погрешность равна ±3 %, и в этом случае в примере выше к величине 0.333 следует прибавлять не 0.01, а 0.0009, и итоговая погрешность получится не ±58.6 %, а 57.8 %, что практически одно и то же. Это получается, потому что при всего трех мутациях именно столь малое их число практически полностью определяет погрешность времени до общего предка серии гаплотипов. Только при большом числе гаплотипов и большом числе мутаций общую погрешность начинает определять погрешность определения константы скорости мутаций. Например, при 1000 мутаций в серии гаплотипов погрешность вычисляется, как описано выше, извлечением квадратного корня из 1000 (мутаций), что дает 31.62, далее его обратной величины (0.0316), возведением ее в квадрат (0.001), прибавлением 0.01 (при 10 % погрешности величины константы скорости мутации), что дает 0.011, и, наконец, извлечением квадратного корня из последней величины, что дает 0.105 (то есть ±10.5 %). Это и есть величина погрешности определения времени до общего предка при 1000 мутациях в серии гаплотипов. При величине 1325 лет погрешность тогда равна 1325±140 лет. А если погрешность константы скорости мутаций равна ±3 %, то к величине 0.001 (после возведения в квадрат) следует прибавить не 0.01, а 0.0009, и итоговая погрешность получится не 10.5 %, а 4.4 %, или 1324±60 лет до общего предка.

Но мы предпочитаем иметь преувеличенную погрешность, чем даже реальную, потому что это повышает доверие к получаемым результатам. Бывает, что число мутаций в реальных генеалогиях по разным причинам оказывается заниженным или завышенным по сравнению со средними величинами, и расчетная величина вылетает за пределы указанных погрешностей, вызывая недоверие и претензии к расчетам. Пусть лучше мы перестрахуемся и дадим завышенные погрешности.

Возвращаемся к квадратичным методам расчетов. В данном случае базовый гаплотип не рассматривается, и производится расчет разницы в аллелях «всех между всеми». В случае приведенных выше трех 12-маркерных гаплотипов с тремя мутациями сумма квадратов их попарных отклонений друг от друга (в мутированных маркерах) равна 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 = 12, деленная на 2, поскольку в каждом маркере число квадратов мутаций считалось дважды, деленное на число маркеров в гаплотипе (12) и на квадрат числа гаплотипов (9), и, наконец, на величину константы скорости мутации на маркер для 12-маркерных гаплотипов (0.00167). Получаем 12/2/12/9/0.00167 = 33 условных поколений, то есть 825±480 лет до общего предка. В квадратичных методах расчетов поправка на возвратные мутации не вводится, она уже учтена самим методом расчета.

Как видим, мы имеем некоторую проблему. Линейный метод показал для этих трех гаплотипов с тремя мутациями 1325±780 лет до общего предка, квадратичный метод – 825±480 лет до общего предка. В принципе, обе величины находятся в пределах погрешности расчетов, но утешение от этого малое. Причина проста – три мутации на трех гаплотипах – это не статистика. Методы, описанные выше, базируются на статистическом распределении аллелей и мутаций в гаплотипах. Аналогия – если вы бросите монету три раза, или четыре для четности, то вероятность получения 50 %-ного выпадения орла и решки будет малой. Давайте попробуем для иллюстрации. Буду использовать компьютерные «броски» для объективности. Итак,

– первая четверка бросков, все четыре орла

– вторая попытка, решка и три орла

– третья попытка, решка и три орла

– четвертая попытка, три решки и орел

– пятая попытка, решка и три орла

– шестая попытка, две решки и два орла

– седьмая попытка, три решки и орел

– восьмая попытка, две решки и два орла

– девятая попытка, три решки и орел

– десятая попытка, решка и три орла

Результат налицо – из десятка попыток по четыре броска, только два раза выпали две решки и два орла. В целом же из сорока бросков 17 раз выпала решка, и 23 раза орел. Ну как, будем считать вероятность выпадания того или другого? Или здравый смысл остановит такие расчеты? Кстати, с доверительным интервалом в две сигма (95 %) решка и орел выпадут из сорока бросков 20±6 раз для решки, и 20±6 раз для орла, так что никакого противоречия у нашего опыта со статистикой нет. А из четырех бросков получится 2±2 для решки и 2±2 раза для орла. Тоже все в порядке, никаких неожиданностей.

А люди берут три-четыре коротких гаплотипа, а то и два, и удивляются, почему результаты «бегают по всему полю».


Вопрос 74: Автоматический калькулятор Килина-Клёсова

Давайте теперь проверим, какой результат ближе к реальности в случае трех коротких гаплотипов, рассмотренных выше – расчет по линейному методу (1325±780 лет до общего предка) или квадратичному (825±480 лет до общего предка). Кликаем на линк, ведущий к калькулятору Килина-Клёсова[85] на сайте http://dna-academy.ru/kilm-klyosov/, вводим все три серии аллелей под соответствующими маркерами, и через долю секунды получаем результат – 1304±764 лет до общего предка линейным методом и 863±456 лет – квадратичным.

Мы видим, что при столь малом числе гаплотипов и мутаций датировки нестабильны. Но в такой ситуации я бы рекомендовал склоняться к линейному методу, поскольку расчет по трем аллелям, пусть и для 12 маркеров, вряд ли является удовлетворительным. Но еще лучше – просто давать обе датировки, поясняя, какая получена каким методом.


Рис. 14. Расчет времени до общего предка для демонстрационной серии из трех гаплотипов в 12-маркерном формате на калькуляторе Килина-Клёсова. Соответствующие колонки показывают 1304±764 лет до общего предка для линейного метода, и 863±456 лет для квадратичного метода, что, впрочем, совпадает в пределах погрешности расчетов. Остальными колонками следует пренебречь.


Как работает калькулятор Килина-Клёсова? Он многофункциональный, и здесь нет возможности объяснять все его функции, кроме основной – быстро производить расчеты по гаплотипам от любых коротких (вплоть до единичных, отдельных маркеров) до 111-маркерных, в количествах до 10 тысяч гаплотипов. Калькулятор моментально, в ходе расчетов, определяет степень диперсии аллелей по каждому маркеру, и показывает ее количественную величину. Можно выставлять пороговую величину степени дисперсии, тогда калькулятор выбрасывает соответствующие маркеры из расчетов. Это особенно полезно, когда серия гаплотипов содержит включения посторонних гаплотипов, или нижестоящих субкладов, у которых некоторые маркеры имеют другие значения, чем у основной серии. Например, в серии гаплотипов гаплогруппы R1a значение маркера DYS392 обычно имеет величину 11, а в отдельной ветви «Старая европейская ветвь» это значение равно в основном (или исключительно) 13. Калькулятор «знает», что маркер DYS392 настолько «медленный» (константа скорости мутации равна 0.0004 мутаций на маркер на условное поколение), что, например, для тысячи гаплотипов в среднем должно наблюдаться примерно 40 мутаций за сто условных поколений, потому что 40/1000/0.0004 =100 условных поколений. При увеличении количества аллелей DYS393=13 в серии гаплотипов, дисперсия возрастает и в итоге превышает граничную величину 2.6, обычно используемую при расчетах. При величине 2.61 маркер блокируется, оставляя все остальные – незаблокированные – функциональными. Если в рассматриваемой серии гаплотипов блокируются сразу несколько маркеров, то это указание на то, что что-то с выборкой не так.

Поправка на возвратные мутации в калькуляторе не вводится, она уже заложена в самом калькуляторе, как для линейного метода, так и квадратичного. Калькулятор на 111 маркеров может использоваться для расчетов гаплотипов в любом формате, включая 67-маркерные, но для удобства нами создана серия калькуляторов для 17-маркерных и для самых медленных, 22-маркерных гаплотипов.

Калькулятор может быть использован для комбинаций серий гаплотипов для любых форматов. Это возможно потому, что в квадратичном методе он считает «по вертикали», по маркерам, а в линейном – «по горизонтали», по гаплотипам.


Вопрос 75: Поясните, пожалуйста, суть логарифмического метода в ДНК-генеалогии.

Логарифмический метод – самый простой в исполнении. Несколько примеров расчетов логарифмическим методом были даны выше. Суть его заключается в том, что для серии гаплотипов берется отношение общего числа гаплотипов в серии к числу идентичных (базовых) гаплотипов в той же серии, далее берется натуральный логарифм этого отношения, и делится на константу скорости мутации в данном гаплотипе. После этого вводится поправка на возвратные мутации, поскольку они возвращают мутированные гаплотипы обратно в исходные немутированные, и тем самым занижают датировку времени жизни общего предка. Поправка на возвратные мутации рссчитывается исходя из числа базовых гаплотипов в серии.

Чем больше по численности серия гаплотипов, происходящих от одного предка, тем расчет времени до этого предка точнее. И тем больше экономия времени при расчетах, поскольку логарифмический метод не требует подсчета числа мутаций в гаплотипах. Например, если серия из сотни гаплотипов, скажем, 37-маркерных, содержит четыре одинаковых (то есть базовых) гаплотипа, то даже и без подсчета мутаций в гаплотипах можно сразу сказать, что общий предок этих ста гаплотипов жил 925±105 лет назад, потому что натуральный логарифм отношения 100/4, поделенный на константу скорости мутации для 37-маркерных гаплотипов (0.09 мутаций на гаплотип на условное поколение в 25 лет) равен 36 → 37 условных поколений, то есть общий предок этой сотни гаплотипов жил примерно 925 лет назад. Поскольку для четырех базовых гаплотипов погрешность расчетов составляет ±51 % (как это расчитывается – приводилось выше на примере четырех мутаций в серии гаплотипов), то общий предок для данной серии из ста гаплотипов жил 925±470 лет назад. Но, как уже обсуждалось выше, в любом случае, в том числе и в искаженных, неоднородных сериях, почти всегда можно найти одинаковые гаплотипы, и деление общего числа гаплотипов на случайное количество одинаковых гаплотипов всегда даст какое-то число, часто не имеющее отношения к числу лет или поколений до общего предка. Поэтому необходим критерий, что расчетные величины времен до общего предка действительно имеют смысл, и что серия гаплотипов действительно происходит от одного общего предка.

Этим критерием является совпадение (в пределах погрешности расчетов) времени до общего предка, рассчитанное как линейным (или квадратичным), так и логарифмическим методами. Например, если число мутаций во всех ста 37-маркерных гаплотипах будет равно, например, 324 (или близко к тому), тогда 324/100/0.09 = 36 → 37 условных поколений, то есть ровно тот же промежуток времени до общего предка. Совпадение времен до общего предка для «логарифмического» и «линейного» метода (в первом мутации не считаются, во втором считаются) свидетельствует, что закономерности образования мутаций в гаплотипах следуют кинетике первого порядка, что в свою очередь означает, что все сто гаплотипов действительно произошли от одного прямого общего предка. Популяционная генетика такими подходами не пользуется, они ей чужды по ряду причин, как обсуждалось выше.

Конец ознакомительного фрагмента.