Скільки у нас генів?
Фото: Estes Bob (flickr.com)
- «Геном людини» завершено, пошук генів триває
- Не тільки білки
- Назва
- Функції
- Нове секвенування і бази даних
- Типи генів
- CHESS
Після того як вчені отримали основну інформацію про геном людини, вони спробували визначити число генів, але це завдання виявилося непростим. Точне число невідоме досі, і все ж оцінки стають все більш достовірними.
«Геном людини» завершено, пошук генів триває
У 1977 році Фредерік Сенгер розробив метод визначення нуклеотидної послідовності ДНК (секвенування), який використовується і донині (див. «Хімію і життя» № 8, 2018). У 1995 році був розшифрований перший геном бактерії Haemophilis influenza, в 1996 році — геном еукаріотичної клітини (дріжджів Saccharomyces cerevisiae), а в 1998 році — геном нематоди Caenorhabditis elegans.
Звичайно, на рубежі тисячоліть всі з нетерпінням чекали результатів проекту «Геном людини», який тривав з 1990 по 2003 рік. Його завданням було визначення нуклеотидної послідовності ДНК людини і — головне! — локалізація людських генів (спочатку передбачалося, що їх близько 100 000). Біомедична наука ось-ось мала отримати безцінний інструмент: повний список генів, необхідних для розшифровки молекулярних механізмів виникнення та розвитку важких хвороб — раку, шизофренії, деменції та багатьох інших. Про підготовку «чорнової» версії геному людини урочисто оголосили влітку 2000 року, опублікована вона була в 2001-му. «Геном людини» офіційно завершив свою роботу 2003 року і 27 травня 2004 року опублікував повну послідовність геному.
«Повною» її можна було назвати з деякими застереженнями. Перш за все, секвенувалася тільки ДНК у складі еухроматину, тобто така ДНК, яка між ділами клітини перебуває в нещільно упакованому стані. Приблизно 8% людського геному — це гетерохроматин, компактно укладена ДНК, вона припадає в основному на райони центромер і теломер (тобто кінців хромосом і ділянок, до яких прикріплюються нитки веретена ділення). З іншого боку, ці 8% ДНК і менш цікаві, ніж інші 92, оскільки вони вкрай слабо транскрибуються, тобто містять відносно мало генів. (Нагадаємо, що транскрипція — це синтез РНК на матриці ДНК, а що далі відбувається з РНК, розберемо трохи пізніше.) До того ж вони багаті повторами, що ускладнює збирання безперервної послідовності з прочитаних фрагментів. «Білі плями» в геномі людини продовжують заповнювати досі: на початок 2019 року розривів все ще більше 500, і в основному це ті ж центромірні і кінцеві області хромосом. Ті, кому цікаво, як просувається справа, можуть стежити за процесом у Мережі, на сайті міжнародної організації, яка займається еталонними геномами, — Genome Reference Consortium.
Вважалося, що секвенування геному людини дозволить визначити локалізацію кожного гена і їх загальну кількість. Однак сьогодні існує кілька баз даних генів, які значною мірою відрізняються один від одного.
З генами, які кодують білки, вдалося досягти певної ясності. Їх виявилося набагато менше 100 000. У 2010 році з ініціативи Організації з вивчення протеома людини (HUPO — Human Proteome Organization) запущено однойменний проект — «Протеом людини», який повинен скласти повний список людських білків.
Які факти дозволяють стверджувати, що певна ділянка геному — це ген білка? Можливо, у нас є білок, послідовність амінокислот в якому відповідає послідовності нуклеотидних триплетів в цій ділянці, і (або) є інші докази. Наприклад, відома матрична РНК (мРНК) — молекула РНК, яка синтезується в ході транскрипції на матриці ДНК і, в свою чергу, стає матрицею для білка. До речі, одна і та ж мРНК може кодувати кілька білків за рахунок альтернативного сплайсингу — різних варіантів зшивання її кодуючих ділянок. Взагалі, білків у людини більше, ніж білок-кодуючих генів. В рамках проекту «Протеом людини» передбачається ідентифікувати і охарактеризувати не менше одного білка, що зчитується з кожного гена, описати однонуклеотидні поліморфізми (відмінності в одну «букву») в цих генах, а також варіанти сплайсингу мРНК і посттрансляційної модифікації білків.
Однак є й інші способи. Зараз досить багато відомо про те, якими ознаками повинні володіти гени білка, і існують програми, які шукають їх in silico — в комп’ютері, за допомогою аналізу геному. Підказкою може служити і те, що гени різних видів еукаріот в силу спільності еволюційного походження схожі між собою (гомологічні), і якщо ми бачимо послідовність, яка у іншої живої істоти кодувала білок, — можливо, вона кодує білок і у людини.
Дані, отримані в рамках проекту «Протеом людини», представлені в анотованих базах знань, таких як neXtProt. Білки діляться на п’ять груп, за достовірністю наших відомостей про їх існування — PE1, 2, 3, 4, 5 (PE означає protein existence). У березні 2019 року neXtProt містила інформацію про 17694 білки, існування яких експериментально підтверджено, 1548 білках, для яких відомі мРНК, 510 — визначених на підставі гомології з іншими білками, 71 білці, передбаченому за послідовністю ДНК, без інших доказів, і 576 сумнівних білках, щодо яких незрозуміло, існують вони чи ні.
Особливий інтерес викликають білки, чиє існування експериментально не доведено, — так звані втрачені (missing) білки. До цієї категорії відносять всі перераховані вище групи, крім першої або першої і останньої. Для виявлення та характеристики таких білків створений ресурс MissingProteinPedia.
Не тільки білки
Але білками все не вичерпується. Проект «Геном людини» показав, що крім матричних, транспортних і рибосомних РНК існує ще безліч типів РНК, не менш важливих для життя.
Поки головним у картині світу був білок, увагу дослідників було сконцентровано на мРНК, тРНК і рРНК, які обслуговують білковий синтез. Тепер в центрі уваги «темна матерія» регуляторних РНК, безліч різноманітних молекул, без яких білок-кодуючі гени не могли б працювати як належить
РНК підрозділюються на некодуючі РНК (нкРНК), які не транслюються в білки, і кодуючі, або матричні РНК (мРНК), службовці матрицею для синтезу білків. У некодуючих РНК більш складна класифікація. Вони бувають інфраструктурними і регуляторними. Інфраструктурні РНК відомі нам зі шкільних підручників — це рибосомні РНК (рРНК) і транспортні РНК (тРНК). Молекули рРНК становлять основу рибосоми — молекулярної машини, яка і будує білок на матричній РНК (проводить трансляцію). Послідовність з трьох нуклеотидів у мРНК вказує, яку амінокислоту слід включити в білок. Молекули тРНК приносять зазначені амінокислоти на рибосоми в ході трансляції.
Регуляторні нкРНК дуже широко представлені в організмі, класифікуються залежно від розміру і виконують важливі функції (див. таблицю 1). У порівнянні з генами білків, довжина яких зазвичай вимірюється в кілобазах — тисячах пар нуклеотидів, а точніше, в десятках і сотнях тисяч пар, вони зовсім маленькі (що не полегшує пошук їх генів). Но рычажку «вкл. — выкл» и не надо быть большим.
Таблиця 1. Некодіючі регуляторні РНК
Назва | Довжина | Функції |
Довгі некодуючі РНК (днкРНК, lncRNA) | 200 | 1. регулюють виборче метилування DNK |
Малі РНК | ||
Малі ядерні РНК (м’яРНК, snRNA) | 150 | 1. Беруть участь у сплайсінге2 |
Малі ядришкові РНК (мякРНК, snoRNA) | 60–300 | 1. беруть участь у хімічній модифікації рРНК, тРНК і м’яРНК2 |
Малі інтерферуючі РНК (міРНК, siRNA) | 21–22 | 1. Забезпечують антивірусну імунну ^ іту2 |
МікроРНК (мкРНК, miRNA) | 18–25 | Придушують трансляцію шляхом РНК-інтерференції |
Антисмислові РНК (asRNA) | 1. Короткі: менш ніж 200 | Блокують трансляцію, утворюючи гібриди з мРНК |
РНК, пов’язані з білками Piwi (piRNA, piwiRNA) | 26–32 | Їх називають «вартовими геному», вони пригнічують активність мобільних генетичних елементів під час ембріогенезу |
Таким чином, перш ніж відповісти на питання: «Скільки у нас генів?», необхідно зрозуміти, що «ген» може кодувати не тільки білок. Власне, це ясно вже давно. Основна увага проекту «Геном людини» була спрямована на білок-кодуючі гени. Однак уже в першій доповіді про геном, опублікованій 2001 року, сказано, що «тисячі генів людини продукують некодуючі РНК (нкРНК), які є їхнім кінцевим продуктом», хоча на той момент було відомо лише близько 706 генів нкРНК.
Стівен Зальцберг з Університету Джонса Гопкінса у своїй статті, присвяченій якраз проблемі підрахунку людських генів, дає наступне визначення: «Ген — будь-яка ділянка хромосомної ДНК, яка транскрибується у функціональну молекулу РНК або спочатку транскрибується в РНК, а потім транслюється у функціональний білок». Це визначення включає як гени некодуючих РНК, так і білок-кодуючі гени, але виключає псевдогени — нефункціональні залишки структурних генів, що втратили здатність кодувати білок.
Публікація проекту «Геном людини» 2001 року оцінила кількість білок-кодуючих генів у 31 000, а група під керівництвом Крейга Вентера (яка успішно змагалася з міжнародним проектом), назвала «точне» число 26 588. У 2004 році, після завершення офіційного проекту передбачуване число білок-кодуючих генів знизилося до 24 000. Каталог людських генів Ensembl (версія 34d) на той момент включав 22 287 білок-кодуючих генів і 34 214 транскриптів. Швидше за все, ми не помилимося, якщо скажемо, що генів, які кодують білки, у людини близько 20 000 або трохи більше. Але що з генами РНК?
Нове секвенування і бази даних
Досліджувати різноманіття РНК не так просто з багатьох причин, від їх високої лабільності до малих розмірів. Однак поява високопродуктивних методів паралельного секвенування (коли мільйони фрагментів ДНК з одного зразка читаються одночасно), воно ж секвенування нового покоління (next-generation sequencing, NGS), значно прискорило пошук функціональних ділянок геному.
Різні платформи для NGS дозволяють читати від мільйона до десятків мільярдів коротких послідовностей (відсеквеновані «за один прохід» ділянки називають рідами, від англійського read) довжиною 50-600 нуклеотидів кожна. До найбільш популярних платформ належать Illumina і IonTorrent, і все більше уваги привертають до себе платформи для секвенування поодиноких молекул — Pacific Biosciences, нанопорове секвенування Oxford Nanopore, Helicos Biosciences HeliScope (компанія Helicos). Останнім не потрібно напрацьовувати багато копій ДНК для секвенування — вони дійсно працюють з окремими молекулами! Інший їх важливий плюс в тому, що вони дозволяють прочитувати значно довші риди, до 10-60 тисяч нуклеотидів. Саме завдяки цій якості, наприклад, метод нанопорового секвенування з успіхом застосували для секвенування багатої повторами центромірної ділянки Y-хромосоми людини.
Крім того, з’явилися методи секвенування РНК — спочатку через створення ДНК-копій, а потім і прямі. Спочатку вони створювалися для кількісного визначення експресії генів, але також сприяли виявленню раніше не відомих РНК, як кодуючих, так і не кодуючих.
Завдяки методам NGS бази даних генів lncRNA та інших РНК всього за десятиліття різко зросли, і каталоги генів людини тепер містять більше генів РНК, ніж генів білків. Крім того, секвенування РНК дозволило встановити, що альтернативний сплайсинг, альтернативне ініціювання транскрипції та альтернативне переривання транскрипції відбуваються набагато частіше, ніж вважали, і зачіпають до 95% людських генів. Отже, навіть коли ми дізнаємося місце розташування всіх генів у геномі, потрібно буде виявити всі ізоформи цих генів, а також визначити, чи виконують ці ізоформи які-небудь функції або просто являють собою помилки сплайсингу.
Завдання по складанню каталогу всіх генів як і раніше не вирішене. В останні 15 років тільки дві дослідницькі групи складають, коригують і поповнюють список генів: RefSeq и Ensembl / Gencode. Перша підтримується Національним центром біотехнологічної інформації при Національних інститутах охорони здоров’я США, друга — Європейською молекулярно-біологічною лабораторією. До речі, Gencode — підпроект консорціуму ENCODE, «масштабної наукової експедиції в пустелі геному, що не кодує білки» (див. «Хімію і життя» № 10, 2012). У цих каталогах є сотні відмінностей по білок-кодуючих генах, тисячі — по генах довгих некодуючих РНК; є суттєві розбіжності і в інших групах (див. таблицю 2).
Таблиця 2. Кількість різних типів генів у базах даних Gencode, RefSeq, CHESS
Типи генів | Gencode | RefSeq | CHESS |
Білок-кодуючі гени | 19 901 | 20 345 | 21 306 |
Гени довгих некодуючих РНК | 15 779 | 17 712 | 18 484 |
Антисмислові РНК | 5501 | 28 | 2694 |
Інші некодіючі РНК | 2213 | 13 899 | 4347 |
Псевдогени | 14 723 | 15 952 | — |
Загальна кількість транскриптів (видів РНК) | 203 835 | 154 484 | 323 827 |
По: BMC Biology, 2018, 16:94
У 2017 році співробітники Університету Джонса Хопкінса під керівництвом Стівена Зальцберга створили ще одну базу даних генів людини — CHESS. Вони використовували дані глибокого секвенування РНК, щоб заново отримати інформацію про всі продукти транскрипції в різноманітних тканинах людського організму, і відзначають, що істотно поповнили списки генів. Примітно, що нова база включає всі білок-кодуючі гени як Gencode, так і RefSeq, тому користувачам CHESS не потрібно вирішувати, яку базу даних вони воліють. Творці CHESS відзначають, що більш велика база з більшою ймовірністю містить послідовності, помилково віднесені до генів, але краще потім видалити таку послідовність, ніж пропустити існуючий ген.
Отже, все ще невідомо, скільки всього генів у людини. Існують проблеми, що ускладнюють отримання точної відповіді. Наприклад, багато генів (особливо гени lncRNA), мабуть, мають високу тканеспецифічність. У всіх клітинах один і той же геном, проте в різних тканинах транскрибуються різні гени, не тільки білків, але і регуляторних РНК. А значить, поки вчені докладно не досліджують всі типи клітин людини, вони не можуть бути впевнені, що виявили всі людські гени. І все ж сьогодні знання про людські гени значно більші, ніж на початку проекту «Геном людини», а технології досконаліші. Це дає надію на те, що незабаром ми дізнаємося точну відповідь на поставлене питання. А поки обмежимося приблизними даними: трохи більше 20 тисяч генів білків, а разом з генами РНК — можливо, 200-300 тисяч, але, може бути, і менше.
- Попередня
- Наступна