Gen là đơn vị vật chất có chức năng di truyền. Gen chứa đựng những thông tin cần thiết trong việc hình thành, phát triển và hoạt động của một cá thể. Mỗi gen gồm 2 bản sao, một của cha và một của mẹ. Tuy nhiên không phải ai cũng hiễu rõ gen là gì, bài viết sau của Vinalab sẽ giúp các bạn hiểu được phần nào về khái niệm “Gen”.
Gen là một đoạn xác định của phân tử acid nucleic có chức năng di truyền nhất định. Trong hầu hết các trường hợp, phân tử acid nucleic này là DNA, rất ít khi là RNA (trường hợp gen là RNA hiện mới chỉ phát hiện ở một số virut).
Gen là gì?
Thuật ngữ này dịch theo phiên âm kết hợp Việt hoá từ tiếng Anh “gen”, cũng như từ tiếng Pháp “gène” (phát âm Quốc tế đều là /jēn/). Trong sinh học phổ thông cũng viết là gen (đọc là gien hoặc zen). Gen có thể tạo ra sản phẩm của nó, gọi là sản phẩm của gen.
Thuật ngữ "gen" đóng vai trò cơ bản thiết yếu và quan trọng hàng đầu trong di truyền học. Nội hàm của thuật ngữ "gen" đã thay đổi nhiều kể từ khi di truyền học (gentics - tức khoa học về gen) ra đời (từ năm 1900) cho đến thế kỷ XIX hiện nay. Trong sinh học phân tử hiện đại cũng như di truyền học phân tử hiện đại, tính từ đầu năm 2000 đến nay, đã có ít nhất 6 định nghĩa mới về gen. Bài viết này mới chỉ đề cập đến nội hàm của thuật ngữ gen ở thời kỳ mà nhiều nhà nghiên cứu lịch sử di truyền học gọi là "thời kỳ tân cổ điển" của di truyền học (khoảng từ những năm 1940 đến những năm 1970) và ít nhiều đề cập tới nội hàm tương đối mới đến những năm 1980.
Trong quá trình biểu hiện gen, trước tiên DNA được sao chép sang RNA. Phân tử RNA hoặc là có chức năng biệt hóa trực tiếp hoặc làm khuôn mẫu trung gian để tổng hợp nên protein thực hiện một chức năng nào đó. Sự chuyển giao gen đến các sinh vật thế hệ con cháu là cơ sở của tính thừa kế các tính trạng kiểu hình. Các gen tạo thành từ các trình tự DNA khác nhau gọi là kiểu gen. Kiểu gen cùng với các yếu tố môi trường và phát triển xác định lên tính trạng kiểu hình. Đa số các tính trạng sinh học chịu ảnh hưởng bởi nhiều gen (polygen, tức một tính trạng do nhiều gen khác nhau quyết định gọi là tương tác gen) cũng như tương tác giữa gen với môi trường. Một số tính trạng di truyền có thể trông thấy ngay lập tức, ví như màu mắt hoặc số chi và một số khác thì không, như nhóm máu, nguy cơ mắc các bệnh, hoặc hàng nghìn quá trình sinh hóa cơ bản cấu thành sự sống.
Gen có thể thu nạp các đột biến sinh học nằm trong trình tự của chúng, dẫn đến những biến thể, gọi là các allele, trong quần thể. Các allele này mã hóa một số phiên bản hơi khác nhau của cùng một protein, làm biểu hiện tính trạng kiểu hình khác nhau. Việc sử dụng thuật ngữ “gen” (ví dụ như "các gen tốt," "gen màu tóc") thông thường nhắc tới việc bao gồm một allele khác nữa của cùng chung một gen.
Khái niệm gen liên tục được tinh chỉnh để cho phù hợp với những hiện tượng mới khám phá gần đây. Ví dụ, các vùng quy định của một gen có thể nằm rất xa các vùng mã hóa của nó và các vùng mã hóa này có thể xen kẽ bởi các đoạn exon. Một số virus lưu trữ bộ gen của chúng trong RNA thay vì ở DNA và một số sản phẩm gen là những RNA không mã hóa có chức năng chuyên biệt. Do đó, theo nghĩa rộng, định nghĩa khoa học hiện đại về gen là bất cứ đoạn locus di truyền được, đoạn trình tự trong bộ gen ảnh hưởng tới các tính trạng của sinh vật được biểu hiện thành sản phẩm chức năng hoặc tham gia quy định biểu hiện gen.
Thuật ngữ gen do nhà thực vật học, sinh lý học thực vật và di truyền học người Đan Mạch Wilhelm Johannsen giới thiệu năm 1905. Ông lấy gốc từ tiếng Hy Lạp cổ đại: “γόνος, gonos” có nghĩa là thế hệ con cháu và sinh sản.
Sự tồn tại của các đơn vị độc lập có khả năng di truyền được đề xuất lần đầu tiên bởi nhà thực vật học Gregor Mendel (1822–1884). Từ năm 1854 đến 1863, trong một tu viện ở Brno, ông đã tiến hành trồng gần 28.000 cây và nghiên cứu các mẫu thế hệ con cháu của 12.835 cây thực vật đậu Hà Lan, theo dõi các đặc điểm khác biệt truyền từ thế hệ này sang thế hệ khác. Ông miêu tả các đặc điểm này như là tổ hợp toán học 2n với n là số các đặc điểm khác nhau trong các cây đậu gốc. Mặc dù ông không sử dụng thuật ngữ gen, ông đã giải thích các kết quả theo thuật ngữ các đơn vị rời rạc có khả năng di truyền làm xuất hiện các đặc điểm thực tế quan sát được. Nội dung miêu tả này đã có trước phát hiện phân biệt của Wilhelm Johannsen về giữa kiểu gen (genotype - vật liệu di truyền của một sinh vật) và kiểu hình (phenotype - các đặc điểm trông thấy của sinh vật đó). Menđen cũng lần đầu tiên chứng tỏ quy luật phân ly độc lập (independent assortment), sự khác biệt giữa các tính trạng trội (dominant) và tính trạng lặn (recessive), sự khác biệt giữa dị hợp tử (heterozygote) và đồng hợp tử (homozygote) và hiện tượng di truyền không liên tục.
Trước khi có nghiên cứu của Menđen, ngành sinh học đã có một số tiến bộ như: nhờ phát minh kính hiển vi sơ khai của Antonie van Leeuwenhoek (thế kỷ XVII) đã mở đường cho việc quan sát thế giới vi sinh vật, sự ra đời thuyết tế bào của Matthias Schleiden và Theodor Schwann (1838, 1839). Nhìn chung quan niệm phổ biến về di truyền thời đó vẫn là di truyền các tính trạng tập nhiễm và di truyền hòa hợp (blending inheritance), cho rằng các cá thể thừa kế từ bố mẹ một hỗn hợp pha trộn các tính trạng, ví dụ như lai cây hoa đỏ với hoa trắng sẽ cho ra hoa hồng. Charles Darwin đã phát triển một lý thuyết về di truyền mà ông gọi là “pangensis” hay còn được biết đến là thuyết mầm hay thuyết pangen, bắt nguồn từ tiếng Hy Lạp cổ “pan” là mọi, toàn thể và “gensis” là sự sinh ra. Darwin sử dụng thuật ngữ “gemmule” (mầm sinh) để miêu tả các hạt giả thuyết mà chúng được trộn với nhau trong quá trình sinh sản.
Tuy nhiên giới khoa học đương thời đã không hiểu và đánh giá được tầm vóc của khám phá Menđen sau khi ông công bố nghiên cứu vào năm 1866. Mãi đến năm 1900 ba nhà sinh học Hugo de Vries, Carl Correns và Erich von Tschermak độc lập nhau đã thực hiện các thí nghiệm và đi đến các kết luận tương tự trước khi họ biết tới các nghiên cứu của Menđen. Đặc biệt, năm 1889, Hugo de Vries xuất bản cuốn sách của ông Intracellular Pangensis, trong đó ông dự đoán rằng các tính trạng riêng biệt có từng đơn vị di truyền độc lập và sự kế thừa các tính trạng này trong sinh vật đến từ các hạt mầm. De Vries gọi những đơn vị này là "pangens" (Pangens trong tiếng Đức), dựa theo lý thuyết pangensis năm 1868 của Darwin.
Nhà thực vật học Gregor Mendel (1822–1884)
Trong các năm 1902-1903, dựa trên các quan sát của nhiều nhà khoa học, trong đó có Walther Flemming về nhiễm sắc thể trong quá trình phân bào, hai nhà khoa học Walter Sutton và Theodor Boveri đã độc lập với nhau cùng khởi xướng Học thuyết di truyền nhiễm sắc thể. Trong bài báo của ông, Sutton nhấn mạnh vào sự quan trọng khi ông quan sát thấy nhóm nhiễm sắc thể lưỡng bội chứa hai tập hợp có hình thái (morphology) giống nhau và trong giảm phân, mỗi giao tử chỉ nhận được một NHIỄM SẮC THỂ từ mỗi cặp NHIỄM SẮC THỂ tương đồng. Sau đó ông sử dụng quan sát này để giải thích các kết quả của Menđen bằng cách giả thiết rằng các gen nằm trên nhiễm sắc thể.
Năm 1905, Wilhelm Johannsen đã giới thiệu các thuật ngữ “gen”, “genotype” và “phenotype” và William Bateson đưa ra thuật ngữ “di truyền học” (gentic).
Trong thập niên 1910, Thomas Hunt Morgan cùng với cộng sự đã xây dựng thành công thuyết di truyền nhiễm sắc thể (chromosome theory of inheritance) dựa trên đối tượng nghiên cứu là ruồi giấm Drosophila melanogaster. Học thuyết này xác nhận rằng gen là đơn vị cơ sở của tính di truyền nằm trên nhiễm sắc thể ở trong nhân; trên đó các gen sắp xếp theo đường thẳng tạo thành nhóm liên kết.
Quá trình nghiên cứu gen và di truyền tiếp tục đạt được những tiến bộ trong thế kỷ XX. Trước đó Friedrich Miescher (1869) đã khám phá ra một hỗn hợp trong nhân tế bào gọi là 'nuclein' mà sau đó Albrecht Kossel (1878) đã cô lập được thành phần không phải protein trong nuclein gọi là axit deoxyribonucleic. DNA được chứng tỏ là những phân tử chứa thông tin di truyền qua các thí nghiệm thực hiện trong thập niên 1940 đến thập niên 1950). Nhờ kết quả nghiên cứu cấu trúc DNA bởi Rosalind Franklin và Maurice Wilkins bằng phương pháp tinh thể học tia X, đã giúp James D. Watson và Francis Crick đề xuất ra mô hình đúng về phân tử sợi xoắn kép DNA mà nguyên tắc ghép cặp nucleobase hàm ý giả thiết cho cơ chế sao chép vật liệu di truyền.
Những năm đầu thập niên 1950, đa số các nhà sinh học có quan điểm cho rằng các gen trong một nhiễm sắc thể hoạt động giống như những đoạn rời rạc, không thể phân chia được bằng cách tái tổ hợp và sắp xếp như những hạt trên một chuỗi. Thí nghiệm của Seymour Benzer sử dụng các khuyết tật đột biến ở vùng rII của thể thực khuẩn T4 (1955-1959) đã chứng tỏ từng gen có một cấu trúc thẳng đơn giản và dường như là tương đương với một đoạn của sợi DNA.
Bằng các thí nghiệm gây đột biến các gen liên quan đến các con đường sinh hóa trên nấm mốc bánh mỳ Neurospora crassa, năm 1941 George Beadle và Edward Tatum xác nhận mỗi gen kiểm soát phản ứng sinh hóa tổng hợp một enzym đặc thù. Kết quả này đưa hai ông đến giả thuyết một gen - một enzym về sau được chính xác hóa là một gen xác định chỉ một chuỗi polypeptide, cấu trúc bậc 1 của protein, trong đó có các enzym.
Từ những kết quả nghiên cứu thu nạp dần đã hình thành lên luận thuyết trung tâm của sinh học phân tử, phát biểu rằng các protein được dịch mã từ RNA, mà đến lượt RNA được phiên mã từ DNA. Tuy vậy, sau này luận thuyết được chỉ ra có những ngoại lệ, ví dụ như phiên mã ngược ở retrovirus. Ngành di truyền hiện đại nghiên cứu ở cấp độ DNA được biết đến là di truyền phân tử.
Năm 1972, Walter Fiers và cộng sự ở Đại học Ghent đã lần đầu tiên xác định được trình tự của một gen: đó là gen mã hóa cho protein vỏ bọc của thể thực khuẩn MS2. Những phát triển sau đó của xác định trình tự DNA bằng kỹ thuật gián đoạn chuỗi bởi Frederick Sanger năm 1977 đã nâng cao hiệu quả giải trình tự và giúp nó trở thành công cụ thường xuyên trong các phòng thí nghiệm. Một kỹ thuật tự động của phương pháp Sanger đã được áp dụng ở giai đoạn đầu của dự án giải mã bộ gen ở người.
Một số lý thuyết đã được phát triển đầu thế kỷ XX nhằm kết hợp giữa di truyền Menđen với thuyết tiến hóa Darwin được gọi là thuyết tổng hợp hiện đại, một thuật ngữ do Julian Huxley giới thiệu.
Các nhà sinh tiến hóa sau đó đã chỉnh sửa bổ sung khái niệm này, như quan điểm gen là đối tượng trung tâm của tiến hóa nêu ra bởi George C. Williams. Ông đề xuất một khái niệm gen tiến hóa như là một đơn vị của chọn lọc tự nhiên với định nghĩa: "nó là cái tách biệt và tái kết hợp với tần số phù hợp". Theo quan điểm này, phân tử gen phiên mã như là một đơn vị và gen tiến hóa kế thừa như là một đơn vị. Các ý tưởng liên quan nhấn mạnh vào vai trò trung tâm của gen trong tiến hóa được Richard Dawkins thảo luận trong các cuốn sách phổ biến khoa học.
Hầu hết các sinh vật sống mã hóa gen của chúng trong những chuỗi dài DNA (axit deoxyribonucleic). DNA bao gồm một chuỗi cấu thành từ bốn loại tiểu đơn vị nuclêôtit, mỗi tiểu đơn vị cấu tạo bởi: một đường năm cacbon (2'-deoxyribose), một nhóm photphat và một trong bốn base adenine, cytosine, guanine và thymine.
Cấu trúc của DNA
Hai sợi DNA xoắn quanh nhau tạo thành chuỗi xoắn kép DNA với bộ khung xoắn đường-phosphat bao ngoài và các base hướng vào trong mà adenine bắt cặp với thymine và guanine bắt cặp với cytosine. Sự bắt cặp base đặc biệt này xảy ra bởi vì ở mỗi adenine và thymine hình thành 2 liên kết hidro với nhau, trong khi ở mỗi cytosine và guanine hình thành 3 liên kết hidro với nhau. Do vậy hai sợi trong chuỗi xoắn kép liên kết với nhau tuân theo nguyên tắc bổ sung, với trình tự của các base bắt cặp sao cho các adenine của một sợi được bắt cặp với các thymine sợi kia và cứ tương tự như thế.
Do tính chất hóa học của phần dư pentose của các base, các sợi DNA có tính xác định hướng. Một đầu cuối của polyme DNA chứa nhóm hydroxy lộ ra khỏi deoxyribose; vị trí này được gọi là đầu 3' của phân tử. Đầu cuối còn lại chứa nhóm photphat lộ ra; hay còn gọi là đầu 5'. Hai sợi của chuỗi xoắn kép chạy theo hướng ngược nhau. Các quá trình tổng hợp axit nucleic, bao gồm tái bản DNA và phiên mã diễn ra theo chiều đầu 5'→3', bởi vì các nuclêôtit mới được ghép vào thông qua phản ứng khử nước khi sử dụng đầu 3' hydroxy như là chất phản ứng nucleophile (chất cho một cặp electron để tạo thành liên kết hóa học).
Sự biểu hiện gen được mã hóa trong DNA bắt đầu bằng quá trình phiên mã gen thành RNA, một loại axit nucleic thứ hai rất giống với DNA, nhưng các monome chứa đường ribose thay cho đường deoxyribose. RNA cũng chứa base uracil thay cho thymine. Các phân tử RNA ít bền hơn DNA và thường là sợi đơn trong dạng điển hình. Các gen mã hóa cho các protein chứa một dãy các trình tự ba nuclêôtit được gọi là các codon, phục vụ như các "từ" trong "ngôn ngữ" di truyền. Mã di truyền xác định lên protein trong quá trình dịch mã giữa codon và amino acid. Mã di truyền gần như là như nhau ở mọi sinh vật sống đã biết.
Toàn bộ các gen trong một sinh vật hoặc trong một tế bào được gọi là bộ gen (genome) của chúng, mà chúng lưu trữ trong nhiễm sắc thể. Một nhiễm sắc thể (NST) chứa một chuỗi xoắn kép DNA rất dài (cùng với các protein hỗ trợ khác) mà trên đó có hàng nghìn gen mã hóa. Vùng nhiễm sắc thể tại đó chứa một gen được gọi là “locus”. Mỗi locus chứa một alen của gen; tuy nhiên, các thành viên trong một quần thể có thể có các allele khác nhau tại locus, mà mỗi alen có thể giống nhau hoặc khác nhau ít nhiều về trình tự nuclêôtit.
Hình ảnh của nhiễm sắc thể
Phần lớn các gen của sinh vật nhân thực được lưu trong một tập lớn, các sợi nhiễm sắc thể. Các nhiễm sắc thể được vo lại trong nhân tế bào như búi với sự hỗ trợ của các protein histon để tạo thành một đơn vị gọi là nucleosome. DNA đóng gói và cô đặc theo cách này được gọi là chromatin (chất nhiễm sắc). Cách thức DNA quấn bao quanh các histon, cũng như các sửa đổi hóa học của chính histon, giúp quy định một vùng DNA cụ thể nơi quá trình biểu hiện gen có thể thực hiện được. Ngoài các đoạn gen, trong nhiễm sắc thể của sinh vật nhân thực còn chứa các trình tự giúp đảm bảo quá trình tái bản DNA diễn ra bình thường mà không làm suy giảm các vùng đầu cuối DNA và giúp sắp xếp chúng vào các tế bào con trong quá trình phân bào: vùng khởi điểm tái bản (replication origin), telomere và tâm động (centromere). Vùng khởi điểm tái bản là những vùng trình tự nơi quá trình tái bản DNA được bắt đầu diễn ra (có thể tại một hoặc nhiều vị trí trên nhiễm sắc thể). Telomere (đầu mút) là những đoạn trình tự dài và lặp lại nằm ở những đoạn đầu hoặc cuối cùng của nhiễm sắc thể có chức năng ngăn cản sự thoái hóa của các vùng trình tự quy định và mã hóa trong quá trình tái bản DNA. Độ dài của các telomere giảm đi mỗi lần bộ gen được sao chép và được phát hiện có liên quan đến quá trình lão hóa tế bào. Vị trí tâm động là nơi các sợi thoi (spindle fibre, hoặc microtubule) bám vào để tách hai chromatid chị em dính nhau ở tâm động trong quá trình phân bào.
Sinh vật nhân sơ (vi khuẩn và cổ khuẩn) thông thường lưu giữ bộ gen của chúng trên một sợi nhiễm sắc thể dạng vòng có kích thước lớn (circular chromosome). Tương tự, ở một số bào quan ở sinh vật nhân thực có chứa một nhiễm sắc thể mạch vòng còn sót loại mà trên đó có một số ít các gen. Thỉnh thoảng sinh vật nhân sơ bổ sung vào nhiễm sắc thể của chúng thêm những vòng nhỏ DNA gọi là plasmid, mà thường chỉ mã hóa một số gen và có thể trao đổi được giữa các cá thể. Ví dụ, các gen có khả năng giúp vi sinh vật kháng kháng sinh và mang lại cho plasmid khả năng tự sao chép độc lập giữa các tế bào, thậm chí của các chủng loài khác nhau, thông qua cơ chế chuyển gen ngang (horizontal gen transfer).
Trong khi ở nhiễm sắc thể của sinh vật nhân sơ có mật độ tập trung gen tương đối cao, thì ở sinh vật nhân thực thường chứa các vùng DNA mà chức năng của nó không rõ ràng. Sinh vật nhân thực đơn bào đơn giản có tương đối ít lượng DNA như thế, trong khi bộ gen phức tạp của những sinh vật đa bào, bao gồm con người, chứa rất nhiều đoạn DNA mã vẫn chưa giải mã được chức năng của chúng. Các nhà sinh học phân tử thường coi những vùng này là những đoạn DNA rác (junk DNA). Tuy nhiên, những phân tích gần đây gợi ý rằng mặc dù các vùng DNA mã hóa protein chỉ chiếm 2% trong bộ gen người, khoảng 80% số lượng base trong bộ gen có thể được biểu hiện, do đó "đoạn rác DNA" có thể bị sử dụng nhầm tên gọi.
Cấu trúc của một gen chứa nhiều yếu tố mà những trình tự mã hóa protein thực sự chỉ là một phần nhỏ trong đó. Chúng bao gồm các vùng DNA không được phiên mã cũng như các vùng RNA không được dịch mã.
Tại hai bên khung đọc mở, gen có cấu trúc chứa một trình tự quy định cần thiết cho sự biểu hiện của nó. Đầu tiên, gen cần một trình tự khởi động (promoter). Các yếu tố phiên mã (transcription factors) nhận ra và liên kết với vùng trình tự khởi động, sau đó RNA polymerase thực hiện khởi phát quá trình phiên mã. Việc nhận ra này thường nằm ở hộp TATA trong vùng khởi động. Một gen có thể có nhiều hơn một vùng khởi động, làm cho các RNA thông tin (mRNA) khác nhau ở độ dài của đầu 5'. Những cấu trúc gen thường xuyên được phiên mã có những trình tự khởi động "mạnh" tức là tạo thành liên kết mạnh với các yếu tố phiên mã, do vậy khởi phát phiên mã ở tốc độ cao. Những gen khác có những vùng trình tự khởi động "yếu" mà liên kết yếu với các yếu tố phiên mã và do vậy sự phiên mã đối với các gen này xảy ra ít hơn. Các vùng trình tự khởi động ở sinh vật nhân thực có cấu trúc phức tạp hơn và khó nhận diện hơn so với ở sinh vật nhân sơ.
Sơ đồ cấu trúc của gen
Thêm vào đó, cấu trúc gen có thể chứa những vùng quy định có độ dài hàng kilobase nằm ở bên trái hoặc bên phải khung đọc mở dẫn đến làm thay đổi mức độ biểu hiện. Những vùng này hoạt động bằng cách liên kết với các yếu tố phiên mã khiến cho DNA tạo thành mạch vòng do đó trình tự quy định và yếu tố phiên mã bám vào trở lên rất gần với RNA polymerase tại vị trí liên kết. Ví dụ, các vùng tăng cường (enhancer) làm tăng tốc độ phiên mã bằng cách liên kết với một protein kích hoạt (activator protein) giúp kéo phân tử RNA polymerase đến vùng khởi động; ngược lại vùng bất hoạt (silencer) bám với protein ức chế (repressor protein) làm cho DNA trở lên ít hoạt động với RNA polymerase.
Phân tử tiền mRNA (pre-mRNA) chứa những vùng không dịch mã ở cả hai đầu mà trong mỗi đầu chứa vị trí liên kết ribosome, vùng kết thúc (terminator) và các codon khởi đầu và codon kết thúc. Thêm vào đó, ở hầu hết khung đọc mở của sinh vật nhân thực chứa các đoạn intron không dịch mã mà sẽ được loại bỏ trước khi các đoạn exon được dịch mã. Các trình tự ở cuối mỗi intron, quyết định các vị trí cắt (splice site, RNA splicing) để tạo ra mRNA thành thục cuối cùng, dùng để mã hóa cho protein hoặc sản phẩm RNA khác.
Nhiều cấu trúc gen ở sinh vật nhân sơ được tổ chức thành các đơn vị operon, với nhiều trình tự mã hóa protein được phiên mã nằm trong nó. Các gen trong một operon được phiên mã như là một mRNA liên tục, mà coi nó như là polycistronic mRNA. Thuật ngữ cistron trong bối cảnh này tương đương với khái niệm gen. Sự phiên mã của một operon của mRNA thường bị kiểm soát bởi phân tử ức chế (repressor), mà trạng thái hoạt động hay bị cấm của sự phiên mã phụ thuộc vào sự có mặt những chất chuyển hóa nhất định. Khi phân tử ức chế hoạt động, nó bám vào một trình tự DNA nằm ở vị trí khởi đầu của operon, được gọi là vùng operator, làm cản trở sự phiên mã của operon; khi phân tử ức chế bất hoạt, sự phiên mã ở operon có thể xảy ra. Các sản phẩm của gen operon thường có những chức năng liên quan và tham gia vào cùng mạng lưới quy định cấu trúc gen.
Các nhà sinh học phân tử gặp phải khó khăn khi muốn định nghĩa chính xác phần nào của một trình tự DNA chứa một gen. Các vùng quy định của một gen có chức năng như vùng tăng cường không cần thiết phải nằm gần với trình tự mã hóa trên mạch dài phân tử bởi vì các đoạn DNA trung gian có thể tạo vòng lồi ra (loop out) giúp mang gen và vùng trình tự quy định của nó đến gần nhau. Tương tự, các đoạn intron của một gen có thể dài hơn rất nhiều so với các đoạn exon của nó. Các vùng quy định thậm chí có thể nằm hoàn toàn trên nhiễm sắc thể khác và hoạt động từ xa (in trans) khi cho phép vùng quy định trên một nhiễm sắc thể đến gần với các gen đích nằm trên nhiễm sắc thể khác.
Những nghiên cứu ban đầu trong di truyền phân tử gợi ra khả năng một gen tạo một protein. Khái niệm này ban đầu gọi là giả thuyết một gen-một enzym, bắt nguồn từ bài báo có tầm ảnh hưởng năm 1941 bởi George Beadle và Edward Tatum công bố kết quả nghiên cứu các thí nghiệm gây đột biến trên nấm mốc bánh mỳ Neurospora crassa. Norman Horowitz, một trong các cộng sự ban đầu tham gia vào nghiên cứu Neurospora, nhớ lại vào năm 2004 rằng "những thí nghiệm này là cơ sở của khoa học mà Beadle và Tatum từng gọi là di truyền sinh hóa. Thực sự các kết quả của họ đã khai sinh ra ngành di truyền phân tử và tất cả những phát triển sau đó". Khái niệm một gen-một protein đã được tinh chỉnh dần từ lúc khám phá ra các gen có thể mã hóa nhiều protein bằng quá trình quy định cắt-nối có chọn lọc (alternative splicing) và các trình tự mã hóa tách thành những đoạn ngắn trên bộ gen mà các mRNA được ghép nối bằng quá trình xử lý cắt-nối chéo (trans-splicing).
Một định nghĩa có tầm hoạt động rộng thỉnh thoảng được sử dụng để bao quát được tính phức tạp của nhiều hiện tượng phong phú, nơi một gen được định nghĩa như là hợp của các trình tự mã hóa cho một tập nhất quán các sản phẩm chuyên biệt có khả năng xen phủ lẫn nhau. Định nghĩa này phân loại chức năng gen theo các sản phẩm có chức năng riêng (như protein hay RNA) hơn là theo những vị trí locus cụ thể trên đoạn DNA, với các yếu tố quy định được phân loại như là các vùng kết hợp với gen.
Trong mọi sinh vật, có hai bước cần thiết để đọc thông tin mã hóa trong DNA của gen và tổng hợp nên sản phẩm protein mà gen mã hóa cho. Đầu tiên, các đoạn DNA của gen được phiên mã thành RNA thông tin (mRNA). Thứ hai, mRNA được dịch mã thành protein. Các gen mã hóa trong RNA vẫn phải trải qua bước đầu tiên, nhưng không nhất thiết dịch mã thành protein. Quá trình tổng hợp ra một phân tử chức năng sinh học hoặc là RNA hay protein được gọi là biểu hiện gen và phân tử tạo thành được gọi là sản phẩm gen.
Một phân tử RNA chứa các nuclêôtit. Nhóm ba nuclêôtit được gọi là bộ ba mã hóa hay codon, mã mỗi nhóm tương ứng với một amino acid cụ thể.
Bảng mã di truyền của gen
Phác thảo một đoạn của phân tử RNA sợi đơn minh họa cho chuỗi bộ ba base codon. Cứ mỗi bộ ba nuclêôtit codon tương ứng với một amino acid khi được dịch mã thành protein
Trình tự nuclêôtit của DNA trong một gen xác định lên trình tự amino acid tương ứng của protein thông qua mã di truyền. Tập hợp các bộ ba nuclêôtit, gọi là bộ ba mã hóa hay codon, mà mỗi codon mã hóa cho một amino acid. Nguyên lý phát biểu rằng cứ ba base trong trình tự DNA mã hóa cho mỗi amino acid được minh chứng bằng thí nghiệm năm 1961 khi tạo đột biến dịch chuyển khung trong gen rIIB của thể thực khuẩn T4.
Ngoài ra, 1 codon khởi động và 3 codon kết thúc đánh dấu sự bắt đầu và kết thúc của vùng mã hóa protein. Có tất cả 64 codon khả dĩ (vì có bốn nuclêôtit ở mỗi một trong ba vị trí, do vậy tổ hợp có tất cả 43 codon) và trong tự nhiên chỉ có 20 amino acid cơ bản; do vậy số bộ ba là thừa và có nhiều codon cùng mã hóa cho một amino acid. Sự tương ứng giữa các codon và amino acid gần như là phổ biến rộng rãi ở mọi sinh vật sống đã biết trên Trái Đất.
Phiên mã tạo ra phân tử RNA sợi đơn được biết đến là mRNA, mà các trình tự nuclêôtit trong nó tuân theo nguyên tắc bổ sung với của DNA làm gốc để phiên mã nó. mRNA có vai trò làm khuôn mẫu trung gian giữa DNA của gen và sản phẩm protein cuối cùng. DNA của gen được sử dụng làm khuôn để tổng hợp nên mRNA theo nguyên tắc ghép cặp bổ sung. mRNA khớp với trình tự của dải mã hóa (coding strand) trong DNA của gen bởi vì nó được tổng hợp như là sợi bổ sung của dải khuôn mẫu (template strand). Phiên mã được thực hiện bằng enzym gọi là RNA polymerase, khi nó đọc và thực hiện trượt theo dải khuôn mẫu theo hướng đầu 3' đến đầu 5'; và tổng hợp nên RNA theo hướng ngược lại từ đầu 5' đến đầu 3'. Để khởi phát phiên mã, phân tử polymerase đầu tiên nhận ra và bám vào vùng khởi động của gen. Do vậy, cơ chế chính của quy định biểu hiện gen là ngăn chặn hoặc cô lập vùng khởi động, hoặc thông qua các phân tử ức chế (repressor) có chức năng ngăn chặn polymerase, hoặc bằng cách tổ chức DNA sao cho không thể tiếp cận được vùng khởi động.
Ở sinh vật nhân sơ, quá trình phiên mã xảy ra trong tế bào chất; đối với phân tử phiên mã rất dài, sự dịch mã có thể bắt đầu tại đầu 5' của RNA trong khi ở đầu 3' của nó vẫn đang trong quá trình phiên mã. Ở sinh vật nhân thực, phiên mã xảy ra trong nhân tế bào, nơi lưu giữ DNA và nhiễm sắc thể. Phân tử RNA được tổng hợp bằng polymerase được gọi là bản sao sơ cấp (primary transcript) và trải qua một quá trình sửa đổi hậu phiên mã (post-transcriptional modification) trước khi trở thành mRNA thành thục và được chuyển ra khỏi nhân vào tế bào chất để chuẩn bị cho dịch mã. Một trong những sửa đổi được thực hiện đó là cắt-nối các đoạn intron là những trình tự trong vùng phiên mã nhưng không mã hóa cho protein. Cơ chế cắt-nối có chọn lọc (alternative splicing) có thể cho các bản sao thành thục từ cùng một gen nhưng mRNA có trình tự khác vào do vậy nó mã hóa cho những protein khác. Đây là cơ chế quy định chính ở tế bào nhân thực và cũng xuất hiện ở một vài tế bào nhân sơ.
Dịch mã là quá trình trong đó một phân tử mRNA thành thục được sử dụng là khuôn mẫu để tổng hợp nên protein mới. Dịch mã được thực hện bằng các ribosome, những phức hợp lớn chứa RNA và protein chịu trách nhiệm thực hiện các phản ứng hóa sinh để ghép nối thêm những amino acid mới do tRNA mang đến tạo thành một chuỗi polypeptide đang dài dần ra dựa trên liên kết peptide. Mã di truyền được đọc ba nuclêôtit trong một lần, theo các đơn vị gọi là codon mã hóa, thông qua tương tác với các phân tử RNA biệt hóa gọi là RNA vận chuyển (tRNA). Mỗi tRNA có ba base không được ghép cặp gọi là các codon đối mã (anticodon) mà bắt cặp bổ sung với codon nó đọc được từ mRNA. tRNA thông qua liên kết cộng hóa trị gắn với amino acid mà chỉ khớp riêng với codon của tRNA đó. Khi tRNA bắt khớp với codon bổ sung trên dải mRNA, ribosome lập tức gắn amino acid nó mang tới vào chuỗi polypeptide đang được tổng hợp, mà có chiều từ đầu amin đến đầu carboxyl. Trong lúc và sau tổng hợp, hầu hết protein mới hình thành phải trải qua bước uốn gập về cấu trúc ba chiều hoạt động trước khi chúng thực hiện tham gia các chức năng trong tế bào hoặc được đẩy ra khỏi tế bào.
Quá trình phiên mã và dịch mã của gen
Các gen được quy định sao cho chúng chỉ biểu hiện khi các sản phẩm gen ở mức cần thiết, vì quá trình biểu hiện tiêu tốn những nguồn dự trữ hạn chế. Một tế bào quy định biểu hiện các gen của nó phụ thuộc vào môi sinh (ví dụ chất dinh dưỡng nhiều hay ít, nhiệt độ và các sức ép-stress), môi trường bên trong tế bào (ví dụ chu kỳ phân bào, trao đổi chất, trạng thái lây nhiễm) và vai trò cụ thể của nó trong một sinh vật đa bào. Biểu hiện gen có thể được quy định ở bất kỳ một bước nào: từ lúc khởi phát phiên mã, đến xử lý RNA, đến sửa đổi sau dịch mã đối với protein. Sự quy định các gen kiểm soát trao đổi chất của đường lactose ở E. coli (lac operon) là một trong những cơ chế quy định đầu tiên được François Jacob và Jacques Monod miêu tả vào năm 1961.
Một gen mã hóa protein điển hình thường đầu tiên sao chép sang RNA như là một phân tử trung gian trong quá trình tổng hợp ra protein cuối cùng. Trong trường hợp khác, các phân tử RNA là những sản phẩm có chức năng chuyên biệt, như vai trò trong tổng hợp RNA ribosome và RNA vận chuyển. Một số RNA được biết đến là các ribozyme có khả năng hoạt động như enzym và microRNA có vai trò quy định. Trình tự DNA từ đó mà RNA được phiên mã thành các RNA có chức năng chuyên biệt được gọi là các gen sinh RNA không mã hóa.
Hình ảnh RNA và DNA
Ở một số virus chúng lưu trữ toàn bộ bộ gen của chúng trong dạng của RNA và không hề chứa một trình tự DNA nào. Bởi vì chúng sử dụng RNA để lưu giữ các gen, các tế bào vật chủ có thể tổng hợp nên các protein cần thiết cho virus ngay khi chúng lây nhiễm vào vật chủ và không cần phải đợi xảy ra giai đoạn phiên mã. Mặt khác, ở các RNA retrovirus, như HIV, chúng đòi hỏi phải có quá trình phiên mã ngược từ bộ gen của chúng là RNA sang DNA trước khi protein của virus được tổng hợp ra. Di truyền học ngoài gen (epigentics) do RNA trung gian cũng đã được quan sát thấy ở một số thực vật nhưng rất hiếm có ở động vật.
Bộ gen các sinh vật kế thừa từ gen trong thế hệ bố mẹ của chúng. Các sinh vật sinh sản vô tính chỉ đơn giản là kế thừa bản sao đầy đủ của bộ gen bố mẹ chúng. Các sinh vật sinh sản hữu tính có hai bản sao ở mỗi nhiễm sắc thể bởi vì chúng thừa hưởng một bộ đầy đủ từ mỗi con cái và con đực.
Theo quy luật di truyền của Menđen, các biến dị trong kiểu hình của một sinh vật (các đặc điểm vật lý và cư xử quan sát được) là một phần do những biến đổi trong kiểu gen (đặc biệt là các gen tương ứng). Mỗi gen xác định một tính trạng riêng với các trình tự khác nhau trên cùng một gen (các allele) làm xuất hiện nhiều kiểu hình khác nhau. Hầu hết các sinh vật nhân thực (như ở cây đậu Hà Lan mà Menđen dùng để nghiên cứu) có hai allele cho mỗi tính trạng, mỗi allele được kế thừa từ bố hoặc mẹ.
Tại locus các allele có thể là trội hoặc lặn; các allele trội thể hiện những kiểu hình tương ứng khi nó ghép cặp với bất kỳ một allele khác của tính trạng, trong khi các allele lặn chỉ thể hiện kiểu hình tương ứng khi nó ghép cặp với cùng một bản sao allele khác. Nếu biết kiểu hình của sinh vật, có thể xác định được allele trội và allele lặn. Ví dụ, nếu allele xác định thân cây cao ở đậu Hà Lan là tính trạng trội so với allele xác định thân cây thấp, thì ở thực vật đậu thừa hưởng một allele allele cao từ bố mẹ và một allele thấp từ bố mẹ thì nó sẽ là thân cây cao. Nghiên cứu của Menđen chứng tỏ rằng các allele phân ly độc lập trong hình thành giao tử, hoặc các tế bào gốc, đảm bảo biến đổi ở thế hệ tiếp theo. Mặc dù di truyền Menđen vẫn là một mô hình tốt cho nhiều tính trạng xác định bởi các gen riêng rẽ (bao gồm một số bệnh di truyền hay gặp) nó không kể đến những quá trình sinh hóa trong tái bản DNA và phân bào.
Quy luật di truyền học của Menđen
Các sinh vật sinh trưởng, phát triển và sinh sản dựa vào sự phân bào; quá trình trong đó một tế bào phân chia thành hai tế bào con. Để thực hiện được như vậy đầu tiên trong nhân tế bào cần tiến hành sao chép từng gen trong bộ gen thông qua cơ chế tái bản DNA. Quá trình tái bản được thực hiện nhờ những enzym chuyên biệt mà trong số đó là DNA polymerase, phân tử này thực hiện đọc một sợi trong hai sợi xoắn kép DNA đã được tháo xoắn, hay còn gọi sợi này là sợi khuôn và tổng hợp nên một sợi bổ sung mới. Bởi vì chuỗi xoắn kép DNA được liên kết với nhau bởi các cặp base bổ sung, từ trình tự của một sợi có thể hoàn toàn xác định lên trình tự bổ sung; do vậy enzym chỉ cần đọc một sợi là có thể tạo ra một bản sao đầy đủ. Quá trình tái bản DNA tuân theo nguyên tắc bán bảo toàn; tức là, bản sao của bộ gen thừa kế trong mỗi tế bào con chứa một sợi gốc từ bố mẹ và một sợi DNA mới tổng hợp.
Tốc độ tái bản DNA trong tế bào sống lần đầu tiên được xác định là ở tốc độ kéo dài DNA của thể thực khuẩn T4 trong E. coli bị nhiễm phage và các nhà sinh học phát hiện thấy nó có một tốc độ nhanh đáng kinh ngạc. Trong giai đoạn sao chép DNA ở nhiệt độ 37°C, tốc độ kéo dài bằng 749 nuclêôtit trên một giây.
Sau khi quá trình tái bản DNA kết thúc, tế bào phải trải qua sự chia tách của hai bản sao bộ gen và phân chia thành hai tế bào có màng phân biệt. Ở sinh vật nhân sơ (vi khuẩn và cổ khuẩn) quá trình này tương đối đơn giản thể hiện qua sự phân chia đôi (binary fission), trong đó mỗi bộ gen trên mạch vòng gắn vào màng tế bào và được tách ra thành các tế bào khi màng tế bào lộn vào trong (invagination) và tách tế bào chất ra thành hai phần ngăn nhau bởi màng tế bào. Quá trình phân chia đổi xảy ra cực kỳ nhanh so với tốc độ phân bào ở sinh vật nhân thực. Tế bào của sinh vật nhân thực phân chia diễn ra phức tạp hơn như trong chu kỳ tế bào; sự tái bản DNA xảy ra trong pha S, trong khi quá trình tách nhiễm sắc thể và bào tương xảy ra trong pha M.
Quá trình tái bản DNA và phân bào
Bản đồ di truyền liên kết ở Drosophila melanogaster của Thomas Hunt Morgan. Đây là nghiên cứu thành công đầu tiên trong việc lập bản đồ gen (xác định vị trí các gen trên nhiễm sắc thể) và cung cấp bằng chứng quan trọng cho lý thuyết di truyền trên nhiễm sắc thể. Bản đồ chỉ ra vị trí tương đối của các allele trên nhiễm sắc thể số 2 của Drosophila. Khoảng cách giữa các gen (đơn vị đo centimorgan) tỷ lệ thuận với tần số tái tổ hợp của sự kiện trao đổi giữa các allele.
Sự tái bản và truyền vật liệu di truyền từ một thế hệ tế bào sang thế hệ tiếp theo là cơ sở của di truyền phân tử và là mối liên hệ giữa bức tranh phân tử với bức tranh cổ điển của gen. Sinh vật thừa hưởng những đặc tính từ bố mẹ bởi vì các tế bào con chứa các bản sao của gen từ trong tế bào của bố mẹ chúng. Ở các sinh vật sinh sản vô tính, ở thế hệ con sẽ chứa bản sao di truyền hay dòng hóa từ các sinh vật bố mẹ. Ở sinh vật sinh sản hữu tính, một giai đoạn đặc biệt của quá trình phân bào gọi là giảm phân tạo thành các tế bào giao tử hoặc tế bào mầm phôi đơn bội và chỉ chứa gen trong nhiễm sắc thể đơn bội. Giao tử phát sinh từ con cái gọi là trứng hay ova và giao tử phát sinh từ con đực gọi là tinh trùng. Hai giao tử kết hợp với nhau tạo thành hợp tử lưỡng bội trứng đã được thụ tinh, một tế bào trong nó chứa hai tập hợp gen, với một bản sao của mỗi gen đến từ con cái và một bản sao còn lại từ con đực.
Trong quá trình phân bào giảm phân, thỉnh thoảng xuất hiện sự kiện tái tổ hợp di truyền hay trao đổi chéo ở một số đoạn giữa hai nhiễm sắc thể tương đồng, kéo theo sự trao đổi các gen giữa chúng. Ở sự kiện này, một đoạn DNA trên một chromatid được hoán vị bằng một đoạn DNA có độ dài bằng nhau nằm trên chromatid tương đồng khác chị em. Hiện tượng này có thể dẫn đến sự tổ chức lại các allele đã có liên kết với nhau. Quy luật phân ly độc lập của Menđen khẳng định mỗi gen từ bố hoặc mẹ cho mỗi tính trạng sẽ sắp xếp một cách độc lập trong giao tử; hay các allele của các gen khác nhau thì phân ly một cách độc lập với nhau trong quá trình hình thành giao tử. Điều này chỉ đúng cho những gen mà không nằm trên cùng một nhiễm sắc thể, hoặc nằm trên cùng một nhiễm sắc thể nhưng cách rất xa nhau. Hai gen nằm càng gần nhau trên cùng một nhiễm sắc thể, chúng sẽ càng có mặt cùng nhau trong giao tử và các tính trạng chúng biểu hiện sẽ xuất hiện cùng nhau thường xuyên; những gen nằm rất gần nhau hoặc cạnh nhau về cơ bản không bao giờ bị tách biệt bởi vì rất hiếm khi điểm trao đổi chéo sẽ xuất hiện giữa hai gen này. Đây là cơ sở của hiện tượng di truyền liên kết gen hoàn toàn (gentic linkage).
Ruồi giấm Drosophila melanogaster đã được nhà di truyền học người Mỹ, Thomas Hunt Morgan (1866-1945), sử dụng trong nghiên cứu di truyền học từ những năm đầu của thế kỷ XX, trong khi đang làm việc tại Học viện Công nghệ California. Nhờ sử dụng ruồi giấm này, Morgan và các cộng sự của mình đã xây dựng thành công học thuyết di truyền nhiễm sắc thể. Lý thuyết này đã khẳng định gen - đơn vị di truyền then chốt đóng ba vai trò: (i) Gen là đơn vị chức năng, nghĩa là gen được xem như một thể thống nhất toàn vẹn kiểm soát một tính trạng cụ thể. (ii) Gen là đơn vị tái tổ hợp, nghĩa là gen không bị chia nhỏ bởi sự trao đổi chéo (vì theo quan điểm này, trao đổi chéo không xảy ra bên trong phạm vi một gen mà chỉ xảy ra giữa các gen); như thế gen được coi là đơn vị cấu trúc cơ sở của vật chất di truyền, nhiễm sắc thể. (iii) Gen là đơn vị đột biến, nghĩa là nếu đột biến xảy ra trong gen dù ở bất kỳ vị trí nào hoặc với phạm vi ra sao, chỉ gây ra một trạng thái cấu trúc mới tương ứng với một kiểu hình mới, kiểu hình đột biến, khác với kiểu hình bình thường. Tuy nhiên, quan niệm này vẫn còn chưa rõ ràng và không thực sự chính xác theo quan điểm của di truyền học hiện đại.
Giai đoạn tái bản DNA diễn ra phần lớn có độ chính xác cao, tuy vậy cũng có đột biến gen xảy ra. Tần suất lỗi ở tế bào sinh vật nhân thực có thể thấp ở mức 10−8 trên nuclêôtit trong mỗi lần tái bản, trong khi ở một số virus RNA có thể cao tới mức 10−3. Điều này có nghĩa là ở mỗi thế hệ, trong bộ gen ở người thu thêm 1–2 đột biến mới. Những đột biến nhỏ xuất hiện từ quá trình tái bản DNA và hậu quả từ phá hủy DNA và bao gồm đột biến điểm trong đó một base bị thay đổi và đột biến dịch chuyển khung trong đó một base được thêm vào hay bị xóa. Hoặc là những đột biến này làm thay đổi gen theo cách làm sai nghĩa (missense mutation, thay đổi một codon làm nó mã hóa cho amino acid khác) hoặc làm cho gen trở nên vô nghĩa (nonsense mutation, làm quá trình tái bản DNA sớm kết thúc khi đọc đến codon kết thúc và sản phẩm gen là protein không hoạt động được). Những đột biến lớn hơn có thể gây ra lỗi trong tái tổ hợp dẫn đến những bất thường ở nhiễm sắc thể (chromosomal abnormality) bao gồm nhân đôi một gen (gen duplication), xóa, sắp xếp lại hoặc đảo ngược những đoạn dài trong một nhiễm sắc thể. Thêm vào đó, cơ chế sửa chữa DNA có thể dẫn ra vài đột biến mới khi thực hiện sửa chữa những sai hỏng vật lý ở phân tử. Sự sửa chữa, ngay cả khi đi kèm với đột biến, là quan trọng hơn đối với sự tồn tại hơn là khôi phục lại bản sao chính xác, ví dụ khi thực hiện sửa chữa chuỗi xoắn kép bị gãy.
Mô tả đột biến gen
Khi nhiều allele khác nhau của cùng một gen có mặt trong quần thể một loài thì hiện tượng này được gọi là đa hình (polymorphism). Phần lớn các allele khác nhau hoạt động tương tự nhau, tuy nhiên ở một số allele có thể làm xuất hiện các tính trạng kiểu hình khác nhau. Allele phổ biến nhất của một gen được gọi là kiểu dại (wild type) và những allele hiếm được gọi là allele đột biến. Biến dị di truyền trong tần số tương đối của các allele khác nhau trong một quần thể có nguyên nhân từ cả chọn lọc tự nhiên và biến động di truyền (gentic drift, những sự biến đổi ngẫu nhiên vô hướng về tần số allele trong tất cả các quần thể, nhưng đặc biệt là ở các quần thể nhỏ).
Phần lớn các đột biến bên trong các gen là đột biến trung tính (neutral mutation), không có ảnh hưởng đến kiểu hình của sinh vật (đột biến lặng, silent mutation). Một số đột biến không làm thay đổi trình tự amino acid bởi vì một số codon mã hóa cho cùng một amino acid (đột biến đồng nghĩa, synonymous mutation). Các đột biến khác trở thành trung tính nếu tuy nó làm thay đổi trình tự amino acid, nhưng protein vẫn gập nếp và hoạt động bình thường với amino acid mới (đột biến bảo toàn, conservative mutation). Tuy nhiên, nhiều đột biến gen là có hại (deleterious mutation) hay thậm chí gây chết (lethal allele) và bị loại bỏ khỏi quần thể bằng quá trình chọn lọc. Rối loạn di truyền (gentic disorders) là kết quả của các đột biến có hại và có thể do đột biến tự phát trong cá thể bị ảnh hưởng, hoặc có thể di truyền sang thế hệ sau. Cuối cùng, có một tỷ lệ nhỏ các đột biến gen là có lợi (beneficial mutation), tăng cường độ phù hợp (fitness) ở sinh vật và trở thành một trong những luận điểm quan trọng của thuyết tiến hóa tổng hợp hiện đại, vì trong chọn lọc có hướng dẫn đến tiến hóa thích nghi.
Gen có nguồn gốc tổ tiên chung gần nhất và do vậy chia sẻ cùng một lịch sử khám phá, được biến đến có tính tương đồng. Những gen này xuất hiện hoặc từ sự lặp đoạn gen bên trong bộ gen của sinh vật, nơi chúng được gọi là các gen môi sinh, hoặc là kết quả của sự phân tán gen sau một sự kiện hình thành loài và thường thực hiện các chức năng giống nhau hoặc tương tự như ở sinh vật liên quan. Người ta thường giả sử rằng những gen này có sự giống nhau nhiều hơn so với gen môi sinh, mặc dù sự khác nhau là nhỏ.
Mô tả trình tự tương đồng của gen
Mối liên hệ giữa các gen có thể đo được bằng cách so sánh sắp trình tự trong DNA của chúng. Độ giống nhau giữa các gen tương đồng được gọi là trình tự bảo toàn (conserved sequence). Theo thuyết tiến hóa phân tử trung tính, phần lớn những thay đổi trong trình tự của một gen không ảnh hưởng đến chức năng của nó và do vậy gen tích lũy các đột biến theo thời gian. Thêm vào đó, bất kỳ chọn lọc nào trên một gen sẽ làm cho trình tự của nó phân tán với tốc độ khác. Các gen chịu ảnh hưởng chọn lọc ổn định có tính ổn định cao và sự thay đổi đối với chúng diễn ra chậm trong khi các gen chịu ảnh hưởng chọn lọc định hướng thay đổi trình tự một cách nhanh chóng. Sự khác nhau trong trình tự giữa các gen có thể được ứng dụng để phân tích phát sinh chủng loài để nghiên cứu các gen đã tiến hóa bằng cách nào và bằng cách nào mà các sinh vật trở lên có liên quan đến nhau.
Nguồn gốc chung phổ biến ở các gen mới trong nòi giống sinh vật nhân thực là lặp đoạn gen, trong đó tạo ra một bản sao gen mới từ gen đã có trong bộ gen. Những gen tạo ra này sau đó có thể phân tán trong trình tự và chức năng. Tập hợp các gen hình thành theo cách này tạo thành gia đình gen (gen family). Các nhà tiến hóa cho rằng lặp đoạn gen và mất gen trong một gia đình là phổ biến và là nguyên nhân chủ yếu dẫn đến sự đa dạng sinh học. Trong một số trường hợp, lặp đoạn gen có thể tạo ra một bản sao không hoạt động bình thường, hoặc bản sao chức năng chịu ảnh hưởng của đột biến làm mất chức năng; những gen không hoạt động này được gọi là gen giả (pseudogen).
Các gen "mồ côi", mà trình tự không giống với một gen đã có nào, ít gặp hơn so với lặp đoạn gen. Ước tính số lượng gen mà không có trình tự tương đồng nằm bên ngoài con người từ 18 đến 60. Hai nguồn chủ yếu của các gen mồ côi mã hóa protein đó là quá trình lặp đoạn gen theo sau bởi sự thay đổi trình tự cực lớn, như mối liên hệ gốc là không xác định được từ việc so sánh trình tự và sự chuyển đổi mới từ một trình tự không mã hóa trước đó thành một gen mã hóa protein. Các gen mới thường ngắn hơn và đơn giản hơn về cấu trúc so với các gen ở sinh vật nhân thực, mà chỉ có vài intron (nếu có). Các nhà sinh tiến hóa cho rằng trong thời gian tiến hóa dài, gen mới sinh có thể chịu trách nhiệm cho một tỷ lệ đáng kể các gia đình gen bị giới hạn về mặt chủng loại.
Quá trình chuyển gen ngang nhắc tới sự truyền vật liệu di truyền thông qua một cơ chế hơn là sự sinh sản. Cơ chế này là nguồn thường gặp tạo gen mới ở sinh vật nhân sơ, mà đôi lúc được cho là đóng góp nhiều hơn vào biến dị di truyền so với lặp đoạn gen. Nó là một cách phổ biến để phát tán kháng thuốc kháng sinh, độc lực và các chức năng trao đổi chất thích ứng. Mặc dù chuyển gen ngang hiếm xảy ra ở sinh vật nhân thự, một số trường hợp tương tự đã được phát hiện ở bộ gen của sinh vật nguyên sinh và tảo chứa các gen có nguồn gốc từ vi khuẩn.
Bộ gen là tổng thể toàn bộ vật liệu di truyền của một sinh vật và bao gồm cả các gen và những trình tự không mã hóa.
Kích thước bộ gen và số lượng gen mã hóa ở mỗi loài sinh vật là khác nhau. Virus và viroid (mà hoạt động như là một gen RNA không mã hóa) có bộ gen nhỏ nhất. Ngược lại, ở thực vật có những bộ gen cực kỳ lớn chẳng hạn ở cây lúa gạo chứa hơn 46.000 gen mã hóa protein. Tổng số lượng gen mã hóa protein (bộ protein, proteome, trên Trái Đất) ước tính bằng 5 triệu trình tự.
Số lượng gen của một số sinh vật
Mặc dù số lượng cặp base của DNA ở bộ gen người đã được biết đến từ thập niên 1960, ước tính số lượng gen có sự thay đổi theo thời gian khi định nghĩa về gen và phương pháp xác định chúng liên tục được cập nhật và tinh chỉnh. Các dự đoán lý thuyết ban đầu về số lượng gen ở người cao tới mức 2.000.000 gen. Trong khi các kết quả đo thực nghiệm sơ bộ ban đầu cho thấy số lượng này trong khoảng 50.000–100.000 gen được phiên mã (bằng phương pháp đánh dấu trình tự biểu hiện). Sau đó, kết quả giải trình tự ở Dự án Bản đồ gen ở Người cho thấy nhiều trình tự được phiên mã là những biến thể khác của cùng một gen và tổng số lượng gen mã hóa protein giảm xuống còn ~20.000 trong đó có 13 gen mã hóa nằm trong bộ gen ty thể. Nghiên cứu sâu hơn từ dự án GENCODE, tiếp tục cho ước lượng số gen giảm xuống còn ~19.900. Trong bộ gen ở người, chỉ 1–2% trong 3 tỷ cặp base DNA là đoạn mã hóa protein, những đoạn còn lại là các DNA 'không mã hóa' bao gồm intron, retrotransposon, các trình tự quy định DNA và các đoạn DNA phiên mã thành RNA không mã hóa. Trong mỗi tế bào ở sinh vật đa bào chứa toàn bộ gen nhưng không phải tất cả gen hoạt động trong từng tế bào.
Các gen cơ bản là tập hợp những gen được cho là trọng yếu đối với sự sinh tồn của một sinh vật. Định nghĩa này dựa trên giả sử sinh vật được cung cấp nguồn chất dinh dưỡng đầy đủ và không chịu các áp lực từ môi trường nó sống. Chỉ một phần nhỏ gen của một sinh vật là gen cơ bản. Ở vi khuẩn, ước tính có khoảng 250–400 gen cơ bản đối với Escherichia coli và Bacillus subtilis, mà số lượng này nhỏ hơn 10% tổng số gen của chúng. Một nửa các gen này là ortholog trong cả hai vi khuẩn và phần lớn tham gia vào sinh tổng hợp protein. Ở nấm men Saccharomyces cerevisiae số lượng gen cơ bản cao hơn một chút, ở mức 1000 gen (~20% bộ gen của nó). Mặc dù số lượng này càng khó xác định hơn ở sinh vật nhân thực bậc cao, ước tính ở chuột và người có khoảng 2000 gen cơ bản (~10% bộ gen). Sinh vật tổng hợp, Syn 3, chứa 473 gen cơ bản và một số gen gần cơ bản (cần thiết cho sự sinh trưởng nhanh), mặc dù có 149 gen là chưa rõ chức năng.
Gen cơ bản
Các gen cơ bản bao gồm gen giữ nhà (housekeeping gen, chúng đặc biệt quan trọng cho các chức năng cơ bản của tế bào) cũng như các gen được biểu hiện ở những thời điểm khác nhau trong các giai đoạn phát triển hoặc vòng đời sinh học. Các gen giữ nhà được sử dụng trong kiểm soát khoa học khi thực hiện phân tích biểu hiện gen, vì chúng được biểu hiện cấu thành ở mức độ tương đối không đổi.
Định danh gen được quản lý bởi Ủy ban định danh gen (HUGO) cho mỗi gen đã biết ở người tuân theo dạng thức đã được phê chuẩn về tên của một gen và ký hiệu tương ứng của nó, cho phép dữ liệu về nó có thể truy cập được thông qua cơ sở dữ liệu quản lý bởi Ủy ban này. Các ký hiệu được chọn duy nhất cho từng gen (mặc dù đôi lúc phê duyệt lại ký hiệu thay đổi). Các ký hiệu được ưu tiên đặt sao cho giữ sự nhất quán với các thành viên khác trong một gia đình gen và với các gen tương đồng ở những loài khác, đặc biệt là ở chuột do nó được sử dụng là một trong những sinh vật mô hình.
Kỹ thuật di truyền là các phương pháp chỉnh sửa bộ gen của một sinh vật nhờ các công nghệ sinh học. Từ thập niên 1970, nhiều kỹ thuật đã được phát triển để thực hiện thêm, loại bỏ hoặc sửa đổi các gen trong sinh vật. Các kỹ thuật chỉnh sửa bộ gen được phát triển gần đây sử dụng các enzym nuclease để tạo ra các đích sửa chữa DNA trong nhiễm sắc thể hoặc là phá vỡ hay chỉnh sửa một gen khi vị trí đứt gãy được sửa đổi. Ngành sinh học tổng hợp (synthetic biology) đôi khi sử dụng các kỹ thuật liên quan để mở rộng nghiên cứu di truyền trên một sinh vật.
Kỹ thuật di truyền hiện nay là công cụ nghiên cứu thường xuyên áp dụng cho các sinh vật mô hình. Ví dụ, có thể dễ dàng thêm vào các gen ở vi khuẩn và nòi giống ở chuột knockout với một chức năng gen đặc biệt bị bất hoạt nhằm nghiên cứu chức năng của các gen. Nhiều sinh vật đã được sửa đổi về mặt di truyền để ứng dụng trong nông nghiệp (thực phẩm biến đổi gen), công nghiệp công nghệ sinh học và y học.
Đối với sinh vật đa bào, đặc biệt là các phôi được tác động theo ý muốn trước khi trưởng thành hay các sinh vật chỉnh sửa gen (GMO). Tuy nhiên, bộ gen của các tế bào trong sinh vật trưởng thành có thể chỉnh sửa bằng cách sử dụng các kỹ thuật liệu pháp gen để điều trị các bệnh liên quan tới di truyền.
Tin bài khác