Tạo ra hơn 1.000 bộ gen người một cách tiết kiệm: Phương pháp mới đẩy mạnh tương lai của y học

0c67270c24f802ef9521b9d080dcd0ee Assembling Over 1,000 Human Genomes Affordably: New Method Powers Medicine's Future

(SeaPRwire) – HANGZHOU, Trung Quốc, ngày 3 tháng 4 năm 2026 — Một nhóm nghiên cứu do Giáo sư Zhen-Xing Endowed Jian Yang tại Trường Khoa học Sự sống, Westlake University dẫn đầu, cùng với các cộng sự, đã công bố những phát hiện mới nhất của họ trên tạp chí Nature vào ngày 1 tháng 4. Nghiên cứu này đã phát triển một phương pháp lắp ráp bộ gen dựa trên pangenome (PIGA) đầy sáng tạo. Bằng cách kết hợp chiến lược giải trình tự lai hiệu quả về chi phí giữa các đoạn đọc dài và ngắn, nhóm đã xây dựng thành công một pangenome cho hơn một nghìn cá thể. Thành tựu này đã vượt qua những hạn chế của các pangenome mẫu nhỏ trước đây và cung cấp một cơ sở hạ tầng nền tảng quan trọng cho nghiên cứu di truyền học y tế và quần thể.

Kể từ khi hoàn thành Dự án Bản đồ Gen Người (Human Genome Project), các bộ gen tham chiếu tuyến tính đơn lẻ (như GRCh38) đã đóng vai trò là nền tảng cho nghiên cứu y sinh. Tuy nhiên, nền tảng di truyền của các cá thể người khác nhau đáng kể, và một bộ gen tham chiếu đơn lẻ không thể nắm bắt được toàn bộ phạm vi đa dạng di truyền giữa các quần thể. Điều này dẫn đến việc các dạng biến thể di truyền phức tạp, chẳng hạn như biến thể cấu trúc (SVs) và các đoạn lặp lại song song (TRs), bị bỏ qua trong các phân tích truyền thống. Để giải quyết thách thức này, các nhà nghiên cứu đã đề xuất khái niệm pangenome—một tập hợp các trình tự bộ gen đại diện cho sự đa dạng di truyền của một quần thể.

Mặc dù những tiến bộ trong giải trình tự đọc dài (long-read sequencing) đã cho phép lắp ráp các bộ gen lưỡng bội chất lượng cao, nhưng chi phí giải trình tự cao đã giới hạn quy mô mẫu của các pangenome trước đây chỉ ở mức vài chục cá thể. Quy mô mẫu nhỏ như vậy là không đủ để ước tính chính xác tần suất của các biến thể di truyền trong quần thể hoặc để giải quyết các biến thể tần suất thấp và các vùng có độ phức tạp cao. Do đó, việc phát triển một chiến lược xây dựng pangenome hiệu quả về chi phí cho các quần thể quy mô lớn đã trở thành một yêu cầu cấp thiết để giải quyết tác động chức năng của các biến thể phức tạp và tăng cường chẩn đoán lâm sàng.

Nhóm của Jian Yang từ lâu đã dành tâm huyết cho nghiên cứu phương pháp luận trong di truyền học thống kê, hệ gen học và phân tích dữ liệu lớn về các đặc điểm phức tạp của con người. Bằng cách phát triển các phương pháp tính toán hiệu quả, nhóm đã liên tục giải quyết các thách thức cốt lõi trong việc xử lý dữ liệu hệ gen quy mô lớn. Các công cụ phân tích do nhóm phát triển, chẳng hạn như GCTA-GREML, SMR và gsMap, đã được áp dụng rộng rãi trên toàn cầu. Để giải quyết thách thức trong việc xây dựng pangenome quy mô lớn, nhóm nghiên cứu đã phát triển quy trình lắp ráp bộ gen dựa trên pangenome (PIGA) (Hình 1). Không giống như các phương pháp lắp ráp de novo dựa vào dữ liệu giải trình tự từ các mẫu riêng lẻ, PIGA áp dụng khung hướng dẫn pangenome để tích hợp thông tin trình tự trên toàn bộ nhóm nghiên cứu. Phương pháp này tận dụng tối đa chiến lược giải trình tự lai hiệu quả về chi phí dựa trên dữ liệu giải trình tự toàn bộ bộ gen (WGS) bằng Illumina đọc ngắn độ phủ khiêm tốn và PacBio đọc dài. Cách tiếp cận này làm giảm đáng kể chi phí giải trình tự trong khi vẫn cho phép lắp ráp các bộ gen từ dữ liệu độ phủ khiêm tốn, từ đó cung cấp một lộ trình kỹ thuật mới thiết thực cho các nghiên cứu giải trình tự lai quy mô quần thể trong tương lai.

Áp dụng phương pháp này, nhóm nghiên cứu đã xây dựng pangenome người lớn nhất thế giới cho đến nay, bao gồm 1.116 bộ gen lưỡng bội với giá trị chất lượng trung bình (QV) là 46. Pangenome đã xác định được 405,3 triệu cặp bazơ (Mb) các trình tự không tham chiếu vắng mặt trong các tài liệu tham khảo hiện tại (GRCh38 và CHM13). Đáng chú ý, nhóm đã chú giải 26,2 Mb các trình tự này là các gen chức năng và các yếu tố điều hòa được dự đoán, mở rộng đáng kể hiểu biết của chúng ta về các trình tự không tham chiếu trong bộ gen người.

Tận dụng tập dữ liệu lắp ráp quy mô lớn, các nhà nghiên cứu đã biên soạn một danh mục toàn diện về biến thể di truyền. Ngoài 35,4 triệu biến thể nhỏ, danh mục này còn nắm bắt được nhiều loại biến thể phức tạp, bao gồm 110.530 SVs, 485.575 TRs và 0,86 triệu biến thể lồng nhau nằm trong các trình tự không tham chiếu.

Sử dụng danh mục này, nhóm đã mô tả các biến thể liên quan đến y tế ở nhiều quy mô (Hình 2), bao gồm các SV làm thay đổi gen, các đoạn mở rộng TR gây bệnh, các biến thể cụm gen và các haplotype gen HLA. Những phát hiện này chỉ ra rằng danh mục biến thể 1KCP cung cấp một tài liệu tham khảo quan trọng cho việc sàng lọc lâm sàng các đột biến gây bệnh.

Bằng cách tích hợp dữ liệu biểu hiện gen, nhóm đã thực hiện lập bản đồ các locus tính trạng định lượng biểu hiện (eQTL) đa biến thể. Họ đã xác định được 3.256 eQTL liên quan đến các biến thể phức tạp (SVs, TRs và các biến thể lồng nhau), làm sáng tỏ sự phức tạp trong điều hòa của các loại biến thể đa dạng này.

Tổng hợp lại, nghiên cứu này thúc đẩy đáng kể hiểu biết của chúng ta về các biến thể di truyền phức tạp và ý nghĩa chức năng của chúng, thiết lập một mô hình mới cho nghiên cứu sức khỏe con người và các nghiên cứu pangenome ở các loài khác.

Nghiên cứu sinh Tiến sĩ Yifei Wang và Trợ lý Giáo sư Nghiên cứu Zhongqu Duan là các đồng tác giả chính của nghiên cứu. Giáo sư Jian Yang là tác giả cuối cùng. Công trình này được hỗ trợ bởi Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc, Chương trình R&D trọng điểm quốc gia, Chương trình “Pioneer & Leading Goose” của tỉnh Chiết Giang và Quỹ Khoa học New Cornerstone. Các tài nguyên tính toán được cung cấp bởi Trung tâm Tính toán Hiệu năng cao tại Westlake University.

Nhóm nghiên cứu của Giáo sư Jian Yang chuyên phát triển các phương pháp di truyền học thống kê và tin sinh học. Bằng cách phân tích sâu dữ liệu hệ gen và đa omics từ các nhóm quần thể quy mô lớn, họ hướng tới việc khám phá kiến trúc di truyền và các cơ chế phân tử cơ bản của các bệnh phức tạp, chuyển đổi những khám phá này thành các chiến lược mới cho chẩn đoán bệnh, khám phá mục tiêu thuốc và y học chính xác.

Các liên kết liên quan:
Liên kết bài báo: https://www.nature.com/articles/s41586-026-10315-y
Trang web phòng thí nghiệm Jian Yang: https://yanglab.westlake.edu.cn/

Liên hệ truyền thông:
Chi Zhang
media@westlake.edu.cn
+86-15659837873

NGUỒN Westlake University

Bài viết được cung cấp bởi nhà cung cấp nội dung bên thứ ba. SeaPRwire (https://www.seaprwire.com/) không đưa ra bảo đảm hoặc tuyên bố liên quan đến điều đó.

Lĩnh vực: Tin nổi bật, Tin tức hàng ngày

SeaPRwire cung cấp phát hành thông cáo báo chí thời gian thực cho các công ty và tổ chức, tiếp cận hơn 6.500 cửa hàng truyền thông, 86.000 biên tập viên và nhà báo, và 3,5 triệu máy tính để bàn chuyên nghiệp tại 90 quốc gia. SeaPRwire hỗ trợ phân phối thông cáo báo chí bằng tiếng Anh, tiếng Hàn, tiếng Nhật, tiếng Ả Rập, tiếng Trung Giản thể, tiếng Trung Truyền thống, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai, tiếng Đức, tiếng Nga, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha và các ngôn ngữ khác.