Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng

Để nhận kết quả, chọn
nút “Send” ở góc trên bên
phải.
• Chẳng hạn, chọn như
hình bên để ghi ra file với
đầy đủ thông tin theo
GenBank
• Khi đó, trên default
download folder có tập
tin sequence.gb
• Ban đầu GenBank được xây dựng ở Phòng thí
nghiệm quốc gia Los Alamos, Hoa Kỳ (LANL -
Los Alamos National Laboratory).
• Sau đó, vào năm 1990, được đưa về Trung tâm
quốc gia Thông tin Công nghệ sinh học (NCBI -
National Center for Biotechnology Information). 
pdf 20 trang thiennv 09/11/2022 3440
Bạn đang xem tài liệu "Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_tin_sinh_hoc_dai_cuong_chuong_2_tim_kiem_trinh_tu.pdf

Nội dung text: Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu - Trần Văn Lăng

  1. Kết quả tìm kiếm Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 41 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 42 • Cũng có thể lấy toàn bộ dữ liệu từ các ngân hàng này bằng cách dùng giao thức ftp để truyền tập tin. CƠ SỞ DỮ LIỆU CẤU TRÚC PDB • Cụ thể – – – Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 43 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 44 11
  2. 2. Cơ sở dữ liệu PDB • PDB (Protein Data Bank) là một trong những cơ sở dữ liệu sinh học phân tử đầu tiên trên thế giới • Năm 1971, PDB được thành lập ở Brookhaven được thành lập trước cả những cơ sở dữ liệu National Laboratory. DNA. • Từ 1998, PDB được chuyển đến cho Research • Kể từ khi cấu trúc protein đầu tiên được công bố Collaboratory for Structural Bioinformatics năm 1950 thì mãi đến những năm 1970 thế giới (RCSB) vẫn không có một sự biến động nào đáng kể về số lượng cấu trúc protein. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 45 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 46 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 47 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 48 12
  3. • Trong ngân hàng PDB, – có 84.645 dữ liệu cấu trúc (20/9/2012). – 10/9/2013, có 93.788 cấu trúc – 23/9/2014, có 103.557 cấu trúc – 09/9/2015, có 111.956 cấu trúc – 15/9/2016, có 122.583 cấu trúc • Chẳng hạn, có thể tìm cấu trúc của “Human Enterovirus” Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 49 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 50 Protein ID: 3N6L Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 51 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 52 13
  4. • Để coi cấu trúc của protein có trong PDB, có thể sử dụng trực tiếp từ trang web của PDB. • Hoặc có thể coi từ các phần mềm khác. Chẳng hạn, với Jmol viết bằng Java Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 53 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 54 Mô hình CSDL Protein Ý nghĩa của các table • Table PROTEIN: Lưu trữ tên protein, đây là bảng chính trong cơ sở dữ liệu protein • Table PRO_HEADER: Mỗi mẫu tin trong bảng dữ liệu là mẫu tin duy nhất định nghĩa một tập tin PDB thông qua khoá chính. Mẫu tin này cung cấp thông tin phân loại thực thể. Cuối cùng là thông tin về ngày mà nó được lưu trữ ở PDB. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 55 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 56 14
  5. • Table PRO_CAVEAT: Cảnh báo các lỗi phục vụ trong một cấu trúc, một mẫu tin sẽ xác định cấu • Table PRO_OBSLTE: Xuất hiện khi cấu trúc của trúc bị rút ra khỏi tập hợp cấu trúc công bố. protein bị loại. • Table PRO_COMPND: Mẫu tin compnd mô tả • Table PRO_TITLE: Chứa tiêu đề mô tả nội dung nội dung của cấu trúc. Mỗi đại phân tử tìm thấy của cấu trúc và bất kỳ thủ tục hoặc điều kiện để trong cấu trúc được mô tả trong một tập hợp phân biệt cấu trúc này với cấu trúc khác. token: giá trị cặp và được tham chiếu đến thành phần mẫu tin compnd khác. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 57 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 58 • Table PRO_SOURCE: Mẫu tin chỉ định loại tài • Table PRO_EXPDTA: Đại diện thông tin về thực nguyên sinh học hoặc hoá học của mỗi phần tử nghiệm. Mẫu tin này bắt buộc và xuất hiện trong sinh học trong cấu trúc. tất cả cấu trúc • Table PRO_KEYWDS: Lưu trữ một tập hợp • Table PRO_AUTHOR: Lưu tên của những người những khoá thích hợp đến cấu trúc. Các khoá tìm ra cấu trúc. trong bảng KEYWDS cung cấp một ý nghĩa để phân loại cấu trúc. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 59 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 60 15
  6. • Table PRO_JRNL: Lưu trữ những bài báo mô tả • Table PRO_REVDAT: Lưu lại lịch sử sửa đổi của quá trình thực nghiệm tìm ra kết quả. Một cấu cấu trúc từ khi được công bố. trúc có ít nhất một tham chiếu JRNL. • Table PRO_SPRSDE: Chứa danh sách mã ID • Table PRO_REMARK1: Lưu trữ chi tiết thực của các cấu trúc bị lạc hậu, bị rút ra khỏi tập dữ nghiệm, giải thích, ghi chú và thông tin không liệu đã công bố. nằm trong những mẫu tin khác. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 61 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 62 TÌM KIẾM TƯƠNG ĐỒNG TRONG NGÂN • Có thể tìm trong tài liệu về cấu trúc của CSDL DNA HÀNG DỮ LIỆU và Protein Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 63 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 64 16
  7. BLAST • BLAST tìm kiếm giữa chuỗi truy vấn với chuỗi có trong CSDL bằng: • BLAST (Basic Local Alignment Search Tool) là – Phương pháp heurictic công cụ tìm các vị trí tương đồng cục bộ giữa các – Giải thuật Smith-Waterman trình tự sinh học DNA và Protein. • Được phát triển bởi NCBI. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 65 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 66 • Có 5 chương trình BLAST chính: • Mặc dù không chính xác bằng thuật giải Smith- – nucleotide blast Waterman, nhưng phương pháp heurictic vẫn – protein blast được chọn lựa bởi cho tốc độ tìm kiếm nhanh gấp – Blastx nhiều lần khi phải truy vấn trong ngân hàng dữ – tblastn liệu lớn – tblastx Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 67 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 68 17
  8. • nucleotide blast: để tìm một trình tự nulcleotide từ • protein blast: tìm một trình tự peptide, hoặc CSDL nucleotide polypeptide từ CSDL protein. • Thuật toán sử dụng: • Thuật toán: – blastn, megablast, discontiguous megablast – blastp, psi-blast, phi-blast, delta-blast Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 69 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 70 • tblastn: tìm một trình tự protein từ CSDL • blastx: tìm một trình tự nucleotide đã biên dịch từ nucleotide đã biên dịch CSDL protein Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 71 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 72 18
  9. BLAST ( • tblastx: tìm một trình tự nucleotide đã biên dịch từ CSDL nucleotide đã biên dịch. Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 73 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 74 Ví dụ • Sau đó chuyển vào trang dùng Nucleotide • Tạo DNA ngẫu nhiên từ BLAST dna.html Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 75 Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 76 19
  10. • Kết quả tìm kiếm được: Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY 77 20