Application of Bioinformatics database
Application of Bioinformatics database
2024-3-26|Last edited: 2024-5-28
icon

简介

NCBI数据库

三大数据库之一,美国(另外两个在欧洲EMBL和日本DDBJ)
BLAST 序列比对
Genome 基因组
SNP 单核苷酸多态
💡
多态不等于突变,我们关注外显子,人和人很多不同,但是不影响功能。
 
notion image
一些背景知识:
生物信息学(Bioinformatics)主要研究核酸序列、蛋白质序列
非编码RNA可以调控(通过干绕RNA,可以沉默基因表达)
蛋白质结构预测:X射线,电镜
 
Mus 小鼠 Homo sapiens人类 Rattus 大鼠
 

核酸序列

以人类TBX5为例
notion image
上面有一些简介,如编码基因,主要在心脏、胎盘,等
 
Location,是在染色体的位置,q代表染色体长臂(p是断臂)
See TBX5 in Genome Data Viewer Location: 12q24.21
Exon count: 10代表外显子的数量
 
从这里可以看的蛋白质序列等
notion image
DNA序列最长,蛋白质序列最短(不是三倍关系)
即使是成熟mRNA,也不是三倍关系,原因如下
(不同转录本?)
 
图. pre-mRNA变为mRNA的过程
 
在出细胞核的时候剪切内含子
5’和3’UTR,虽然是外显子,但是属于非翻译区
 

全基因组序列

notion image
bp是碱基对的意思,蓝框最后更新时间
notion image
黄框FASTA是通用的格式,要用这个
从大于号>开始,都要复制
notion image
 
notion image
NM是mRNA序列,NP是蛋白质序列
下载序列的时候都是去找FASTA
 
蛋白质可以找这个,链接到别的网站
notion image
 
起始密码子翻译甲硫氨酸
终止密码子有三种(但是记住没用)
所以并不是三倍关系,518*3=1557-3
notion image
这里按照ATCG写的,没有U
 
分清关系:CDS序列,编码序列,开放阅读框架ORF,UTR
 

Gene Table

notion image
notion image
红色为UTR区域,蓝色差3个,说明有3个不参与表达,黄色为两两外显子之间的内含子
可以用于找第X个外显子的表达(?)点进去能下载
 

另一个数据库 Ensembl

有人类、小鼠、斑马鱼(透明,可以观察器官)等序列
BRCA1/2:乳腺癌相关
notion image
  1. 外显子,非编码
  1. 外显子,编码
  1. 内含子
上面还有那个Gene tree,有个图,能看相近的物种

蛋白序列

 
notion image
Download为FASTA格式
sp,意思来自于swiss-prot
Q开头的,是这个数据库中的ID号
人类TBox转录因子
物种
PE,蛋白质序列的可信度,1是最高,最大5,可信度低
SV,版本
💡
左侧Swiss-Prot为人工鉴定,可信度高 右侧TrEMBL为计算机预测,可信度低,可供参考
notion image
左侧目录:
表达,相关RNA等
相互作用
蛋白质三维结构
 
notion image
实验报告:
 
Nucleic acid/protein sequence alignmentLaTeX+Submission process record