Application of Bioinformatics database
icon
简介
NCBI数据库
三大数据库之一,美国(另外两个在欧洲EMBL和日本DDBJ)
BLAST 序列比对
Genome 基因组
SNP 单核苷酸多态
多态不等于突变,我们关注外显子,人和人很多不同,但是不影响功能。

一些背景知识:
生物信息学(Bioinformatics)主要研究核酸序列、蛋白质序列
非编码RNA可以调控(通过干绕RNA,可以沉默基因表达)
蛋白质结构预测:X射线,电镜
Mus 小鼠 Homo sapiens人类 Rattus 大鼠
核酸序列
以人类TBX5为例

上面有一些简介,如编码基因,主要在心脏、胎盘,等
Location,是在染色体的位置,q代表染色体长臂(p是断臂)
See TBX5 in Genome Data Viewer Location: 12q24.21
Exon count: 10代表外显子的数量
从这里可以看的蛋白质序列等

DNA序列最长,蛋白质序列最短(不是三倍关系)
即使是成熟mRNA,也不是三倍关系,原因如下
(不同转录本?)
图. pre-mRNA变为mRNA的过程
在出细胞核的时候剪切内含子
5’和3’UTR,虽然是外显子,但是属于非翻译区
全基因组序列

bp是碱基对的意思,蓝框最后更新时间

黄框FASTA是通用的格式,要用这个
从大于号>开始,都要复制


NM是mRNA序列,NP是蛋白质序列
下载序列的时候都是去找FASTA
蛋白质可以找这个,链接到别的网站

起始密码子翻译甲硫氨酸
终止密码子有三种(但是记住没用)
所以并不是三倍关系,518*3=1557-3

这里按照ATCG写的,没有U
分清关系:CDS序列,编码序列,开放阅读框架ORF,UTR
Gene Table


红色为UTR区域,蓝色差3个,说明有3个不参与表达,黄色为两两外显子之间的内含子
可以用于找第X个外显子的表达(?)点进去能下载
另一个数据库 Ensembl
有人类、小鼠、斑马鱼(透明,可以观察器官)等序列
BRCA1/2:乳腺癌相关

- 外显子,非编码
- 外显子,编码
- 内含子
上面还有那个Gene tree,有个图,能看相近的物种
蛋白序列

Download为FASTA格式
sp,意思来自于swiss-prot
Q开头的,是这个数据库中的ID号
人类TBox转录因子
物种
PE,蛋白质序列的可信度,1是最高,最大5,可信度低
SV,版本
左侧Swiss-Prot为人工鉴定,可信度高
右侧TrEMBL为计算机预测,可信度低,可供参考

左侧目录:
表达,相关RNA等
相互作用
蛋白质三维结构

实验报告: