导航:首页 > 数据处理 > 生物信息学二级数据库有哪些

生物信息学二级数据库有哪些

发布时间:2022-11-27 04:28:52

A. NCBI有多少数据库,分别有什么作用

在生物医学信息学领域,数据库和服务的定义与计算机领域有很大的不同,如果要问NCBI过去,现在或将来会有多少数据库,恐怕连NCBI自己都说不清楚。要是一个一个数据库讲下来,9999个字肯定不够用。这里有一个列表供您参考http://www.ncbi.nlm.nih.gov/guide/all/。

NCBI的产生和发展是在美国和全球生物学高速发展,高通量数据急速产生,而缺乏有效的数据分析方法的背景下产生,起初它主要任务是数据的存储和查询。只不过其存储的数据大多以高通量数据为主,例如基因测序,基因组,SNP, 基因芯片,小分子化合物和GWAS数据等。这些数据的共享,极大地促进了生物信息学发展。

按照数据->样式->知识->智慧的发展模式,NCBI主要起到了一个为生物学家提供数据的角色。不过,NCBI目前也不断地在调整自己的角色。例如,生物医学文献。NCBI在从NLM继承过来的pubmed的基础,提供以PMC数据库为核心的全文文献服务。PubMed数据库应该是全球生物学家使用频率最高的数据库。NCBI最近对pubmed的改版,虽然没有实质性的改变,但其按照用户体验进行的修改,足见其对该数据库的重视。

另外,NCBI目前不断地在引入高学历生物学人才对其数据库的质量进行控制。以dbSNP为例,其正在通过与领域专家的合作将突变数据与人类表型数据进行关联。

总得来讲,NCBI的发展是与生物学高通量数据产生密切相关,它以经不在局限于提供数据存储与查询,其未来的发展必将发展为一个大型的、综合的知识库。到那时NCBI会不会免费,就要另当别论了。很显然没有人会将自己的手稿拱手让人。如果真有那么一天,不知道从中会产生多少专利和知识产权。

B. 什么是生物信息学中的二级数据库

根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库。

像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库。如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。

C. 列举常用的生物信息学数据库及序列对比常用软件及特点

一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:

CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:

位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:

受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:

GC含量:

引物的位点:

Tm值:

产物长度:。

9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库

数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel

限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)

设计引物扩增实验序列——Genefisher
Primer 3

蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)

多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019

D. in cell and developmental biology属于哪个数据库

in cell and developmental biology属于生物信息学数据库
生物信息数据库可以分为一级数据库和二级数据库。
一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;
二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上着名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。

E. 构建蛋白质二级数据库的基本原则是什么

生物大分子三维空间结构数据库是一类重要的生物信息学数据库。蛋白质结构数据库(ProreinData Bank,PDB)是1971年创建的国际上最着名、最完整的蛋白质三维结构数据库。另外还有蛋白质分类数据库SCOP和CATH。

F. 分子生物信息数据库的分子生物信息数据库分类

基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为基本数据库,初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个二次数据库和复合数据库,也称专门数据库、专业数据库、专用数据库。

G. 生物信息数据库分为哪四大类

按大小可以分为1.公共数据库
2. 从公共数据库中取数据做进一步处理的专业数据库,提供更多的分析工具
按功能分可以有
基因库GENEBANK,蛋白库UNIPROT, 结构库PDB, 功能分类 GO库,通路库 KEGG。

不用专注于4这个数字。随着科研的进步还会有更多的数据库出来。

H. 常用的生物信息学python库有哪些

常用的生物信息学python库:
Tkinter
Python默认的图形界面接口。Tkinter是一个和Tk接口的Python模块,Tkinter库提供了对Tk API的接口,它属于Tcl/Tk的GUI工具组。
PyGTK
用于python GUI程序开发的GTK+库。GTK就是用来实现GIMP和Gnome的库。
PyQt
用于python的Qt开发库。QT就是实现了KDE环境的那个库,由一系列的模块组成,有qt, qtcanvas, qtgl, qtnetwork, qtsql, qttable, qtui and qtxml,包含有300个类和超过5750个的函数和方法。PyQt还支持一个叫qtext的模块,它包含一个QScintilla库。该库是Scintillar编辑器类的Qt接口。
wxPython
GUI编程框架,熟悉MFC的人会非常喜欢,简直是同一架构(对于初学者或者对设计要求不高的用户来说,使用Boa Constructor可以方便迅速的进行wxPython的开发)
PIL
python提供强大的图形处理的能力,并提供广泛的图形文件格式支持,该库能进行图形格式的转换、打印和显示。还能进行一些图形效果的处理,如图形的放大、缩小和旋转等。是Python用户进行图象处理的强有力工具。
Psyco
一个Python代码加速度器,可使Python代码的执行速度提高到与编译语言一样的水平。
xmpppy
Jabber服务器采用开发的XMPP协议,Google Talk也是采用XMPP协议的IM系统。在Python中有一个xmpppy模块支持该协议。也就是说,我们可以通过该模块与Jabber服务器通信,是不是很Cool。
PyMedia
用于多媒体操作的python模块。它提供了丰富而简单的接口用于多媒体处理(wav, mp3, ogg, avi, divx, dvd, cdda etc)。可在Windows和Linux平台下使用。
Pmw
Python megawidgets,Python超级GUI组件集,一个在python中利用Tkinter模块构建的高级GUI组件,每个Pmw都合并了一个或多个Tkinter组件,以实现更有用和更复杂的功能。
PyXML
用Python解析和处理XML文档的工具包,包中的4DOM是完全相容于W3C DOM规范的。它包含以下内容:
xmlproc: 一个符合规范的XML解析器。Expat: 一个快速的,非验证的XML解析器。还有其他和他同级别的还有 PyHtml PySGML。
PyGame
用于多媒体开发和游戏软件开发的模块。
PyOpenGL
模块封装了“OpenGL应用程序编程接口”,通过该模块python程序员可在程序中集成2D和3D的图形。
NumPy、NumArray、SAGE
NumArray是Python的一个扩展库,主要用于处理任意维数的固定类型数组,简单说就是一个矩阵库。它的底层代码使用C来编写,所以速度的优势很明显。SAGE是基于NumPy和其他几个工具所整合成的数学软件包,目标是取代Magma, Maple, Mathematica和Matlab 这类工具。
MySQLdb
用于连接MySQL数据库。还有用于zope的ZMySQLDA模块,通过它就可在zope中连接mysql数据库。
Sqlite3
用于连接sqlite数据库。

Python-ldap
提供一组面向对象的API,可方便地在python中访问ldap目录服务,它基于OpenLDAP2.x。
smtplib
发送电子邮件。
ftplib
定义了FTP类和一些方法,用以进行客户端的ftp编程。如果想了解ftp协议的详细内容,请参考RFC959。
PyOpenCL
OpenCL的Python接口,通过该模块可以使用GPU实现并行计算。

I. YLWWINNER是什么

分子生物学数据库的演变经历了文献索引数据库、事实数据库和知识数据库三个阶段。

生物信息学涉及的数据库可大致分为二种:初级数据库和二级数据库。

一级数据库(初级数据库):数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

国际上着名的初级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等;基因组数据库等。
国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
EMBL数据库的每个条目是一份纯文本文件。每一行最前面是由两个大写字母组成的识别标志, 欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC 都采用EMBL格式。

GenBank序列文件由单个的序列条目组成。序列条目是一个纯文本文件,由字段组成,每个字段由关键字(为完整的英文字,不用缩写)起始(每行左端或为空格),后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献着作和生物学注释。

PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、PreMED-LINE数据库的网上检索系统。MEDLINE是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。

BLAST(Basic Local Alignment Search Tool):是目前常用的数据库搜索程序,意为“基本局部相似性比对搜索工具”。国际着名生物信息中心都提供基于网络的BLAST服务器。

SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库。

数据库查询(database query) :对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。

数据库搜索(database search

是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。最为着名的信息检索系统是美国NCBI开发的Entrez数据检索系统和EBI开发的SRS序列检索系统

数据库相似性搜索工具最常见的是FASTA工具和BLAST工具。

EMBL的发送系统为WebIn

GenBank 的发送系统sequin

测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到Genbank数据库。这个任务可以由基于Web界面的BankIt或独立程序Sequin来完成。

确定DNA序列之间或蛋白质序列之间相似性程度的过程称为序列比对(sequence alignment)。

双序列比对(pairwise alignment)是指通过一定算法对两个DNA或蛋白质序列进行比较,找出两者之间最大相似性匹配。

变异的种类主要有以下三种: 替代(substitution)插入或删除(insertion or deletion) indel 重排(rearrangement

同源序列是从某一共同祖先经趋异进化而形成的不同序列 。

相似性(similarity)指序列比对过程中用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低。
同源性(homology)是指从一些数据中判断出两个基因在进化上曾具有共同祖先的结论。

全局比对(global alignment):
从全长序列出发,考察两个序列之间的整体相似性。

局部比对(local alignment):
着眼于序列中的某些特殊片断,比较这些片断之间的相似性、

(3)K-元法/字法

(k-tuple method /word method)

该方法从寻找完全匹配的短片断(称为k-元或字)出发,并以此为基础运用动态规划方法将这一片断向两端延伸,得到较长的相似性匹配。

在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。

空位:序列中任意连续的尽可能长的空格

空位开放 (gap opening)

对新空位的产生进行的空位开放罚分(a)

空位延伸(gap extension )

对空位延伸所进行的空位延伸罚分(b)

空位罚分(Wk)的数学公式

Wk=a+bk k为连续空位个数

@空位处罚特点:1、同常对于a会选择一个高分(10-15分)对于b会选择一个低分(1-2分)

2、大的空位设置值配以很小的空位扩展罚值被普遍证实是最佳的设定思路

@目前最有名的蛋白质矩阵Blosum、PAM

@PAM矩阵要点:可观测突变百分率

核酸序列的检索

1.NCBI中的Entrez

*核酸中载体序列的识别和去除VecScreen

重复序列分析 有CENSOR(EMBL)和RepeatMasker

CpG岛识别 CpGPlot/CpGReport

启动子与转录因子结合位点的识别TRES、Neural Network Promoter Prediction、Dragon Promoter Finder、 promoterInspector、NNPP2.1、TSSG、promoter2.0、Mcpromoter 。

内含子-外显子剪接位点的识别SpliceView、NetGene2和BDGP中Splice Site Prediction等。

编码区统计特性分析GRAIL和GenMark

tRNA基因的识别tRNAscan-SE

其它综合基因预测工具GENSCAN

限制性内切酶分析REBASE(从google英文界面进入)

在线限制性酶切资源NEBcutter V2.0 WebCutter

PCR引物设计Primer 3 Genefisher

① 引物应用核酸系列保守区内设计并具有特异性。
② 产物不能形成二级结构。
③ 引物长度一般在15~30bp碱基之间,常用的是18~27bp,但不应大于38bp,两引物长度差异不超过3bp。
④ G+C含量在40%~60%之间。
⑤ 退火温度在42~57℃,但两引物间的退火温度的差不可大于5℃ 。
⑥ 引物自身不能有连续4个碱基的互补。
⑦ 引物之间不能有连续4个碱基的互补。
⑧ 引物5′端可以修饰(加酶切位点序列;标记生物素、荧光素、地高辛等 )。
⑨ 引物3′端不可修饰。
⑩ 引物3′端要避开密码子的第3位,一般避免使用碱基A,最好为G和C。

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,

PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

ProtParam工具这是用于计算蛋白质的各种物理化学性质的工具,包括蛋白质的相对分子质量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等。

Compute pI/MW工具 是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。

AACompldent工具 根据氨基酸组成辨识蛋白质。

PeptideMass工具 是分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。

蛋白质二级结构预测

nnpredict工具 (不能用,二级结构预测改用GOR)

HNN工具- Hierarchical Neural Network method

ProtScale工具蛋白质的疏水性分析

Tmpred---跨膜结构分析

COILS---卷曲螺旋预测

SignalP ---信号肽预测工具

蛋白质三级结构预测

SWISS-Model工具 自动蛋白质同源模建服务器,有三个工作模式:Automated Mode、 Alignment Mode和 Project Mode。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。

最为着名的三大核心数据库:PDB 生物大分子结构数据库;SWISS-PROT 蛋白质序列数据库;

GENBANK 核酸数据库

公认三大核酸数据库:NCBI(美) EMBL(欧洲) DDBJ(日)

阅读全文

与生物信息学二级数据库有哪些相关的资料

热点内容
股市交易心态怎么看 浏览:393
发在群里的信息应该怎么撤回 浏览:325
聊城哪里查询房屋网签信息 浏览:844
如何形容技术大牛 浏览:296
广州房产查册有什么小程序 浏览:750
如何手动签字程序设计 浏览:981
判决后立案下个程序是什么 浏览:857
用excel如何取数据交集 浏览:343
哪些行业的信息化不够 浏览:565
买东西买到过期产品该怎么样 浏览:40
线上怎么走平台交易 浏览:344
阿里巴巴自己的产品怎么买 浏览:892
菜市场上的激素有哪些 浏览:355
宜春五大员八大技术工报价多少 浏览:735
疫情期间哪些产品可以防疫 浏览:545
信息工程和复旦大学哪个好 浏览:560
如何在闲鱼上交易宠物狗 浏览:834
网红零食产品都有哪些 浏览:937
启用http代理是什么 浏览:868
提取空白数据是什么意思 浏览:819