直接概念
可迭代对象(Iterable): 可以直接作用于for循环的对象;
迭代器(Iterator): 可以被next()
函数调用并不断返回下一个值的对象。
所有的Iterable均可通过内置函数iter()
来转变为Iterator。
可迭代对象(Iterable): 可以直接作用于for循环的对象;
迭代器(Iterator): 可以被next()
函数调用并不断返回下一个值的对象。
所有的Iterable均可通过内置函数iter()
来转变为Iterator。
argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于在python解析命令行参数。
命令行访问和获取NCBI数据当选Entrez Direct: E-utilities on the UNIX Command Line.
esearch 搜索功能;
elink looks up neighbors (within a database) or links (between databases).
efilter 搜索结果过滤,搜索结果以特定格式输出.
efetch 以指定格式下载搜索结果.
xtract 转化XML格式为table.
einfo obtains information on indexed fields in an Entrez database.
epost uploads unique identifiers (UIDs) or sequence accession numbers.
nquire sends a URL request to a web page or CGI service.
AUGUSTUS is a program that predicts genes in eukaryotic genomic sequences.
InterProScan常用于基因序列的功能注释,InterPro**是一个包含有蛋白质功能和家族等的数据库,而InterProScan的功能就是将我们的目标序列比对到这个数据库,从而了解其功能。
对于基因组文库我们一般会建小库(<1k)的**paired-end reads="" (l-=""> <-R) 和大库的 mate-pair reads(<-L R->),二者最主要的区别就是reads1和reads2的方向和之间的间隔大小。
Genomic Feature通常包括exon、intron、intergenic region、UpstreamToGene、UTRs等,对于有完整参考基因组物种其一般都有注释文件gff3,但其一般只有mRNA,gene和exon的坐标信息,而我们通常也需要更多的Genomic Feature信息。