关于大规模数据操作

大规模数据操作牵扯到效率以及计算机硬件资源占用的问题，当然，这两个指标是鱼与熊掌的关系。
但是，通过对数据的提前预处理，我们可以在一定程度上将鱼与熊掌得兼。
常用的预处理方法：
一，多维排序并创建索引。
将数据按照一定的层次排序，每个层次内部按照某一个指标再排序，同时，再排序过程中生成一个记录每个层次位置的索引表。
二，利用现有格式
关于利用已经有资源的情况已经不知一次被重申并且强调。
现有的大规模基因组相关数据格式有：GTF，GFF等等

posted on 2011-11-29 15:42 ewre 阅读(266) 评论(0) 编辑收藏引用所属分类: Bioinformatics

只有注册用户登录后才能发表评论。


相关文章: 关于Corona Lite 关于大规模数据操作 linux disk usage command-du KEGG数据库收费了你做的公共分析工具，请你维护 GTF与GFF file format

网站导航: 博客园博客园最新博文博问管理

以致宏大，以致高远

关于大规模数据操作

导航

留言簿(2)

文章分类

文章档案

最新评论

阅读排行榜