NGS分析入门:设置运行环境 12

首先的问题的是,我们需要什么样的计算机。
关于硬件,

  • 需要至少4G内存,最好可以达到16G以上内存;
  • 至少500G硬盘空间。通常一个RNA-seq的数据量为20G左右,如果再加上分析之后的结果,可能达到50G,所以即使你有500G的空间,也分析不了几组数据。所以硬盘空间越多越好,比如说2TB或者使用高速网络存贮界质。
  • CPU,至少2核。因为你在运行程序时,通常100%占到CPU,如果没有2核,计算机多半会假死在那里。如果有8核,或者以上更好。
  • GPU,很多程序开始使用GPU运算,如果能有好的GPU显卡,也是推荐的,但不是必须的。

为了达到以上的条件,入门极的比如说Mac Pro。进阶级的就是独立server,高级的是supercomputer clusters,支持qsub之类的。或者可以购买云计算服务。

对于操作系统,在工作站方面,推荐Mac OS。它运行稳定,与LINUX同源。需要下载安装Xcode和wget就可以了。当然你还可以很方便的安装office办公软件,以及photoshop,AI等工具。最后安装好R/Bioconductor,就可以开始工作了。如果买了兼容机,可以安装上Linux/UNIX系统。它在安装上R/Bioconductor之后基本上就可以了。它的缺点是办公软件,绘图软件的安装。最差的就是Windows了。需要安装比如GCC编译器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。

有了软件及硬件,接下来的工作就是了解一些常识以武装你的大脑,这是整个运行环境中最重要的一环。首先,你需要学习了掌握UNIX常用命令,并且不反感字符界面。其次学会安装,设置及构建网络服务,比如apache的websever,以及mysql的数据库服务。第三安装及设置一个Galaxy。当然,第二步及第三步可能会有难度,可以先使用Galaxy本身的服务,但是它有很多限制,所以最好还是自己安装一个比较好。第四步,学习一门计算机语言,比如c, python, ruby, java等,还有一门脚本式语言工具,比如perl。第五步,学习使用R/Bioconductor。第六步,统计学。

至此,你的NGS分析环境就设置完成了。如果快的话,你可以两三个月就设置完成,达到起步的阶段,之后就是漫长的学习过程。慢的话,四年本科也不一定学到多少。

12 thoughts on “NGS分析入门:设置运行环境

  1. Reply zzy0630 4月 27,2013 3:59 上午

    博主你好!
    小弟不才,刚刚入门,是真正的小白。
    请教博主 要怎么做才能在win7下使用tophat bowtie cufflink这些软件?
    我已经在win7下学习了一段时间的perl和R了,电脑里有很多有用的东西,一时半会也不能入手新电脑。

  2. Reply admin 4月 27,2013 9:47 上午

    文中说明了关于windows下的基础软件的安装。完成之后在按照tophat等说明安装即可。

  3. Reply wujy 12月 23,2013 7:59 上午

    博主您好,从您的博客中我受益匪浅。我是一名大四学生,即将做一个 关于 小麦白粉菌应答24nt小分子RNA的分析 的毕设,我想用R做,请问需要了解那些方面的技术知识?可否详细描述下?

    • Reply admin 12月 23,2013 9:14 上午

      您需要学习的是:
      1. unix: 基本命令, 输入与输出(stdin, stdout, stderr …, pipes), 文件压缩工具(tar, gzip), 一些有用的工具(more, less, grep, …), 了解网络协议(SSH, FTP, SFTP, SCP, CP, …), 学会编写简单的bash角本,会自定义PATH等,了解进程(ps, kill), 了解如何后台执行命令,日志文件转向等。

      2. 生物数据结构与资源:理解基本的文件格式(fasta, fastq, bed, gtf, gff, sam, bam, wig, bigwig, bedgraph), 在线数据资源(ucsc, ensemble, ncbi),数据可视化手段(genomic browsers), 数据格式转换。

      3. Galaxy运行环境。

      4. 了解标准的RNA-seq的分析过程:理解数据, 理解方法, 数据的传输, 数据处理, 数据可视化. bowtie, bwa, cufflinks, igv

      5. 学习R以及bioconductor

      6. 使用bioconductor工具重复4的步骤,其目的是深入理解测序数据的分析流程,并锻炼动手能力。

      7. 小分子RNA分析数据前期处理,去除污染。

      8. 深入学习mirdeep的数据处理过程。

      9. 开始自己的数据分析。

    • Reply admin 12月 23,2013 9:21 上午

      另外,如果你没有老师指导的话,我觉得你做这个本科毕设有点太难了。还是三思后行。

  4. Reply wujy 12月 23,2013 10:16 上午

    谢谢您的回复,我有老师的指导,之前也做过RNA的比对,IGV导入。我一月份开始做毕设,想提前看下关于R的知识,因为phD期间重点做统计。请问您R里头具体会用到什么程序包?

  5. Reply wujy 12月 24,2013 2:55 上午

    还有会用到哪些统计学的知识呢?

  6. Reply wujy 12月 24,2013 3:00 上午

    bioconductor内会用到哪些程序包?除了bioconductor还会用到什么R的应用?EdgeR和Myrna有什么区别?

    • Reply admin 12月 26,2013 9:47 上午

      我没用过myrna。但是一般来说,人们会把edgeR和DESeq放在一起比较。你可以先学习R基础。其余地慢慢上手。学精一个包,比如limma,你基本上对R和Bioconductor有所了解了之后,无论什么包,你都依照着看文献,跑实例的办法学习就可以了。

  7. Reply JUNFENG SHI 6月 2,2017 2:37 上午

    博主您好,想询问一下,如果想要增加GPU,但是tesla的太贵了买不起,quadro系列的带有CUBE功能的GPU显卡是否也可以用来进行并行运算,谢谢

Leave a Reply

  

  

  

%d 博主赞过: