Linux系统在生物信息学数据处理中的重要性就不用我多说了,鉴于一直有学生问我一些很显而易见的问题,对系统性的学习并理解了Linux系统操作的专业人士来说是显而易见的。我在这里仅以拥有多年处理生物信息学数据经验过来人的角度给大家总结一下,Linux该如何学,该学什么,该花多少工夫,学习重点是什么? 现可以把Linux的学习过程分成三个阶段,总结如下: 第一阶段:把linux系统玩得跟windows系统一样顺畅这一阶段的主要目的就是去可视化,熟悉黑白命令行界面。
大家可以搜索(每天一个linux命令的博客)来跟着练习,或者看一些Linux视频(百度云盘(http://pan.baidu.com/s/1jIvwRD8)共享了一大堆),或者关注一些Linux学习相关公众号,加入一些linux社区,论坛,当然如果你只是简单了解,搞生物信息学其实没必要那么深入理解,跟着一本像样的入门书籍(建议看鸟哥Linux私房菜),完整的学习即可!
这些知识需要深度理解,所以一般初学者肯定会遇到问题,自己要多看教程和视频跟着了练习,但总会有一些不是你立即就能解决的,不要纠结,继续学习,不久之后回过头来就明白了。 翻译成生物信息学语言就是:
建议自己安装bio-linux系统,里面会自带很多生物信息学测试数据(fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF……),安装系统的过程也是熟悉linux的过程,熟悉这些数据格式既能加强生物信息学技巧,也能练习linux操作。 第二阶段:shell脚本,类似于windows的bat批处理文件懂很多预定义变量:.bashrc/env/HOME/ 翻译成生物信息学语言就是: 要深度组合这些命令,并且通过shell脚本,把它们在实际生物信息学数据处理中应用起来,需要很多的实践操作,可以借鉴EMBOSS软件套件,fastx-toolkit等基础软件,实现并且模仿该软件的功能。尤其是SMS2/exonerate/里面的一些常见功能,还有DNA2.0 Bioinformatics Toolbox的一些工具。 基本上要了解到这里才能勉强算是一个合格的生物信息学工程师。 第三阶段:高级运维技巧w/last/top/qsub/condor/apache/socket/IO/ps/who/uid/ 这个强烈建议初学者不要过于纠结,稍微了解为佳。 写在最后对于以上生信相关的Linux三个的学习阶段介绍就到这里了,牢记“不懂的名词,感觉谷歌搜索,多记笔记”。在学习Linux基础知识的同时,就可以开始项目实战,在实战的过程中要随时思考记录如何应用Linux知识辅助生物信息数据处理,并整理学习笔记以及经验分享。
本文转载于微信公众号: 生信技能树(biotrainee),更多微信文章请扫描关注公众号: |
|
声明:文章版权归原作者所有 部分文章转自互联网 如有侵权请联系
[邮箱地址] 删除
|