首页 ›存档› 技术 › 查看内容

【生信菜鸟经】教你如何轻松入门Linux

2018-3-30 13:00 |来自: 互联网 585 0

摘要: Linux系统在生物信息学数据处理中的重要性就不用我多说了，鉴于一直有学生问我一些很显而易见的问题，对系统性的学习并理解了Linux系统操作的专业人士来说是显而易见的。我在这里仅以拥有多年处理生物信息学数据经验 ...

Linux系统在生物信息学数据处理中的重要性就不用我多说了，鉴于一直有学生问我一些很显而易见的问题，对系统性的学习并理解了Linux系统操作的专业人士来说是显而易见的。我在这里仅以拥有多年处理生物信息学数据经验过来人的角度给大家总结一下，Linux该如何学，该学什么，该花多少工夫，学习重点是什么？

现可以把Linux的学习过程分成三个阶段，总结如下：

第一阶段：把linux系统玩得跟windows系统一样顺畅

这一阶段的主要目的就是去可视化，熟悉黑白命令行界面。

如何远程连接服务器(使用Xshell，SecureCRT，Putty，VNC~~~)，了解你在服务器上面有什么权限。
左右鼠标单击双击如何实现？磁盘文件浏览如何实现？文件操作如何实现？绝对路径和相对路径区别？
需要了解的常见的Linux命令：

pwd/ls/cd/mv/rm/cp/mkdir/rmdir/man/locate/head/tail/less/more
cut/paste/join/sort/uniq/wc/cat/diff/cmp/alias
wget/ssh/scp/curl/ftp/lftp/mysql/

大家可以搜索(每天一个linux命令的博客)来跟着练习，或者看一些Linux视频(百度云盘(http://pan.baidu.com/s/1jIvwRD8)共享了一大堆)，或者关注一些Linux学习相关公众号，加入一些linux社区，论坛，当然如果你只是简单了解，搞生物信息学其实没必要那么深入理解，跟着一本像样的入门书籍（建议看鸟哥Linux私房菜），完整的学习即可！

需要深度理解的概念有：

软硬链接区别
文本编辑，文件权限设置
打包压缩解压操作(tar/gzip/bzip/ x-j x-c vf)
软件的快捷方式如何实现？
软件如何安装(源码软件，二进制可执行软件，perl/R/python/java软件)
软件版本如何管理，各种编程语言环境如何管理，模块如何管理？(尤其是大部分没有root权限)

这些知识需要深度理解，所以一般初学者肯定会遇到问题，自己要多看教程和视频跟着了练习，但总会有一些不是你立即就能解决的，不要纠结，继续学习，不久之后回过头来就明白了。

翻译成生物信息学语言就是：

测序文件在哪里？测序文件有多大？测序文件的格式fastq/fasta是什么？
前几行怎么看，参考基因组如何下载？参考基因组如何建立比对索引？
blast软件如何安装以及使用？
比对结果如何看？结果如何过滤？两次结果如何比较？

建议自己安装bio-linux系统，里面会自带很多生物信息学测试数据(fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF……)，安装系统的过程也是熟悉linux的过程，熟悉这些数据格式既能加强生物信息学技巧，也能练习linux操作。

第二阶段：shell脚本，类似于windows的bat批处理文件

懂很多预定义变量：.bashrc/env/HOME/
学会一些控制语句：while/if/for/ 批量执行命令
开始自定义函数，避免重复造轮子。
了解 awk/sed/grep等文件操作语言，短小精悍，很多时候可以不需要编程。
正则匹配技巧,find函数使用
了解编程技巧 ()[]{} $$ 等符合如何使用，技巧有哪些，加快你数据处理能力(建议看shell 13问)

翻译成生物信息学语言就是：

要深度组合这些命令，并且通过shell脚本，把它们在实际生物信息学数据处理中应用起来，需要很多的实践操作，可以借鉴EMBOSS软件套件，fastx-toolkit等基础软件，实现并且模仿该软件的功能。尤其是SMS2/exonerate/里面的一些常见功能,还有DNA2.0 Bioinformatics Toolbox的一些工具。

基本上要了解到这里才能勉强算是一个合格的生物信息学工程师。