生物信息学分析工具
通常起源于3.5亿年前的基因家族都可以检测到。通过使用NCBI的BLAST和psi-BLAST,然后使用BLAT对UCSC基因组进行联配可以找到更多的差异序列。实际上,BLAT对灵长类的DNA以及陆地脊椎动物的蛋白效果都很好。
Blast由 W.James Kent 于 2002 年开发。当时随着人类基因组计划的进展,把大量基因和 ESTs 快速定位到较大的基因组上成为一种迫切需要。blast 相对于这种比对有几个缺陷:速度偏慢、结果难于处理、无法表示出包含 intron 的基因定位。Blat 就是在这种形势下应运而生了。
Blat 的主要特点就是:速度快,共线性输出结果简单易读。对于比较小的序列(如 cDNA 等)对大基因组的比对,blat 无疑是首选。Blat 把相关的呈共线性的比对结果连接成为更大的 比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,blat 得到了广泛的应用。 blat与blast比较
Blat的比对速度之所以能比Blast快几百倍,是因为此两者之间的比对机制有着本质的差别。Blast是将查询序列索引化,然后线性搜索庞大的目标数据库,期间频繁地访问硬盘数据,时间和空间上的数据相关性较小;Blat则将庞大的目标数据库索引化,然后线性搜索查询序列,这种搜索方式在时间和空间上的数据相关性比较大。Blat将数据库索引一次性读入内存,可以反复地高速调用,无需访问硬盘,占用的系统资源很少。只要索引建立,查询序列的量越大,Blat的优势就越明显[1] 。
Blat虽然性能优异,但是它自身也存在着一定的局限性,对于特殊的任务需要注意选择合适的软件。例如Blat用于远亲缘物种间的核酸序列比对时,比对精度就不够高,建议使用专门为此用途开发的Blastz软件;对于少量的蛋白质比对任务(如数条或数十条),在速度和精度上Blastp均优于Blat;比对同时需要获得蛋白质的同源性信息时,则一般使用SAM和PSI-BLAST软件。另外,Blat在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片,这说明搜索过程还存在一定的假阳性结果,应进一步分析确认[1] 。