论文部分内容阅读
提出一个主要使用GPL许可软件和低价硬件组成的生物学数据处理系统实用方案,该方案构建成本可为一般小型机构所接受。采用集中式资源和集中式管理为指导思想,将软件/程序按照数据和处理需求分为三个类型:生物学序列、微阵列(生物芯片)和数值(生物统计)分析,以此为指导,整合成套的软件工具。在一台接入局域网的普通PC服务器上,选择GNU/Linux操作系统(Dcbian)作为基础,上层部署成套软件并安装配套数据库,以实例系统为基础,设计并使用Perl语言代码实现连结各个程序/软件的半自动化ESTs数据处理及分析管线(pipeline),以此实现高通量生物数据分析。
利用所设计构建的分析管线对来源自大片吸虫、肝片吸虫、曼氏血吸虫成虫的ESTs进行大规模序列分析。结果表明,大片吸虫成虫蛋白水解酶类占整个cDNA文库的近50%,以组织蛋白酶L家族为主。人工检查发现转录组中存在多种组织蛋白酶L拷贝,有三种拷贝类型的数量占整个蛋白酶家族的85%以上,为高转录基因。在其他表达的编码序列中也发现相同现象,推论寄生虫可通过基因复制的方法演化出适应不同发育阶段的功能蛋白,可能存在与高表达基因连锁的顺式作用元件实现寄生虫基因的高效转录。已知的几种主要寄生虫分泌表达蛋白在转录层面上均占表达量的前列,提示这些分泌表达蛋白可能需要及时补充以抵消宿主对其产生的拮抗作用。利用基于Gene Ontology的表达谱比较表明,三种寄生性吸虫成虫均大量表达蛋白水解酶类产物。大片吸虫,肝片吸虫和曼式血吸虫成虫在表达谱上呈现高度近似。
使用大片吸虫分泌表达产物做免疫蛋白质组学研究的多肽测序数据做探针,在之前构建的数据处理分析系统上在大片吸虫成虫ESTs数据库中虚拟杂交,获得一全长编码序列。其电子注释为大片吸虫硫氧还蛋白基因。序列分析和翻译推导表明,该序列编码的蛋白质有218个氨基酸残基,肽链分子量为24.63 KDa,是大片吸虫硫氧还蛋白家族成员之一。根据EST序列拼装结果设计引物,用反转录PCR方法从大片吸虫成虫中扩增该基因的全长编码序列,使用pET系统成功构建表达载体,并诱导表达。