基于LAMP框架的通用数据测试平台的设计与实现

被引量 : 11次 | 上传用户:Cecil1119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代赋予的机遇和挑战,使数据质量保证技术研究和实践显得尤为必要。传统数据测试方法耗费人力且不全面,通过结构探测、类型学习和规则检测将二维表和树状结构数据测试自动化的同时,需将测试结果可视化,辅助数据负责人发现和分析数据问题。同时为保证数据测试任务正确执行,需在规则编写阶段保证规则代码质量。此外,业务人员积累的数据检测经验有待利用,在发现数据问题的基础上直接进行修复。由于数据不断更新会给使用主体带来质量风险,因此需要一套完整的周期性数据监控方案,及时预警数据质量问题,并为问题解决提供线索。本通用数据测试平台就是为支撑二维表和树状结构数据的测试、修复和监控等质量保证业务而搭建的。笔者根据软件工程思想独立完成了本论文所提及的数据测试、修复和监控各模块功能的需求分析、设计实现和测试等工作。首先,笔者分析系统任务和目标用户以及数据测试、修复和监控三大关键业务过程,并在此基础上识别系统用例,划分各模块子功能点,明确系统功能性和非功能性需求,然后从逻辑分层架构、JSON数据接口和数据库角度完成系统概要设计,并基于LAMP框架、PHP Yii框架和前端JQuery、Ajax等技术实现数据测试报告和数据预览功能,将数据结构、类型和指标可视化,辅助分析数据问题和编写用户扩展规则,在自动化测试的基础上,充分利用人的认知能力和在特定领域积累的业务经验,同时设计和实现了一套通用的简单Python代码检测机制用于保证规则代码质量,此外在规则计算流程中增加数据修复机制,直接提升数据质量,并在数据测试基础上,设计和实现了一套完整的数据文件、覆盖率和错误率质量指标监控方案,及时预警数据质量问题,同时提供数据指标报表和基于百度Echarts技术的分组重点属性覆盖率变化趋势图服务,方便整体把握数据质量状况并为数据问题定位提供线索。目前该通用数据测试平台每天为公司20多个部门提供数据质量保证服务。其中数据监控模块上线半年来,共积累监控模板40+个,截至2015年4月14日15时,平台累计执行监控计算19172次,在团购、人物关系图谱等线上重要数据监控过程中发现有效问题数30+,相关功能简单易用,及时发现抓取模板失效或其他数据质量不达标问题,并通知和推动数据负责人跟进解决,为基于相关数据的产品迭代和运营决策提供了保障。
其他文献
本文主要是对对外汉语教学中的动结式“V完”与“V好”进行对比研究。“完”和“好”分别是现代汉语中使用频率非常高的动词和形容词,它们经常作为结果补语出现在动词后,并且
提出并实现了一种新型多有源区隧道级联大光腔半导体激光器,提高了激光器激射窗口的宽度,得到低于20°的垂直发散角,从而提高了光纤输出的耦合效率.对多种形式和规格的透镜光
招呼语是人们在日常生活中的行为规范,也是行为活动的起始标志。其中以面对面地打招呼使用频率最高,它不仅是双方建立友好社会关系的一种体现,也是社会文化的一种历史演绎。
利率期限结构问题是金融学的一个重点问题.本文利用分段的三次多项式样条函数构造出隐含在上海证券交易所国债交易价格中的利率期限结构.实证结果表明利用三次多项式样条函数
本论文研究并建立了一种在传统固相萃取基础上演变而来的新型分散固相萃取技术(DSPE),经过实验和对比验证了该方法能够准确、高效的富集浓缩水样中的氨基甲酸酯和有机磷类农药
本文第一章和第二章通过对《战国策》作状语名词的穷尽式查找,按照语义分为五大类:表状态;表态度、身份;表凭借;表时间;表方位、处所。其中,表状态的分为动态特征和静态特征,
“S+V1+O1+O2+V2”句式是现代汉语句式系统中独具特色的一类。从形式上看,它既含有双宾语成分,又含有兼语成分。学界对这一句式性质特点的关注相对较少,且在句式归属和兼语数
本研究通过总结国外产后访视工作的先进经验,促进我国产后访视工作的发展。国外产后访视工作的先进经验包括信息管理一体化;生理、心理、社会内容评估与干预一体化;产后访视
中缅两国地缘上的优势使得历史上大量华人移居到缅甸发展。移居缅甸的华人在当地逐渐形成了华人社会群体。为了传承中华文化,华人在缅甸兴办华文教育。这使得汉语的学习和使
近几年来,我们整个社会在不断地发展,城市化进程的步伐也在不断加快。我国在城市化水平快速发展取得伟大成就的同时,一些城市热点问题日益出现。在这些问题当中,有的甚至严重