A Practical Machine Learning Study on Big Data:Taming the Unstructured Data in E&P Industry

来源 :2017年第五届数字油田国际学术会议(DOFIAC2017) | 被引量 : 0次 | 上传用户:hellolvkui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  There have been accumulated large amounts of data in petroleum E&P industry,much of which are available in unstructured or semi-unstructured forms such as text.It requires data mining techniques to process,analysis and discover knowledge from them.Numerous machine learning libraries and frameworks like Mahout and Apache Spark that are based on Hadoop,the core distributed processing model and de facto standard of big data have become increasingly mature recently.The objective of the paper is to illustrate how to extract valuable information and discover knowledge from large volume of unstructured text by Apache Spark,an open source lightning-fast cluster computing technology.In this study,more than 180,000 paper abstracts are crawled from the online OnePetro library and cleansed,transformed and loaded into Hadoop HDFS file system.The Apache Spark is used to conduct data analytics and machine learning on the unstructured texts.Spark SQL is able to make statistics on papers and to discover the most popular papers and most influential authors in the OnePetro library.In addition,330 most popular papers are manually classified into 8 categories,(1)general;(2)drilling,perforation,completion,casing and cementing;(3)modeling and simulation;(4)production and performance;(5)EOR;(6)reservoir management practices;(7)fluid;(8)reservoir,which are used as the training corpus for a supervised text classification.Na(i)ve Bayes model from Spark MLlib is constructed and then applied to all papers.The performance and accuracy of the classification are proved to be acceptable by an additional small test dataset.
其他文献
业务分层定制技术,是通过企业数据服务总线和分布式计算模型技术,为不同数据体或数据集之间建立关联关系,实现单项业务和综合业务管理之间的资源共享.该文主要探讨了如何立足于规划设计运行管理的工作流程和管理模式,构建一个可根据不同需求用户来展示相关数据信息的平台,最终很好的实现分层定制业务系统中的资源共享、业务整合,同时满足不同层面的管理业务需求.该系统具有交互方便、可扩展性强、网络通信方便、运行稳定、任
在新能源崛起和低油价常态运行的双重打击下,迫使国内油田企业必须深刻思考未来发展出路.本文以大数据技术为基础,以智能油田建设和数据智能化研究为方向,从降低油田开发生产成本入手,针对采用相关数据处理技术带来的经济效益变化,进行了经济性比对与分析.这对于推进油田精准开发和降本增效,实现在大数据条件下的数据智能化工作和低成本运行,提供了新的思路.
胜利油田的勘探信息化工作经过了多年发展,积累了探井审批、探井信息查询、矿权管理、储量管理、地震管理等多个应用系统,勘探工作人员和管理人员想查询井的钻、录、测、试等综合信息,需要登录多个不同的系统才能完成,有些应用系统仍是C/S模式,难以保证系统的互联互通.针对以上问题提出的勘探应用系统集成方法,有效采用了反向代理Nginx、HTML5、Redis和自定义协议等技术,实现了以勘探信息网的门户为首页,
SAGD(蒸汽辅助重力泄油技术)井下温压实时监测数据远程传输、存储和在线实时分析诊断预警,对新疆油田超稠油油藏动态分析和生产调控的及时性、准确性具有重要意义,系统建成后可以实现对井下生产数据的实时采集、实时远程传输、实时储存,对油藏动态(油藏温度场)的实时分析诊断,及时对注采生产参数进行调控,使生产处于最佳状态.本项目通过对超稠油油藏SAGD采油方法的分析和温压实时数据采集、传输方法的研究,结合先
针对油田地面工程建设及维护需求,主要研究开发基于地图三维可视化的地面管道地理信息管理平台.重点从系统结构、关键技术、数据库建设、功能实现几个方面进行了论述,阐述了管道测绘与腐蚀检测应用技术及实现方法、基础地理数据处理的实现过程,并针对数据库的建设,从统一规范标准、空间及编码标准、数据模型及格式、数据库建设流程等方面进行了介绍.通过设计与开发,建立了准确、全面、完整的矿区基础地形图数据和井站、管网、
随着互联网技术的飞速发展,网络技术的逐渐成熟,物联网行业及云计算行业乘势而起,得到了空前的重视与发展,在视频监控领域,利用物联网本身技术,结合云计算技术优势,构架新一代的视频物联网云系统,打破依托自建视频监控系统的传统安防定义边界,弥补传统安防系统不足,快速将安防系统融入物联网,使其紧密结合,相辅相成.本文从物联网安防云系统着手,分析物联网技术与视频安防技术的融合技术应用前景.
针对油田生产建设过程中管线巡护、综治排查、井位踏勘等方面主要依靠传统人工作业模式来解决,不仅成本高、效率低、危险大,而且部分隐患也难以快速发现并进行处理的问题,在油田特殊环境下开展无人机在管线巡护、综治排查等领域进行巡护作业的应用研究,应用结果表明,无人机在油田生产领域的应用能够降低员工劳动强度和作业风险,达到了提高生产管理效率的目的.随着无人机智能分析功能的进一步发展完善,无人机系统在油田生产领
粒子冲击钻井技术可有效提高深井硬地层、极硬地层的钻进效率,在解决深井勘探中难钻地层的钻进难题方面具有广阔应用前景.本文针对粒子冲击钻井技术存在的安全隐患,借鉴成熟的工厂自动化实施案例,利用DCS分布式控制系统技术,制订了以井场自动化监控系统为核心的解决思路.文中详细论述和分析了适用于粒子冲击钻井技术的井场自动化监控系统实现重难点,并明确了适用于高压高危现场的各类传感器选型与布局,最终形成了含现场级
In seismic data processing,each recorded data represents a single point of reflection,then the several points of reflection that are in the same position tied into a gather.However,the acquisition par
空气泡沫驱油技术是油田开发后期高含水条件下提高采出程度的有效手段之一,但其注入采出工艺及配套设备运行复杂、参数采集处理量大、分析决策所需数据要求高.在现场实施过程中还存在极大的设备管柱腐蚀、工艺过程混合气体爆炸、注入设备管汇压力高、废气排放对环境的污染等安全环保风险.利用油田数字化系统可对现场设备进行优化配置,配套物联网和一体化撬装式自动化设备进行注采工艺过程参数的在线监测和远程控制,建立数据库提