大数据在粮库粮情预测中的应用

胡荣辉,甄 彤,陶文浩,陈军涛

(河南工业大学,河南郑州 450001)

摘 要:针对大数据在其他行业产生的聚合增值效应,立足粮情预测问题,分析大数据在我国粮情预测领域缺乏应用的现状。通过建立各级储粮公司数据共享的云服务平台,借助基于部分约束信息的大规模数据集EM概率聚类算法对粮库粮情大数据进行挖掘。围绕粮食储藏安全给出几点指导性意见,为未来粮情预测提供更好的理论技术支撑。指出大数据的应用必将成为提升粮食安全系数的重要手段和途径,同时实现降成本、增效益的目标,与此同时展望未来的发展趋势。

关键词:粮情预测;大数据;云平台;数据挖掘

大数据是近年来受到广泛关注的新概念,是指通过对大量的种类和来源复杂的数据进行高速地捕捉、发现和分析,用经济的方法提取其价值的技术体系或技术架构。所以,广义上讲,大数据不仅是指大数据所涉及的数据,还包含了对这些数据进行处理和分析的理论、方法和技术[1-2]。大数据的特点可以总结为5个V:1Volume(数据体积巨大)、2Variety(种类多样)、3Velocity(生成速度快)、4Veracity(真实性)和5Value(价值巨大但密度很低)[3]。笔者认为粮食企业需要重新整合、挖掘过去长期积累的海量数据[4],应用综合分析工具,从时空多维度洞察发现大数据中隐含的价值和规律,指导粮食安全储藏决策[5],将粮食安全储藏提升到精细化管理的新层面。

1 粮情大数据特点

在粮库粮情预测方面由于物联网技术的发展[6],各种传感器及测量仪器开始应用到粮库粮食安全预测领域[7-8]。例如:空气、粮仓和粮食温湿度传感器[]、气体传感器、声音害虫探测器、电磁波害虫探测器、监测粮仓情况的摄像头等。传感器或测量仪器将各种测量的数字信号或模拟信号通过物理链路或者WiFi传递给服务器[10-12],再利用可视化技术对数据进行识别、处理,进而转化成可视化的温度、湿度、水分、气体浓度等数据[13-14]。为保证粮库粮食安全,粮库粮情各个方面的数据都用传感器及各类仪器进行全天候实分时测量,粮情数据的真实性高,这使得粮库粮情数据成指数级生长,并且在时空的作用下各储粮公司在粮库粮食信息方面积累了庞大的数据。这些数据符合大数据的5V特点。粮情大数据具备了真实物理粮库、数字粮库和信息粮库三者合一的数据基础,形成了一个由智能传感器、智能传输与智能环境组成的数据积累平台。但目前,集团化的粮情数据还局限在各个粮食企业内部没有对外共享。而且对过去长期积累的海量数据没有进行整合,只对粮情大数据进行了显示和归类,其系统结构图如图1所示。

图1 粮情预测系统主要功能结构图

粮库粮情大数据没有得到充分的挖掘和应用,还主要停留在垂直型单系统的数据管理应用,各个系统在硬件互联互通后所产生的大数据未得以充分利用[15-16]。粮情大数据的应用对粮食安全储藏水平的提升价值有限,最主要原因在于目前缺乏对粮情大数据内在联系和内在价值挖掘,缺乏对综合分析工具的应用,没有从时空多维度洞察发现大数据中隐含的价值和规律。下一步亟需充分利用云平台云计算挖掘粮情大数据隐含的内在关系[17],特别是对粮库粮仓环境、虫害、机器运行参数高度耦合的大系统。数据种类越多样,储粮灾害预警模型维数也就越高,预警预报也越准确,而高维的储粮灾害预警模型需要计算能力强且具有弹性的云平台云计算技术提供支撑。

2 粮库粮情大数据应用关键技术

物联网、云计算是粮情大数据挖掘的基础[18-19]。物联网的应用使粮库粮情数据采集更为广泛、便捷、迅速、高效、真实,直接导致了粮库粮情大数据的产生。云平台为大数据存储提供了可能,海量的数据可以分布存储在网络上[20],并可以通过云计算技术对大数据进行处理[21]。整体架构如图2所示。

图2 大数据在粮库粮情预测中的应用路线图

2.1 云平台搭建

加强智慧粮食云服务平台建设及云计算技术的研究[22-23],才能有效地处理海量数据,提高对粮食安全储藏的应用服务[24],而目前各类小型粮储集团企业普遍缺乏基于互联网的云平台。智慧粮食云服务平台[25]的构建旨在搭建一个针对粮情大数据存储和处理平台,为数量巨大种类众多的粮库粮情信息的处理提供有效支撑和保障。智慧粮食云服务平台建立粮库智慧粮食云服务总中心用于统筹管理各个分中心数据和平台资源,同时为每个粮库建立云服务分中心用于存储处理本粮库粮情数据[26],为各个地域的粮食存储系统提供私有云服务系统,以便于管理者高效利用平台内资源,智慧粮库粮食云服务总体架构如图3所示。在粮库智能感知系统的基础上,搜集各种粮情检测数据、仓情数据和环境数据等,运用Hadoop平台[27]对搜集的数据进行安全有效的传输、存储和处理。Hadoop为应用程序提供了一套透明、稳定、可靠的接口和数据服务[28]。MapReduce算法[29-31]能够将应用程序切分成许多小单位,每个单元可以反复执行在集群中的任何节点上。HDFS分布式文件系统[32]用来管理存储在每个计算节点上的数据,提高了数据的吞吐量。mapreduce和分布式文件系统使得Hadoop框架具有高容错性[33]。Hadoop不仅是开源的,存储和计算也是可伸缩的。Hadoop框架无论是否安装在普通的电脑上,都可以进行大量的有效的信息处理。

图3 智慧粮库粮食云服务总体架构

2.2 大规模粮情数据的高效挖掘算法

借助等价部分约束信息及半监督聚类的思想[34-35],对主存中的数据点集进行聚类,可以大幅提高聚类结果的质量及效率。本文提出了一种基于部分约束信息的大规模数据集EM概率聚类算法(Scalable EM probability clustering algorithm for massive data sets based on partial constraints information),简称PCEM。待聚类数据集R0=Ø,主压缩三元组集B0=Ø,次压缩三元组集C0=Ø,已处理数据点集个数m0=0。迭代次数t=0,迭代更新φt为 φt+1。对于RT+1∪CT∪BT,设置初始化混合模型参数为φ0。停止阈值ε。

算法步骤:

(1)对于RT+1读取的部分约束信息R-、R+,分别表示部分负约束信息和部分正约束信息。

(2)初始化参数,以此利用部分正约束信息。

(3)对RT+1中每个小分类计算其属于聚类h= 1,...,k的概率

(4)计算三元组代表数据点集属于聚类h= 1,...,k的概率。

(5)更新混合模型参数φt+1

考虑到三元组和部分约束信息,令。读入R-,计以此利用部分负约束信息做了修正。

定义为:

(6)终止条件:如果则停止;否则跳转到3。

PCEM算法可以减少EM概率聚类算法的时间复杂度,大幅提高了聚类效率及质量。

2.3 大数据在粮情预测中的作用

大数据的加盟,至少会给粮食安全储存带来四点好处:1虫害预警:针对虫害预警数据多源(比如:季节、温度、湿度、氧气浓度等)、异构、不完全的特点,对这些原始数据直接进行挖掘不是有效的挖掘模式[36],可以利用面向空间数据提取整合,发现一些强关联规则,并建立数据挖掘模型。然后利用关联规则算法中经典算法得出危险因子的级别,从而达到预警的目的。2粮食存储周期:粮库里面的粮食如果存放时间过长,即便没有虫害也会变质[39]。结合各种环境参数进行综合分析,对以往历史数据进行挖掘,在最大限度上不进行陈粮出库新粮入库浪费劳动力的同时,确保粮食安全。3设备生命周期:为保证粮情信息的准确性,及时性和可靠性,测量设备需要实时正常的运转,将粮库信息及时的真实的传递出来。对于不正常的参数,应及时给予回应,比如进行气调,通风,降温等。4粮库建设指导:粮库的布局,设备的安放,粮食的储藏都有其科学性与规律性。不同的地域不同的气候都有其特殊的要求,可以对粮库中多维度的粮仓信息进行空间挖掘,为以后的粮库建设提供参照和指导。

3 总结与展望

粮库粮情大数据的综合应用必将成为提升粮食安全储藏的重要手段和途径之一。与其他行业相比,粮食行业对于新技术的跟进及应用稍显落后,因此,粮食企业集团应抓住时机,在互联网大数据蓬勃发展的背景下,使粮情大数据研究及应用快步进入到国际先进行列。

参考文献:

[1]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014,6(5):405-419.

[2]Jacques Bughin.Big data,Big bang[J].Journal of Big Data,2016, 3(1):1-14.

[3]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):674-657.

[4]邬贺铨.大数据时代的机遇与挑战[J].中国经贸,2013(7):32-32.

[5]Yajie WANG,Bing YANG,Yan LUO,Jinlin HE,Hong TAN.The application of big data mining in risk warning for food safety[J].Asian Agricultural Research,2015,7(8):83-86.

[6]王志文,邓少灵.物联网信息安全特点及防范对策[J].科技信息,2011(12):27-28.

[7]崔德权.粮情预测系统的研究与设计[D].西安:西安工业大学,2012.

[8]刘志祥.我国粮情预测系统的现状及展望[J].粮油仓储科技通讯,2013,1(3):87-89.

[9]王刚,朴相范.基于GPRS网络的粮食温度检测系统设计.粮食与食品工业,2012,19(1):49-52.

[10]孙康岭,徐遵义.基于CAN与Ethernt接口的粮情通信分机[J].仪表技术与传感器,2011(4):87-89.

[11]罗源,庄波,罗绍华,等.双频段无线传感网络的粮情预测系统研究[J].粮油仓储科技通讯,2013(4):41-44.

[12]Chakrabarti D,Maitra S,Roy B.A key predistribution scheme for wireless sensor networks:merging blocks in combinatorial design. Journal of Information Security,2006,5(2):105-114.

[13]王晶磊,肖雅斌,李增凯,等.储粮粮情预测系统的应用效果研究[J].粮食与食品工业,2013,20(5):68-70.

[14]王武礼,杨华.基于SHT11的粮仓温湿度预测系统的设计[J].仪表技术与传感器,2010(9):50-51.

[15]庞海峰,蒙艳玫,唐治宏,等.粮情智能预测系统中的数据融合技术研究[J].预测技术,2014,33(6):36-39.

[16]Gema Bello-Orgaz,Jason J Jung,David Camacho.Social big data:Recent achievements and new challenges[J].Information Fusion,2016,28:45-59.

[17]Barnes,Nancy Dupre.Analyze this:The big demand for big data professionals[J].Information Management,2014,48(1):34-37.

[18]杨永志,高建华.试论物联网及其在我国的科学发展[J].中国流通经济,2010,24(2):46-49.

[19]樊雪梅.物联网技术发展的研究与综述[J].计算机测量与控制,2011,19(5):1002-1004.

[20]谢华成,陈向东.面向云存储的非结构化数据存取[J].计算机应用,2012,32(7):1924-1928.

[21]孔楠.基于云计算平台的商业服务模式研究[D].上海外国语大学,2010.

[22]尹国定,卫红.云计算实现概念计算的方法[J].东南大学学报(自然科学版),2003,33(4):502-506.

[23]李军华.云计算及若干数据挖掘算法[C].电子科技大学,2010(5):1-64.

[24]罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术[J].通信学报,2011,32(7):3-21.

[25]阮晓东.智慧粮仓确保粮食仓储安全[N].新经济导刊,2015(11):46-51.

[26]井璐,田永霞.在全国率先启动智慧粮食建设[N].德州日报,2015(12):1.

[27]方维,吴斌.基于Hadoop的数据挖掘算法研究与实现.北京邮电大学,2011(1):1-19.

[28]黎春兰,邓仲华.论云计算的价值厅[J].图书与情报,2009(4):42-47.

[29]覃雄派,王会举,杜小勇,等.大数据分析—RDBNS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.

[30]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[31]王元卓,靳小龙,程学旗.网络大数据:现状与展望.计算机学报,2013,36(6):1125-1138.

[32]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010(2):429-435.

[33]张霖,罗永亮.制造云构建关键技术研究[J].计算机集成制造系统,2010(16):2512-2522.

[34]Fredrik FArnstrom,James Lewis,Charles Elkan.Scalability for clustering algorithms revisited[J].ACM SIGKDD Explorations Newsletter,2000,2(1):51-57.

[35]楼巍.面向大数据的高维数据挖掘技术研究[C].上海大学,2013(9):22-26.

[36]王梅,陈汲.浅析粮食仓储技术现状及科学保粮发展趋势[J].粮食储藏,2010,6(1):32-35.

Application of big data to forecast of grain situation in grain depot

HU Rong-hui,ZHEN Tong,TAO Wen-hao,CHEN Jun-tao
(Henan University of Technology,Zhengzhou Henan 450001)

Abstract:According to the aggregating incremental effect in many industries by big data,the actualities that big data is lacked in the field of grain situation forecast in our country are analyzed.The big data of grain situation in grain depot is collected by establishment of cloud service platform shared among grain storage companies with the help of scalable EM probability clustering algorithm for massive data sets based on partial constraint information.Some opinions about grain storage security are proposed for providing better theory technical support to grain situation forecast in the futurity,and pointing out that the application of big data will become an important means and ways to improve food safety coefficient,so as to realize the goal of cost reduction and benefit increasing,at the same time looking forward to the future development trend.

Key words:grain situation forecast;big data cloud platform; data mining

中图分类号:S 379.9

文献标识码:A

文章编号:1007-7561(2016)05-0098-04

收稿日期:201-04-15

项目基金:国家“十二五”科技支撑计划(2013BAD17B04);行业公益专项(201313008)

作者简介:胡荣辉,1990年出生,男,硕士.