基于大數據的水產養殖系統設計
王彪 文燕
(成都農業科技職業學院 成都 611130)
基金項目: 成都農業科技職業學院孵化項目(cny19-34 )
作者簡介:
王彪(1983—)男,碩士,講師,高級工程師,主要研究方向:農業大數據應用
文燕(1979—)女,碩士,講師,主要研究方向:計算機網絡安全,計算機應用技術
摘要:大數據與各行業的快速融合正在深刻的改變著人們思考和解決問題的方式,快速的推動著生產力的發展。水產養殖大數據作為漁業大數據的重要一環,對其研究和應用對推動漁業轉型升級有極強現實意義。本文闡述了水產養殖大數據的主要來源,對水產養殖大數據系統進行需求分析和概要設計,展望了水產養殖大數據發展的前景和挑戰。
關鍵詞:水產養殖;大數據;系統設計
Abstract:The rapid integration of big data and various industries is profoundly changing the way people think and solve problems, and rapidly promote the development of productivity. Aquaculture big data is an important part of the big data of fishery, and its research and application have great practical significance for promoting the transformation and upgrading of fisheries. This paper describes the main sources of aquaculture big data, needs analysis and summary design of the aquaculture big data system, and looks forward to the prospects and challenges of aquaculture big data development.
Keywords:aquacalture;bigdata;system design
0引言
我國的水產養殖量居世界第一位,水產養殖是我國農業經濟的重要組成部分。傳統的粗放式或小打小鬧的養殖方式風險大、成本高、對環境資源的破壞較為嚴重,已不符合經濟高質量發展的時代要求。要提高水產養殖的效率、降低風險、增加效益,就必須進行科學管理、科學決策,向自動化和智能化方向突破。基于大數據的水產養殖系統充分重視數據的作用,從數據中總結規律,挖掘價值,讓傳統的經驗管理逐漸轉向精準管理,有助于突破修修補補、看攤守業和靠天吃飯的養殖觀念。基于大數據的水產養殖促進養殖手段自動化、高效化,管理模式科學化、智能化,生產方式規模化、集約化,從而打造一個全新的水產養殖模式,推進水產養殖的產業革命。
1大數據與水產養殖
著名研究機構Gartner與麥肯錫都對大數據給出了相關定義,其主要意思都表明大數據是重要的信息資產,但是依靠傳統的方式無法去研究處理并提煉其價值。大數據有重要的4V特征,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度),后有關學者在此基礎上再增加了Veracity(真實性)。邁爾-舍恩伯格指出大數據不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關系,而是相關關系[1]。以上表明,大數據是一場思維與技術的革命。“用數據說話、用數據決策、用數據管理、用數據創新”,大數據將成為驅動經濟發展和社會轉型的重要力量。
“水產大數據是把生產經營過程的相關數據進行采集,通過可追溯系統從生產到消費過程進行全方位的記錄,如生產環境、水域狀況、市場前景等數據,這些數據就構成了大數據的基礎。此外,還需要智能決策系統,包括專家庫、知識庫、決策庫等,指導水產業的生產經營活動,提高養殖生產效益”[2]。水產養殖大數據聚焦水產養殖環節,它利用大數據的理念和相關技術,對水產養殖全產業鏈產生的大量數據進行收集、處理和分析和應用,借此來解決水產養殖領域風險大、成本高、管理水平低、資源利用水平低等普遍問題。在水產養殖中應用大數據是進行科學管理、提高效率和效益,最終實現智慧養殖的前提條件。
2水產養殖大數據來源
數據是基礎,分析挖掘是核心,應用是目的。水產養殖環境多變且復雜,包括環境數據、生長數據和管理數據等等,此外,歷史數據、經驗數據和來自于互聯網、各種知識庫的數據都是構建水產養殖大數據的成分。足夠豐富的數據能提高機器學習的效果,更能反映出客觀問題,預測趨勢,從而為決策服務。
水產養殖大數據來源主要分為三方面:1)物聯網數據,來自于各類傳感器,監控設備。如溫度,水質,PH,溶氧,光照傳感器,視頻監控設備等。2)互聯網數據,通過網絡接口,網絡爬蟲等從互聯網獲取的數據。3)其他數據。如管理系統里已有的數據,各種水產養殖知識庫、專業數據庫等。表1對幾類數據源從獲取方式、數據類型和數據量方面做了簡單比較。
表1 水產養殖數據源
來源類別 |
舉例 |
獲取方式 |
數據類型 |
數據量/增速 |
物聯網 |
環境監測數據 |
傳感設備 |
數值、圖像、音視頻 |
大/快 |
自動化飼養數據 |
傳感設備 |
數值 |
小/快 |
|
個體監測數據 |
傳感設備 |
數值、圖像、視頻 |
中/快 |
|
互聯網 |
行業網站、百科 |
網絡爬蟲/接口 |
文本、圖片、音視頻 |
中/快 |
政府機構 |
網絡爬蟲/接口 |
文本、圖片、音視頻 |
小/快 |
|
其他組織、企業網站 |
網絡爬蟲/接口 |
文本、圖片、音視頻 |
小/慢 |
|
其他 |
管理信息系統 |
接口/數據庫 |
文本、圖片、音視頻 |
小/快 |
領域專家 |
咨詢、購買服務 |
文本、音視頻 |
小/慢 |
|
其他養殖者 |
交流訪談 |
文本 |
小/慢 |
|
文獻 |
查閱整理 |
文字、圖片 |
小/慢 |
3水產養殖大數據系統設計
3.1系統需求分析
水產養殖大數據系統是一個綜合了數據獲取、存儲、分析和應用的綜合系統,下面從數據采集、數據存儲處理和數據應用三個方面加以分析。
(1)數據獲取
整個水產養殖鏈條的數據來源是廣泛而復雜的,主要數據源如圖1所示。傳感器負責采集環境數據和個體數據。包括獲取水溫、PH值、化學需氧量、活性磷酸鹽等水產養殖環境要素數據,通過視頻設備獲取宏觀環境信息,通過個體標簽采集個體的活動信息。通過水下傳感器、浮標、遙感、設備獲取的數據是本文進行數據挖掘和研究的主要數據來源;監控視頻數據流則通過協議傳輸至服務器進行回調解析獲取;包括通過各解析器解析的網絡、文檔數據,這些數據是構成水產養殖大數據信息平臺的數據基礎。
計算機負責采集互聯網數據。提前準備好采集庫,包括行業權威網站,政府主管部門網站,其他專業數據庫,數據包等,與水產養殖有關的預報預警信息等。聯網采集數據需要安排好采集策略,合理分配時間,過采集源要定期測試和分析,從而優化資源庫,提高數據質量。
其他數據主要來自與水產養殖管理系統,或者線下數據。對于有條件的可以同行交換或共享數據資源,打通信息孤島。數據資源越豐富,越利于挖掘出其中的價值。對于線下獲取的數據,經過整理和清洗后要及時錄入系統,構建全面的數據資源。
圖1 水產養殖數據來源圖
(2)數據存儲與管理
由于水產養殖涉及的因素多,環境復雜,產生的數據量大,種類繁多,且大部分是流式數據。這種實時產生的連續性數據,需要一種高性能高容量的數據存儲方案。又由于水產養殖數據來源廣泛,除了結構化數據之外還有大量的半結構化和非結構化數據。數據存儲由關系型數據倉庫和分布式數據倉庫構成,遙感監測數據和非結構化數據數據量大、增速快,此類數據采用HDFS進行分布式存儲,HDFS有點在與對存儲設備要求不高,容錯性好,可以通過添加節點的方式進行快速擴容,是存儲大數據的理想解決方案[3]。HDFS存儲機制和節點之間的互備份機制保證了水產養殖數據的安全性。
由于水產養殖數據來源廣且數據質量良萎不齊。為了更好的為后續挖掘工作供應優質數據,需要在數據存儲階段前需要進行清洗,加工、融合后才能存入目標庫進一步處理。通過數據統計分析技術將高維數據降維,構建基于應用主題的數據倉庫,為大數據的應用做好準備工作。Hadoop是一種開源的大數據解決方案,實際上已成為該行業的事實標準,有大量的案例、參考資料和社區支持,同時Hadoop生態圈產品非常完善,涵蓋數據抽取、轉化、存儲、分析整個鏈條[4],是用于水產大數據管理的理想方案。Hadoop的HDFS和MapReduce是兩大核心部件,分別用于分布式存儲和分布式處理數據,基于Hadoop的大數據技術框架體系如圖2所示。
圖2 基于Hadoop的大數據技術體系圖
(3)數據業務邏輯處理層
該部分是整個平臺的核心,業務邏輯處理要將數據變成可用的信息、知識。用于實現業務邏輯和提供分布式計算框架,用戶通過調用對應的業務接口,獲取相應的檢索、統計、分析、模型管理等服務。需要注意的是,基于大數據的業務處理不僅僅是技術問題,也需要對行業知識有相當的了解,對人的綜合能力要求較高,期初通常需要程序員和水產養殖專家協同工作。為了提高平臺響應速度,部分可并行化業務邏輯以MapReduce分布式編程計算框架進行并行處理,為數據應用展示層提供相應接口。根據不同的需求可采用不同技術框架,如對實時性要求不高的管理決策可以采取MapReuce、Spark脫機分析,對實時性要求較高的可以采用Storm框架進行分析。
(4)數據應用展示層
數據經過分析和處理后將給出系列結果,這種結果可能仍然不夠直觀。數據應用展示層通過調取不同的業務處理接口,獲取對應數據分析、查詢結果。首先用戶可根據篩選條件、需求進行水產相關信息檢索,檢索結果將以豐富的可視化展現形式進行展示。另外平臺對檢索、熱點信息進行統計展示。同時提供風險預警、產量預測、疾病防控、水質評價、水產要素分析等分析服務,從數據挖掘的角度提供科學的預測、評價和指導。
3.2系統方案設計
整個系統包括獲取數據的物聯網部分,數據存儲與處理的數據中心部分和承擔管理功能的管理終端部分,來自于互聯網的數據通過軟件方式直接在數據中心加以實現。系統整體邏輯架構如圖3所示,該圖為硬件分布的邏輯示意圖,軟件功能在后續說明。在水產養殖智能監控系統的設計中,根據物聯網中感知層、網絡層和應用層的三層體系架構,設計系統由無線檢測和控制層、監控中心層和遠程管理層三部分組成。
圖3 系統架構邏輯示意圖
無線檢測和控制設備包括水質、氣象等參數檢測傳感器、水質調節裝置、自動投飼裝置、攝像頭等。根據傳感器采集的數據,自動調節控制設備,規范養殖過程,優化養殖環境;并將各種采集數據和管理數據上傳到數據中心,以供大數據分析和管理端查閱。管理層監控系統及水產養殖信息數據庫,可在監控見面設置各種參數的范圍,在數據異常時及時報警通知用戶,并根據設定參數調節環境參數,實現對本系統的遠程實時智能監控。包括養殖狀態檢測、養殖環境調節、無線通訊、控制中心、上位機遠程監控顯示五個模塊。其中安防監控系統可以實施智能行為識別并對進入防區的可疑人員進行警告及報警通知相關人員,環境監控系統是基于水產養殖大數據的指導,根據檢測到環境參數自動或手動控制調節器的工作,以及給養殖人員提供價值信息來干涉養殖過程。
數據的使用和管理是該系統的核心功能,整個系統軟件架構可分為大數據平臺和業務系統兩大部分,系統軟件架構如圖4所示。大數據平臺存儲、管理和分析數據,構建模型與知識庫,進而應用業務系統上。目前,對水產養殖進行數據分析和建模的方法主要有基于ARIMA模型和神經網絡訓練[5]。業務系統根據用戶需求呈現信息,形成決策。執行單元執行決策后繼續產生數據,大數據平臺收集到反饋數據后做對比分析,從而優化模型、知識庫。
圖4 系統軟件架構設計圖
以系統中的疾病預測與診斷功能為例,該功能設計為養殖戶可根據常見疾病庫和自身經驗自查,可邀請專家協助進行遠程診斷,可上傳文字、圖像信息讓平臺智能識別就、協助診斷。
4面臨的挑戰與展望
目前,水產養殖的大數據研究和應用還處于初級階段,沒有現成的成熟經驗可以借鑒。同時由于水產養殖自身的復雜多變性,注定了這不是一蹴而就的事情。但是水產養殖的自動化、數字化、精準化、智能化是時代發展也是行業的客觀要求。大數據為實現這一些提供良好的切入點,成為其中的關鍵技術。政府大力支持,企業和科研院所積極參,與為水產養殖大數據的發展提供了良好的機遇。
4.1建設和發展水產養殖大數據的挑戰
(1)水產養殖積累的數據少質量低
長期以來我國水產養殖以粗放養殖為主,小規模養殖主體為主,不注重數據的積累,有資料統計,我國水產養殖的數據收集比例不到美日等發到國家的10%。近年由于物聯網技術的逐漸成熟和應用,信息收集效率大幅提高,但由于缺乏行業標準,造成收集的信息不規范、不全面,給大數據應用帶來很大障礙。
(2)水產養殖大數據需要高度融合
影響水產養殖的數據不僅僅是在養殖水域。要充分發揮大數據對于水產養殖的價值,必須要全面及時的獲取一切相關數據。除了充分收集、了解水產水域信息外,還要和氣象、海事、政府主管部門、行業協會等等的數據流通。這至少有兩方面的挑戰:一是能否有便捷的數據獲取渠道,二是這些部門數據是否及時、準確和全面。
(3)水產養殖大數據的人才難題
目前,大數據人才蓬勃發展,人才缺口巨大。大數據人才的綜合能力強,兼具統計分析、計算機和行業知識,培養周期長,優秀的大數據人才極具市場競爭力,而要在在涉農領域要找到合格的大數據人才十分困難。水產養殖的復雜性需要高端人才的持續投入才能逐漸顯現效果,這是制約水產大數據發展最迫切的因素。
4.2水產養殖大數據發展展望
(1)通過標準體系建設實現水產養殖設施標準化,數據規范化
隨著水產養殖業數據獲取范圍的擴展和數據獲取技術的提高,數據規模化增長,研究構建普適的及特定場景的設施設備標準、數據采集標準、接口標準不僅有利于各系統之間的配合,更降低了部署相應軟硬件的技術難度和時間成本,使數據的價值在水產養殖中得以快速應用。
(2)通過制度建設打通數據的共建共享渠道
基于數據管理的水產養殖僅僅依靠養殖個體的數據量和技術是行不通的,它需要打通和相關政府機構、行業、研究機構之間數據通道。只有實現了數據共建共享,保證數據豐富性和全面性,才具備利用數據進行科學決策的前提。而這一切,需要相關職能部門及行業協會從制度上加以保障。
(3)建立重點應用和典型案例,以點帶面推動水產養殖大數據建設。
大數據在水產養殖領域的應用點很多,全面鋪開去研究和建設未免投入資源過多,無法取得實際成效,會嚴重打擊從業者的積極性和信心。可將資源優先投入到某一個領域,比如氣象災害預警,這一塊已經有部分研究基礎和研究成果[6]。利用高質量的數據對預測模型進行迭代優化,最終達到能應用于生產場景并產生實際價值的目的。
隨著水產養殖從業人員的意識進步,對數據的不斷積累、完善和重視,以及物聯網、大數據、人工智能等新技術的不斷創新,基于數據管理、數據決策和數據創新的高效、智慧的水產養殖時代終究到來。
參考文獻:
[1] Viktor Mayer-Schonberger(英)著,盛楊燕,周濤 譯.大數據時代[M].浙江人民出版社,2013.1
[2] 朱澤.智能化養殖開啟漁業“大數據時化’田.漁業致富指南,2015(2):3一4.
[3] 劉軍,冷芳玲,李世奇,鮑玉斌.基于HDFS的分布式文件系統[J].東北大學學報(自然科學版),2019,40(06):795-800.
[4] 韓朵朵,劉會杰,許愛雪.基于Hadoop生態系統的大數據解決方案[J].石家莊鐵路職業技術學院學報,2019,18(02):71-75.
[5] 宋劍文. 智能水產養殖系統的預測預警技術研究[D].海南大學,2018.
[6] 吳衛祖,劉利群,徐兵,吳振陸.基于物聯網的水產養殖氣象災害監測與預警模型研究[J].電子技術與軟件工程,2017(05):210-211.