》政策和國防科技工業(yè)發(fā)展戰(zhàn)略。平臺充分利用大數據、人工智能等先進技術和手段,為優(yōu)勢民企提供精準的技術支持、項目對接、市場信息等服務,為科研機構的成果轉化、軍轉民提供市場和資金通道">
什么是數字孿生?數字孿生是物理系統(tǒng)的虛擬副本。這個定義看起來很形象,這個簡單的定義是邁克爾·格里夫斯博士在2002年創(chuàng)造的,體現了這個術語的本質,這個概念最早被美國宇航局用于太空探索任務。最初,美國宇航局有一對物理孿生體:地球上真實的宇宙飛船的物理拷貝來反映遙遠宇宙飛船的狀態(tài)。
現在,數字孿生正在影響所有行業(yè),主要是制造業(yè)、汽車業(yè)、建筑業(yè)、公用事業(yè)和醫(yī)療保健業(yè)。數字孿生不僅在系統(tǒng)運行期間使用,而且在設計和構建階段也能使用。
首先,了解下用于數字孿生的當前技術以及構成體系結構的技術,其中數據管理、數據庫和(實時)機器學習在這方面起著至關重要的作用。我們解釋了技術基礎,下面討論下目前存在的不同類型的數字孿生。
一、數字孿生的結構
數字孿生正在連接物理世界和虛擬世界。我們早就已經這么做了,ERP(企業(yè)資源規(guī)劃)不就是通過虛擬拷貝來管理物理資產嗎,客戶數據庫中的每個記錄不是真人的數字孿生嗎?但是,要想讓數字孿生真正RUN起來,我們需要做兩件事:
實時數據集成
實時機器學習
1、實時數據集成
我們已經做了幾十年的批量數據集成,但并沒有真正考慮實時數據集成。因此,類似于IBM Streams、Apache Flink、Apache Spark Structured Streaming、Apache Kafka和Node RED的方案應運而生。
Apache Spark特別有用,因為它將批處理與流式處理結合起來。apachesparkversion2.3使用微批處理,與Apache Flink和IBM Streams的性能接近,更接近于實時數據集成的解決方案。
邊緣計算是工業(yè)互聯網中的實時數據集成重要的部分,不必總是將數據集成到一個集中的云存儲中。它也可以分布在各種各樣的邊緣上,并且可以在最有意義的地方直接處理。邊緣計算解決了三個主要問題:
網絡分區(qū)。越靠近邊緣,網絡連接就越不可靠。因此,一種更智能的本地數據處理方法可以緩解邊緣斷開的問題。
網絡延遲。越接近邊緣,解決方案中的網絡延遲就越大。關于邊緣數據的決策避免了這種延遲,因此決策速度更快。網絡延遲是一個重要的特性,因為大多數工業(yè)互聯網傳感器數據在幾秒鐘內就失去了價值。例如,在一輛自動駕駛的汽車里,當一個孩子跑在汽車前面時,你不能再等250毫秒才停下來。
數據隱私。工業(yè)互聯網傳感器,包括攝像頭和麥克風,正在捕獲非常有價值的數據。但它們也引起了人們對數據隱私的高度關注。如果數據是在邊緣直接處理的,那么關鍵信息永遠不需要離開這個小邊緣設備。例如,電梯的占用率一旦通過視頻流進行測量,就可以優(yōu)化調度和樓層分配,以減少等待時間,提高電梯的工作負荷。但是,您永遠不希望電梯內的視頻流離開邊緣設備。
2、實時機器學習
傳統(tǒng)的ERP系統(tǒng)是基于規(guī)則的系統(tǒng)。這些規(guī)則是在軟件中手動實現的,主要是業(yè)務人員查看歷史數據和使用過程,涉及到很多手工工作,而且這些規(guī)則很少改變。
在數字孿生中,數據是實時接收和處理的。這允許物理系統(tǒng)的模型實時作用于數據,例如由機器學習支持的黑盒模型或由領域專家定義的白盒模型;異常檢測器將發(fā)出警報并關閉生產線,以防止進一步損壞;在數字孿生機上模擬不同參數集的結果后,用最優(yōu)參數集更新實際系統(tǒng)等。
大多數機器學習模型都是在靜止數據上訓練的。因此,我們需要將所有實時數據存儲在能夠高效檢索的地方:
許多機器學習算法也可以使用windows系統(tǒng)通過數據流進行訓練。實現機器學習的一個關鍵階段是超參數調整階段,在這個階段,您可以多次使用更改的參數配置重新運行模型訓練,以獲得最佳結果。這種調整超參數配置的過程在數據流上要困難得多,因為如果有新的想法或想測試一個新的算法,數據已經消失了,因為它沒有被存儲。
在實時模型訓練中,系統(tǒng)性能必須始終與數據到達率保持同步。否則,緩沖區(qū)會溢出,系統(tǒng)會被破壞,數據將會丟失。
由于windows上的訓練減少了時間帶寬,因此不能考慮時間和距離的因素。
所以實際上我們需要同時做這兩件事,實時數據流上的數據處理和歷史數據上的數據處理,我們也必須要建立一個歷史數據匯集庫。
二、工業(yè)互聯網數據管理挑戰(zhàn)
工業(yè)互聯網數據的數據處理無疑是相當具有挑戰(zhàn)性的。主要是因為大量數據以高速到達。正如我們之前所了解到的,獲取模型培訓的歷史數據可能是至關重要的。但在我們討論最佳工業(yè)互聯網數據存儲之前,讓我們考慮其他一些同樣重要的東西:元數據。
數字孿生通常反映數千個傳感器參數。為了不丟失,使用元數據數據庫。在實際中,我們使用一個圖形數據庫,因為這允許我們在層次結構中對物理系統(tǒng)建模。例如,數據中心由3棟樓組成,每棟樓28層,每層樓有不同的房間,每個房間有不同的傳感器。因此,使用層次圖查詢,可以選擇需要考慮特定下游分析任務的相關數據源。
垃圾數據是任何IT系統(tǒng)中的一個常見問題,因此工業(yè)互聯網系統(tǒng)也不例外。很多人在他們的工業(yè)互聯網解決方案中使用時間序列數據庫,因為它們承受高吞吐量接收和高效的時間查詢。我也提供一個項目上的案例看看是怎么做的。我們使用云對象存儲和一個簡單的文件夾方案:
傳感器UUID/年/月/日/時/分/秒。
為每個傳感器創(chuàng)建每1秒時間窗口的索引。UUID避免了沖突,可以在元數據存儲庫中查找元數據。甚至不必在乎這些數據是否分布在多個工業(yè)互聯網邊緣,因為要么跟蹤包含特定傳感器UUID的數據分區(qū)的索引,要么只要求它們全部。
因此,工業(yè)互聯網傳感器數據僅是“附加”數據,它是由每個傳感器UUID的一個線程編寫的。云對象存儲現在可以并行到文件夾的最低級別(秒),這意味著我們可以獲得無限的線性可伸縮性!
在第二個文件夾中,使用的是Apache Parquet文件,其中壓縮了數據(以加快I/O速度并以列格式存儲),可以使用Apache SparkSQL開箱即用來獲得所有數據的SQL視圖,其中備份、復制和擴展由云對象存儲負責。
三、數字孿生的不同類型
現在我們已經了解了數字孿生的基本架構和數據管理挑戰(zhàn),讓我們來看看不同類型的數字孿生。在我們談論數字孿生時,最常想到的是一個軟件解決方案以數字方式鏡像生產系統(tǒng),但還有更多。生產系統(tǒng)在建立之前就已經有了歷史,而數字孿生可以支持一個產品的完整開發(fā)周期。因此,Reason代表產品規(guī)劃階段,Realize代表產品生產階段,Run代表產品部署階段。三個不同的數字孿生,都在同時工作。也就是說,部署產品的數據可以影響新版本產品的計劃和生產。
下面,讓我們了解一下不同類型的數字孿生:
部分孿生。數字孿生與一個大系統(tǒng)的一部分相連。例如,發(fā)電企業(yè)生產車間的軸承。這種軸承在運行時可以有一個數字孿生,這可以了解它的運行狀況,如估計平均故障間隔時間(MTBF)或平均失效前時間(MTTF)。這些數據可以從當前數據(如振動傳感器數據或聲音)中導出(預測或建模),也可以從設計或制造階段的數據(如設計了什么樣的齒輪齒形或使用了什么樣的成型刀具制造)。當然,在零件操作過程中發(fā)現的可以反饋到設計和制造階段。
產品孿生。產品孿生基本上是一組反映其相互作用的部分孿生體。從軟件產品的角度來看,產品孿生通常是相同的,因此可以通過向下鉆取從產品孿生訪問部件孿生。發(fā)電企業(yè)發(fā)電機是雙軸承產品的一個例子,它有多個軸承和部分雙軸承。
系統(tǒng)孿生。系統(tǒng)孿生比產品孿生更上一層樓。同樣,系統(tǒng)孿生很可能在同一個軟件產品中實現,提供與產品或部分孿生相似的功能,但它只是整個系統(tǒng)的一個視圖。所以讓我們繼續(xù)以發(fā)電企業(yè)為例,一個系統(tǒng)孿生(取決于它的定義)可能反映歷史和當前狀態(tài),并預測一個發(fā)電廠、整個發(fā)電廠、甚至一個電網分區(qū)的特定動力傳動系統(tǒng)的未來狀態(tài)。
還有很多不同類型的數字孿生,取決于你問誰和怎么定義,但以上已經涵蓋了最重要的類型。
四、數字孿生的發(fā)展趨勢
數字孿生還處于初步發(fā)展階段,但發(fā)展速度會很快?!氨M可能多地輸入數據并運用于人工智能”—這通常是信息服務商銷售數字孿生解決方案的理由。事實上,這并沒有錯。數字孿生得益于存在大量機器生成的數據,這是其他數據科學學科所沒有的奢侈品。當有大量的數據時,使用深度學習模型開始變得可行。
數字孿生是控制中心的新版本,它將歷史和當前系統(tǒng)狀態(tài)與未來預測狀態(tài)結合起來。向下鉆取功能允許用戶深入研究單個產品或產品部件,但也顯示了允許高度復雜優(yōu)化任務的全局。數字孿生不僅在操作上有用,而且在考慮產品設計和制造時也能充分發(fā)揮其潛力。