分析實時數(shù)據(jù)一直對那些使用 ML 模型的人提出挑戰(zhàn),因為他們希望使用最新數(shù)據(jù)提高推理的準確性。
由于實時數(shù)據(jù)的交付速度對于手動分析或用于數(shù)據(jù)組織的傳統(tǒng)軟件來說太快了,因此只有 AI 和 ML 才能理解大量的流數(shù)據(jù)。但是,雖然使用實時數(shù)據(jù)是 ML 模型最有價值的應(yīng)用之一,但對于那些希望利用該工具進行數(shù)據(jù)分析的人來說,它提出了幾個問題。
接下來,我們將討論那些試圖使用實時數(shù)據(jù)的人所面臨的一些主要挑戰(zhàn)以及克服這些挑戰(zhàn)的潛在方法
在哪些用例中,企業(yè)需要使用流數(shù)據(jù)而不是批處理數(shù)據(jù)?總的來說,數(shù)據(jù)流可以用于實時自動化決策,這可能涉及在復(fù)雜數(shù)據(jù)集的生產(chǎn)環(huán)境中利用機器學(xué)習(xí)模型。這方面的例子包括高頻交易中的算法交易、醫(yī)療設(shè)備的異常檢測、網(wǎng)絡(luò)安全中的入侵檢測或電子商務(wù)轉(zhuǎn)換/保留模型。因此,使用批處理數(shù)據(jù)屬于“其他所有事情”,實時決策和上下文不如有大量數(shù)據(jù)要分析重要。因此,使用批量數(shù)據(jù)屬于“其他所有”類別,在該類別中,實時決策和上下文并不重要,而是要分析大量數(shù)據(jù)。這方面的例子包括需求預(yù)測、客戶細分和多點觸控歸因。
使用實時數(shù)據(jù)的挑戰(zhàn)雖然利用實時數(shù)據(jù)在連續(xù)數(shù)據(jù)流上訓(xùn)練ML 模型具有快速適應(yīng)變化和能夠節(jié)省數(shù)據(jù)存儲空間等優(yōu)勢,但也存在挑戰(zhàn)。將模型轉(zhuǎn)換為實時數(shù)據(jù)可能會產(chǎn)生額外的開銷,如果沒有正確考慮這些挑戰(zhàn),可能無法提供理想的結(jié)果。
實時的定義處理實時數(shù)據(jù)提出了幾個挑戰(zhàn),首先是實時數(shù)據(jù)本身的概念。“實時”這個詞,不同的人有不同的理解。在分析環(huán)境中,一些人可能認為實時意味著立即獲得答案,而另一些人不介意從收集數(shù)據(jù)的那一刻起等待幾分鐘,直到分析系統(tǒng)做出響應(yīng)。
這些對實時的不同定義可能會導(dǎo)致結(jié)果不明確的問題??紤]這樣一個場景,在這個場景中,管理團隊對實時分析的期望和理解與實施它的人不同。不明確的定義會導(dǎo)致潛在用例和可以解決的業(yè)務(wù)活動(當(dāng)前和未來的)的不確定性。
恒定的數(shù)據(jù)速度和容量變化一般來說,實時數(shù)據(jù)不會以一致的速度或數(shù)量流動,而且很難預(yù)測它的行為方式。與處理批處理數(shù)據(jù)不同,在管道中發(fā)現(xiàn)缺陷之前不斷重新啟動任務(wù)是不切實際的。由于數(shù)據(jù)不斷流動,處理數(shù)據(jù)時的任何錯誤都會對結(jié)果產(chǎn)生多米諾骨牌效應(yīng)。
實時數(shù)據(jù)處理階段的有限性進一步阻礙了標(biāo)準的故障排除過程。因此,盡管測試可能無法發(fā)現(xiàn)每個意外錯誤,但較新的測試平臺可以更好地調(diào)節(jié)和緩解問題。
數(shù)據(jù)質(zhì)量從實時數(shù)據(jù)中獲得有用的見解還取決于數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量的缺乏會影響整個分析工作流程,就像糟糕的數(shù)據(jù)收集可能會影響整個管道的性能一樣。沒有什么比從錯誤的數(shù)據(jù)中得出商業(yè)結(jié)論更糟糕的了。
通過分擔(dān)責(zé)任和民主化數(shù)據(jù)訪問,可以高度關(guān)注數(shù)據(jù)的正確性、全面性和完整性。有效的解決方案將確保每個職能部門的每個人都能認識到準確數(shù)據(jù)的價值,并鼓勵他們承擔(dān)起維護數(shù)據(jù)質(zhì)量的責(zé)任。此外,為了保證只使用值得信賴的數(shù)據(jù)源,必須使用自動化程序?qū)㈩愃频馁|(zhì)量政策應(yīng)用于實時數(shù)據(jù),因為這減少了不必要的分析工作。
各種數(shù)據(jù)源和格式由于數(shù)據(jù)格式的多樣性和數(shù)據(jù)源數(shù)量的不斷增加,實時數(shù)據(jù)處理管道可能會面臨困難。例如,在電子商務(wù)中,活動監(jiān)控工具、電子活動跟蹤器和消費者行為模型都跟蹤在線世界中的網(wǎng)絡(luò)活動。同樣,在制造業(yè)中,各種各樣的物聯(lián)網(wǎng)設(shè)備被用來從各種設(shè)備中收集性能數(shù)據(jù)。所有這些用例都有不同的數(shù)據(jù)收集方法,并且通常也有不同的數(shù)據(jù)格式。
由于數(shù)據(jù)的這些變化,API 規(guī)范更改或傳感器固件更新可能會導(dǎo)致實時數(shù)據(jù)流中斷。為了避免錯誤的分析和潛在的未來問題,實時數(shù)據(jù)必須考慮到無法記錄事件的情況。
過時的技術(shù)各種新的信息來源給企業(yè)帶來了問題。當(dāng)前分析傳入數(shù)據(jù)的流程的規(guī)模已大幅增長。使用本地或云中的信息湖收集和準備信息可能需要比預(yù)期更多的測試。
該問題主要源于遺留系統(tǒng)和技術(shù)的使用,這需要不斷擴大的熟練信息設(shè)計師和工程師來獲取和同步信息,并創(chuàng)建將信息傳達給應(yīng)用程序所需的檢查管道。
鑒于處理實時數(shù)據(jù)的獨特挑戰(zhàn),企業(yè)組織需要考慮哪些工具將幫助他們以最有效的方式部署和管理 AI 和 ML 模型。一個簡單易用的界面可以讓團隊中的任何人利用實時指標(biāo)和分析來跟蹤、衡量和幫助提高 ML 的性能,這將是理想的選擇。
基本的可觀察性功能,如生產(chǎn)中使用的數(shù)據(jù)的實時審計跟蹤,可以幫助團隊輕松識別障礙的根本原因。最終,企業(yè)的競爭力可能取決于其從實時數(shù)據(jù)中獲得可操作的業(yè)務(wù)洞察力的能力,這些數(shù)據(jù)處理管道針對大量數(shù)據(jù)進行了優(yōu)化,同時仍提供對模型性能的可見性。
本文作者:Nina Zumel 是Wallaroo Labs的數(shù)據(jù)科學(xué)副總裁
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 天音移動:將100個虛商號段交還中國聯(lián)通
- 長沙電信員工反映加班嚴重 公司回應(yīng):避免無謂加班
- 中國移動11月5G網(wǎng)絡(luò)客戶凈增143萬戶,累計達5.47億戶
- 5G-A無源物聯(lián):夯實數(shù)字化底座,助力萬物智聯(lián)發(fā)展
- Wi-Fi7:6GHzWi-Fi如何支持醫(yī)療保健新時代
- 未來最值得關(guān)注的人工智能和機器學(xué)習(xí)趨勢是什么?
- 物聯(lián)網(wǎng)實現(xiàn)智能農(nóng)業(yè)的五大方式
- 人工智能在網(wǎng)絡(luò)安全中的作用
- 光迅科技:自研光芯片沒有直接對外銷售,主要滿足自用需求
- 中國電信11月5G套餐用戶凈增184萬戶,累計3.4937億戶
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。