發布源:深圳維創信息技術發布時間:2020-11-06 瀏覽次數: 次
非結構化數據與結構化數據并不表示兩者之間存在真正的沖突。
客戶不是基于他們的數據結構選擇,而是在使用他們的應用程序中選擇:關系數據庫用于結構化數據,大多數其他類型的應用程序用于非結構化數據。
然而,結構化數據分析的難易程度與非結構化數據的分析難度之間的關系日益緊張。
結構化數據分析是一個成熟的流程和技術。
非結構化數據分析是一個新興行業,在研發方面需投入大量的資金,但這不是一項成熟的技術。
企業內部的結構化數據與非結構化數據問題決定了他們是否應該投資于非結構化數據的分析,以及將這二者結合是否成為一種更好的商業智能?
什么是結構化數據?
結構化數據通常駐留在關系數據庫(RDBMS)中。
其字段存儲長度顯示數據電話號碼,社會安全號碼或郵政編碼。
甚至像名稱這樣的可變長度的文本字符串也包含在記錄中,這使得它很容易搜索。
只要數據是在RDBMS結構內創建的,數據就可以是人工或機器生成的。
這種格式是搜索與人類產生的查詢和使用的數據和字段名稱類型的算法,如字母或數字、貨幣、日期。數據
包含結構化數據的普通關系數據庫應用程序包括航空預訂系統、庫存控制、銷售事務和ATM活動。
結構化查詢語言(SQL)允許在關系數據庫中查詢這種類型的結構化數據。
一些關系數據庫確實存儲或指向非結構化數據,例如客戶關系管理(CRM)應用程序。
由于備忘錄字段不會將自己放到傳統的數據庫查詢中,因此其集成可能不理想。
盡管如此,大部分客戶關系管理(CRM)數據都是結構化的。
什么是非結構化數據?
非結構化數據本質上是結構化數據之外的一切數據。
非結構化數據具有內部結構,但不通過預定義的數據模型或模式進行結構化。
它可能是文本的或非文本的,也可能是人為的或機器生成的。
它也可以存儲在像NoSQL這樣的非關系數據庫中。
典型的人為非結構化數據包括:
文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
電子郵件:由于其元數據,電子郵件具有一些內部結構,人們有時將其稱之為半結構化。
但是,其消息字段是非結構化的,傳統的分析工具無法解析它。
社交媒體:來自Facebook、Twitter和LinkedIn的數據。
網站:YouTube、Instagram、照片分享網站。
移動數據:短信、地點。
通信:聊天、即時消息、電話錄音、協作軟件。
媒體:MP3、數碼照片、音頻文件、視頻文件。
業務應用程序:MS Office文檔、生產力應用程序。
典型的機器生成的非結構化數據包括:
衛星圖像:天氣數據、地形、軍事活動。
科學數據:石油和天然氣勘探、空間勘探、地震圖像、大氣數據。
數字監控:監控照片和視頻。
傳感器數據:交通、天氣、海洋傳感器。
最具包容性的大數據分析可以使用結構化數據和非結構化數據。
結構化數據與非結構化數據:有什么區別?
除了存儲在關系數據庫和存儲在一個關系數據庫之外的明顯區別之外,最大的區別在于分析結構化數據與非結構化數據的便利性。
針對結構化數據存在成熟的分析工具,但用于挖掘非結構化數據的分析工具正處于萌芽和發展階段。
用戶可以通過文本非結構化數據運行簡單的內容搜索。
但是,缺乏有序的內部結構使得傳統數據挖掘工具的目標失敗,企業從富有價值的數據源(如媒體、網絡、博客、客戶交互,以及社交媒體數據)獲得的價值很小。
即使非結構化數據分析工具在市場上出現,但沒有任何一個供應商或工具集是明確的贏家。
許多客戶不愿意投資于具有不確定發展路線圖的分析工具。
除此之外,非結構化數據比結構化數據要多得多。
非結構化數據占企業數據的80%以上,并且以每年55%和65%的速度增長。
如果沒有工具來分析這些海量數據,組織會在商業智能表上留下大量有價值的數據。
傳統上,結構化數據對大數據應用程序來說更容易消化,但如今的數據分析解決方案正在這方面取得重大進展。
半結構化數據如何適用于結構化和非結構化數據
半結構化數據維護用于識別單獨數據元素的內部標記和標簽,從而實現信息分組和層次結構。
文檔和數據庫都可以是半結構化的。
這種類型的數據只代表結構化/半結構化/非結構化數據的5%-10%,但具有關鍵的業務用例。
電子郵件是半結構化數據類型的一個非常常見的例子。
而更高級的分析工具對于線程跟蹤,近似重復數據刪除和概念搜索是必需的。
電子郵件的本地元數據可以實現分類和關鍵字搜索,無需任何其他工具。
電子郵件是一個巨大的用例,但大多數半結構化的開發中心都在緩解數據傳輸問題。
與基于Web的數據共享和傳輸一樣,共享傳感器數據也是一個不斷增長的用例:電子數據交換(EDI),許多社交媒體平臺,文檔標記語言和NoSQL數據庫。
半結構化數據的例子
標記語言XML這是一種半結構化的文檔語言。
XML是一組定義人機可讀格式的文檔編碼規則(雖然說XML是人類可讀的,但并沒有帶來太大的好處,因為人員閱讀XML文檔都會讓他們更加耗費時間。)其價值在于它的標簽驅動結構非常靈活,編碼人員可以使其適應在Web上普及數據結構、存儲和傳輸。
開放標準JSON(JavaScript Object Notation)是另一種半結構化數據交換格式。
Java隱含在名稱中,但其他類似C語言的編程語言可以識別它。
其結構由名稱/值對(或對象、散列表等)和有序值列表(或數組、序列、列表)組成。
由于結構在各種語言之間可以互換,JSON擅長在Web應用程序和服務器之間傳輸數據。
NoSQL半結構化數據也是許多NoSQL(不僅是SQL)數據庫的重要組成部分。
NoSQL數據庫與關系數據庫不同,因為它們不會將組織(模式)與數據分開。
這使得NoSQL成為存儲不容易適應記錄和表格格式的信息(比如長度不同的文本)的更好選擇。
它還允許數據庫之間進行更容易的數據交換。
一些較新的NoSQL數據庫(如MongoDB和Couchbase)也通過將它們以JSON格式本地存儲來包含半結構化文檔。
在大數據環境中,NoSQL不需要管理員將運營和分析數據庫分離為單獨的部署。
NoSQL是可操作的數據庫,并托管用于商業智能的本地分析工具。
在Hadoop環境中,NoSQL數據庫攝取并管理傳入數據并提供分析結果。
這些數據庫在大數據基礎架構和LinkedIn等實時Web應用程序中很常見。
在LinkedIn網站上,數以億計的商業用戶可以自由分享職位、地點、技能等等。
LinkedIn以半結構化格式捕捉海量數據。
當求職用戶創建搜索時,LinkedIn會將查詢與其大規模的半結構化數據存儲相匹配,將數據交叉引用到招聘趨勢中,并與求職者分享結果推薦。
Salesforce等高級LinkedIn服務中的銷售和營銷查詢也采用相同的流程。
亞馬遜還將讀者推薦建立在半結構化數據庫上。
結構化數據與非結構化數據:下一代工具是游戲規則改變者 可以使用新工具分析非結構化數據,特別是給定用例參數。
大多數這些工具都基于機器學習。
結構化數據分析也可以使用機器學習,但海量數據和許多不同類型的非結構化數據都需要它。
幾年前,使用關鍵字和關鍵短語的分析人員可以搜索非結構化數據,并對數據涉及的內容有一個清晰的概念。
電子發現是這種方法的主要例子。
但是,非結構化數據的增長速度非常快,以至于用戶不僅需要采用計算工作的分析,而且還要自動從他們的活動和用戶決策中學習。
自然語言處理(NLP)、模式感知和分類以及文本挖掘算法都是常見的例子,文檔相關性分析、情感分析和過濾器驅動的網頁收集也是常見的例子。
使用機器學習智能進行非結構化數據分析可使組織:
分析數字通信的合規性。
違反合規性將會使企業損失數百萬美元的費用、訴訟和業務損失。
模式識別和電子郵件線程分析軟件可以搜索海量的電子郵件和聊天數據,以防潛在的不合規情況。
最近的一個例子就是大眾汽車公司可能通過使用分析來監控可疑消息的通信,從而避免了巨額罰款和聲譽損失。
跟蹤社交媒體中的大量客戶對話。
文本分析和情緒分析可讓分析師檢查營銷活動的積極和負面結果,甚至識別在線威脅。
這種級別的分析是一種更為復雜的簡單關鍵字的搜索,它只能報告基本知識,例如海報在新廣告系列中提及企業名稱的頻率。
新的分析還包括以下場景:提及的是積極還是負面?海報是否有更好的宣傳作用?用戶對行政公告的反應是什么?例如汽車行業大量參與社交媒體的分析,因為購車者往往會轉向其他海報來衡量他們的購車體驗。
分析師使用文本挖掘和情感分析相結合的方式來跟蹤Twitter和Facebook上與自動相關的用戶帖子。
獲得新的營銷情報。
機器學習分析工具可快速處理大量文檔以分析客戶行為。
一家重要的雜志發行商可以將文本挖掘應用到數以萬計的文章中,并通過主要分論題的流行度來分析每個單獨的出版物情況。
然后,他們將分析擴展到所有內容屬性,以查看哪些整體主題受到客戶的主要關注。
該分析將所有出版物的數十萬條內容進行分析,并以分段形式交叉引用熱門主題的結果。
其結果是豐富的內容,哪些話題對不同的顧客最感興趣,哪些營銷信息與他們產生了最強烈的共鳴。
在電子數據展示中,數據科學家使用關鍵字搜索非結構化數據并獲得有關數據的合理構想。
Copyright © 2021 深圳市維創信息技術有限公司 版權所有