2010年1月21日 星期四

Data Mining 基本概念之一

Data Mining為何重要?

在IT技術在近數十年的發展以來,由於Data Mining可以在充滿雜訊和複雜結構的大量資料中萃取出有意義的資訊和知識,因此在各行各業當中有相當吸引人的應用價值,像是市場行銷客戶行為分析客戶維護策略產品控制網路攻擊預測、金融市場分析等,具有相當廣泛的應用。

但是有個問題是,要從怎麼從大量的資料當中找出有意義的資訊?而這些資料又應該儲存在哪裡?假設沒有一個強大的分析工具,那我們會難以從快速增長(fast0growing)的龐大資料量中廣泛的理解出有意義的結果,而會造成一個現象就是「資料爆炸但是資訊貧乏!」(we are data rich, but information poor.)
Figure 1 .We are data rich, but information poor.


Data要儲存在哪?

由上可知,我們的首要目的就是把資料儲存在資料庫(Database)中做有系統的整理分析和格式化。資料庫技術自從1980年代起就開始有了爆炸性的研究發展,例如:最常見的關聯性資料庫(Extended-Relational Database)、物件導向式(Object-Oriented Database)或者是利用關聯式來建立物件的概念(Object-Relational Database),這個方式主要是透過Object-Relational Mapping,來將物件與關聯式資料庫之間做對映,因此資料可以被儲存在許多不同架構的資料庫上,另一種興起興起的架構就是資料倉儲(Data warehouse),資料倉儲提供的技術如資料清洗(Data cleaning)、縮減(reduction)、整合(integration),線上分析處理(OLAP)等,以下是資料庫技術的進程表。


Figure 2.The evolution of database system technology

Cited from :Han, J. and Kamber, M., Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000/2006

假設把資料整理好儲存進資料庫之後,接下來的步驟就是資料探勘(Data mining)。

什麼是Data Mining?

簡單的說,資料探勘是指把隱含在大量資料的知識給萃取或挖掘出來的一種工具,但是資料探勘(Data mining)一詞並不是很貼切的說法,假設當我們聽到黃金探勘(gold mining)一詞,那我們可以推論這個活動大概是從礦物或岩石中做金礦開採;然而,資料探勘或許被改名為知識探勘(Knowledge mining)會比較恰當些,表示從大量資料中發掘出隱含的知識,但是這個data and mining已經成為約定成俗的廣泛用法,一些其他詞彙:knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, and data dredging,Knowledge Discovery from Data, or KDD都具有相同的意義。

但是要注意的是"資料探勘"在整個知識發掘的過程當中,只不過是一個步驟罷了,在資料準備上,前面還有許多必要的準備過程,如資料整合,清洗,縮減,格式化,資料探勘的流程如下:


Figure 3. Data mining as a step in the process of knowledge discovery.


  1. 資料清洗(Data cleaning)-清除雜訊和不一致的資料,並且縮減不必要的資料
  2. 資料整合(Data integration)-把多種資料來源組合在一起
  3. 資料選擇(Data selection)-從資料庫中選擇哪些資料來做分析
  4. 資料格式轉換(Data transformation)-把不同資料格式轉換成合適做資料探勘的格式
  5. 資料探勘(Data mining)-應用演算法萃取出資料裡面的模式(patterns)和資訊
  6. 模型驗證(Pattern evaluation)-基於一些定義好的衡量標準上,驗證出可以表現出此知識的特徵模型
  7. 知識表現(Knowledge presentation )-把探勘出來的結果,利用視覺化工具如圖表,決策樹等彙整成讓使用者易於理解的表示方法

以上步驟一到四是屬於資料前置準備(data preparation)階段,而探勘只是其中一個步驟而已,但是要清楚的是,在做這些流程之前,最重要的是要先確定資料探勘的目的為何?我們預期會有什麼效益或產出?Data Mining先定義出商業目標(Identification of business objectives)和商業理解(Commercial Understanding)才是知識挖掘流程中最重要的步驟,在資料探勘這個領域上其實整合了許多發展成熟的技術像是類神經網路(neural networks)、圖像辨別(Pattern recognition)、資訊檢索(information retrieval)、圖像和訊號處理(image and signal processing)等,這些相關學科在資料探勘領域上具有廣泛和深度的結合。

Reference
--> Han, J. and Kamber, M., Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000/2006.


4 則留言:

  1. 搜尋資料看到你的文章:)

    回覆刪除
  2. Waste water (H2O) is any type of H20 of which the standard has been negatively affected by human activities.

    Waste water treatment is one of the most profitable option to preserve our precious storage water supply.
    The biological infiltration uses two types of bacteria: the bacteria that oxidise ammonia to nitrite (nitrosomonas) and the bacteria that oxidise nitrite to
    nitrate (nitrobacter).

    Feel free to visit my page: nostalliance.fr
    ()

    回覆刪除
  3. The newest numbers show that nearly 10percent of Americans are diabetic or borderline diabetic.
    Consider this assortment two-times each day before lunch and dinner.
    Nobody, needless to say, welcomes that announcement.



    Here is my site cure diabetes type 2

    回覆刪除
  4. No matter if some one searches for his vital thing, so he/she
    needs to be available that in detail, thus that thing is maintained over here.


    my website - teespring wordpress plugin

    回覆刪除