科普資料庫系列文章:(1/4)首篇:通識資料庫

在教授商務智慧與資料分析的相關課程,或是僅是指導如何和運用Excel處理資料表、進行資料關連與查找,乃至進行摘要統計的簡單作業時,發覺許多非資訊背景的使用者,對於資料庫的觀念並不是那麼的正確與熟悉。在碰到一些時常耳聞的資料庫系統相關專有名詞時,更是既陌生又卻步,在資訊領域各方面的學習上,的確會是一個較過不去的檻,因此,特別想要撰寫系列文章,配合實作演練,與大家分享這並非冷知識的Popular Science

猶記四十年前,第一次接觸到「電腦」(後來才知實為終端機)時,新鮮、興奮的心境不可言喻。從一開始的程式設計,到後來的資料庫實作、應用程式開發,一路走來,對於資料庫的世代變遷感觸最深!從一開始的COBOL、Basic,到dBase、FoxPro、paradox、Clipper、Access等套裝軟體式的資料庫系統程式,乃至試算表軟體工具的盛行,天生行列架構的Excel,也經常被當作資料表來使用,因此,資料庫的觀念與認識幾乎已經不只是資訊專業人員必備的技能,也是各行各業各領域的資訊工作者如同普科般應有的通識。

什麼是資料(Data)

所謂的資料,是用來表示某些事物的文字或語言等符號記錄,可以定義有意義的實體,也涉及到事物的存在和存取形式,是構成資訊(Information)和知識(Knowledge)的原始材料。例如:電腦處理的文字、符號、數值、圖片、影音等等素材。所以,資料是一群沒有經過整理的廣泛內容,可以各種不同的方式及型態來加以描述。

什麼是資訊(Information)

是將一群資料進行處理、運算(包括:平均值、標準差、由小到大進行排序等等),再經過適當的詮釋來呈現資訊,產生有組織及內涵的資訊。

資料處理(Data Processing)

在維基百科上對資料處理有著一針見血的定義:「the collection and manipulation of items of data to produce meaningful information's.」。所謂的資料處理指的是對於零散、混亂、看不出用途的資料內容進行:驗證(Validation)、排序(Sorting)、摘要(Summarization)、聚合(Aggregation)、分析(Analysis)、報表(Reporting)、分類(Classification)等作業,這也是在「資料到智慧」(DIKW金字塔模型)中最底層的重要基礎。

  • 驗證(Validation) – 確認所供給的資料是 "完整、正確且有用的"
  • 排序(Sorting) – 在不同的集合中以指定的順序排列資料項目
  • 摘要(Summarization) – 彙總運算主要的分類統計以簡化冗長的明細資料
  • 聚合(Aggregation) – 將眾多且細碎的資料結合、拼湊起來
  • 分析(Analysis) – 資料的蒐集、組織、分析、解譯與發表
  • 報表(Reporting) – 列出明細或摘要資料,或者經過運算的資訊
  • 分類(Classification) – 將資料分割成不同的分類

綜觀,資料、資料處理、資訊,三者的過程如下:

什麼是資料表(Data Table)

在電腦科技與資訊領域裡的「資料表」(Data Table)指的是以表列形式(2維的行列式)來排列、儲存、描述資料的內容及關係。以一個儲存員工基本資料的資料表而言,在行列式的表格中,垂直的每一欄(Column)應包含員工的相關特定訊息(資料欄位),例如:員工工號、員工姓名、性別、雇用日期、地址...等等。水平的每一列便包含了某一位員工的所有相關特定訊息的內容。也就是逐列記載每一位員工的員工工號、員工姓名、性別、雇用日期、地址...等資料內容。

什麼是資料庫(Database)

一個組織、單位或企業,其原始紙本資料的電腦化規劃,若僅藉著一張資料表格來記錄所有想要儲存的資料,是絕對不實際、沒有效率、也不實務的。通常,會根據實際需求、邏輯規範或特定目的而分門別類的運用多張資料表來儲存資料。甚至,對各個資料表完成各種屬性設定、限制、格式化,而架構出「資料庫」(Database)。因此,所謂的資料庫是一群組織過的資料並以一定方式儲存在一起,也能夠讓多位使用者共享、協作,且具備最小化的冗餘度,以及與應用程式可以彼此獨立的資料集合體。

即便是日常生活中信手拈來的資料,諸如:名片、成績單、帳單、發票、…等資料,若將其分類蒐集並彙整在一起,也是一種資料庫的表現。例如:一張張的名片(正是一筆筆的資料記錄)構成了通訊錄資料表;一張張的期中、期末考成績單(亦為一筆筆的記錄)形成了成績單資料表;而一筆筆的帳單(也是一筆筆的資料記錄)便產生了帳單資料表,而這通訊錄資料表、成績單資料表與帳單資料表,便架構出這個家庭的重要資料庫。

常被當作資料庫與資料表來使用的試算表軟體

原本應用在財會與統計的試算表軟體(Spread Sheets),天生行列式的結構,以及包羅萬象的函數功能,和直覺的操控介面,以及與資料處理相關的機能,在試算表軟體普及的世代裡,使用者常常會在工作表上儲存資料、建立公式,將工作表當作資料表來使用。不論是排序、篩選、小計、群組、…這些資料處理的作業,幾乎運用起來也頗為得心應手、理所當然。

<(1)首篇:通識資料庫>   <(2) 科普關聯式資料庫>   <(3) 關聯式資料庫的專有名詞>   <(4) 關聯式資料庫特性>