2018年3月25日 星期日

[R]如何處理壓縮檔案(.zip)並彙整成圖表_以北市府X亞馬遜AWSX大學雲端大數據跨界合作資料集專區為例?


因應數字時代的到來,全球政府開放適當的公共數據已是施政方針的基本門檻。除了人民可透過數據資料參與公共政策議題,以行使公民的知悉權利並用選票提升政府運作效能之外,民眾亦可透過創意、需求並結合數位工具,使公共數據被轉譯並賦予新的價值。例如藉由適當的數據轉譯以凸顯公共政策的核心問題,使社會大眾更容易理解問題癥結點,而不需浪費時間在族群對立等等失焦議題。

前陣子,台北市政府與亞馬遜Amazon Web Services(AWS)宣布推動雲端大數據的合作計畫,使台北市政府成為亞洲第一個加入AWS Public Dataset計畫的政府機關。透過北市府X亞馬遜(AWS)X大學雲端大數據跨界合作資料集專區的說明文件,可取得台北市常見的18項即時數據連結,其中包含台北捷運列車到站資訊、最新災害專案的災情資料和台北市空氣品質即時污染指標等等數據,說明文件格式如圖一所示。

圖一、台北市空氣品質即時汙染指標
由說明文件可知,數據的格式包含xml, csv, xls, json, zip等等類型。而R語言也有處理這幾款數據格式的對應套件和語法,例如xml2、read.table、jsonlite和unzip,使得數據可以順利被讀取,並在R語言中進行資料清洗、修剪、多檔案整併和圖表呈現等等工作,而達到過程自動化的需求。

下列以台北市空氣品質及時汙染指標資料集為範例,利用R語言將壓縮檔案(.zip)下載,並進行解壓縮、資料修剪和彙整成圖表等等工作,下載和解壓縮的程式碼如圖二所示,彙整成圖表的程式碼則可參考圖三, 結果如本文封面圖所示。

圖二、下載和解壓縮程式碼

圖三、彙整成圖表程式碼

參考資料:
1.北市府 X 亞馬遜 AWS X 大學 雲端大數據跨界合作資料集專區
2.開放資料簡介(含世界各地政府的資料開放平台)

延伸閱讀:[R]R與Tableau的數據共舞_以臺北市政府資料開放平台(Data.Taipei)為例

沒有留言:

張貼留言