顯示具有 R-project 標籤的文章。 顯示所有文章
顯示具有 R-project 標籤的文章。 顯示所有文章

2022年10月23日 星期日

[R]如何繪製條型圖(Bar chart)? geom_bar()

 

在數據分析中,直方圖(Histogram)和條型圖(Bar chart)是常用於觀察數據樣態的工具。關於直方圖的用法,可參考<[R]直方圖(Histogram)的用法>文章。

關於條型圖的用法,各位一定不陌生,尤其是經過2020年的COVID-19疫情事件,為了統計和比較各區域的確診或死亡病例,各媒體常以條型圖呈現數據。在R語言中,藉由安裝包ggplot2亦可輕鬆繪製,範例程式如下。

2022年9月2日 星期五

[R]如何篩選出特定子集數據? subset()

在R語言中,篩選出特定子集數據的函數為subset(),經由查詢Help的結果,其對應的描述和用法如下。顧名思義,利用邏輯符號表述篩選子集的方式,將符合條件的數據子集合篩選出來。

2022年8月7日 星期日

[R]如何擷取特定字串? substr()

在R語言中,擷取特定字串的函數為substr(),經由查詢Help的結果,其對應的描述和用法如下,顧名思義,substr()的用法僅需要定義原字串x,並定義起始字元和終止字元,即可達成效果。

2022年7月3日 星期日

[R]如何取得非重複的向量或數組? unique()

在數據處理中,去除並取得非重複的數組是一項基本需求。在R語言中,可以用unique函數實現。

2022年5月2日 星期一

[R]如何查詢符合條件的對應行列數據?

這個功能類似Excel中Vlookup函數的效果。但Excel畢竟有儲存欄位數量的限制,換句話說,Excel能處理數據量級是受限制的。在R語言中,亦可用which來實現查詢符合條件的對應行列數據。

2022年4月3日 星期日

[R]直方圖(Histogram)的用法

直方圖(Histogram)常用於數據分布和分類的呈現功能。在R語言中,利用hist指令即可繪製,同時亦可輸出數據分布結果,語法說明如下。

Histograms
Description:
The generic function hist computes a histogram of the given data values.
hist(x, breaks = "Sturges",
     main = paste("Histogram of" , xname),
     xlim = range(breaks), ylim = NULL,
     xlab = xname, ylab,
     axes = TRUE, plot = TRUE, labels = FALSE)

2022年3月6日 星期日

[R]如何根據特定字元拆分數據(str_split_fixed)?

關於數據集(dataset)的處理,往往讀入數據集後,需要進一步對於數據進行拆分或合併處理,以利銜接後續數據分析工作。在R語言中,可利用安裝包 stringr中的str_split_fixed指令,根據特定字元拆分批量數據,達到數據匯總之效果。

2021年12月26日 星期日

[R]如何利用rnorm生成亂數矩陣和時間序列亂數?

在數值計算軟體的應用上,生成各類符合要求的隨機亂數分布以進一步驗證模型,幾乎是基本需求。R語言中,可利用rnorm指令來生成符合某個平均值和某個標準差要求的常態亂數分布。另外,亦可善用rnorm來生成時間序列亂數。

2021年11月14日 星期日

[R]聚類算法:k-means模組

 延伸<[Excel]k-means聚類算法的應用,以評價現有供應商的水平為例。>文章,同時恰巧在圖書館看到一本R語言機器學習書籍,因此正好可進一步了解如何用R語言來實現k-means算法和應用,一併將k-means模組建立起來,做為未來參照使用。

2021年10月9日 星期六

[R]如何利用seed和sample指令,生成各類的隨機亂數?

在數值計算軟體的應用上,生成各類的隨機亂數是基本的功能。在R語言中,可利用seed和sample來生成各種類的隨機亂數,隨機亂數結果包含單個數值是否重複產生,亂數群是否可固定以驗證數值模型,以及是否可依照比例產出隨機亂數。

2021年9月11日 星期六

[R]高級結構指令(lapply, sapply和apply)的用法

基本的程序語言都具備基本的控制結構指令,如if...else和for...loop,一般可做為操作向量數據的輔助工具。然而,當用於大數據的平行處理作業,切換為矩陣操作就顯得相當重要,R語言中的高級數據結構指令即具備平行處理大數據的功能。

2021年8月7日 星期六

[R]如何建立線性回歸模型,並診斷模型的正確性?

在數理統計中,線性回歸是利用最小平方法將自變量和因變量數據之間的關係,以建立函數形式的分析方法。根據自變量的個數,一個自變量的關係稱為一元線性回歸,兩個以上的關係稱為多元線性回歸。在實務的相關工程應用也相當廣泛,如電烙鐵的輸入電功率與加熱溫度的關係,膠機的出膠量與膠管溫度和壓力泵的輸出壓力的關係等等。

利用R語言的模組,可協助建立線性回歸模型,並進一步診斷模型的正確性,一起來看看如何操作吧。

2021年7月17日 星期六

[R]如何查詢安裝包(package)中的數據集(dataset)?

安裝包(package)之於R,就如同一棵樹的枝幹之於主幹。藉由安裝包的拓展,R語言的功能得已趨近於完整。

安裝包除了集成眾多函數之外,有時為了展示安裝包中的函數效果,會再自帶數據集。如應用於處理數據繪圖的lattice安裝包,就包含不少數據集。

2018年3月25日 星期日

[R]如何處理壓縮檔案(.zip)並彙整成圖表_以北市府X亞馬遜AWSX大學雲端大數據跨界合作資料集專區為例?


因應數字時代的到來,全球政府開放適當的公共數據已是施政方針的基本門檻。除了人民可透過數據資料參與公共政策議題,以行使公民的知悉權利並用選票提升政府運作效能之外,民眾亦可透過創意、需求並結合數位工具,使公共數據被轉譯並賦予新的價值。例如藉由適當的數據轉譯以凸顯公共政策的核心問題,使社會大眾更容易理解問題癥結點,而不需浪費時間在族群對立等等失焦議題。

2018年3月15日 星期四

[R]R與Tableau的數據共舞_以臺北市政府資料開放平台(Data.Taipei)為例


關於數據處理工具R語言,R-bloggers是一個不錯的資源網站。除了R語言本身的資訊更新和相關應用之外,該網站對於其他數據處理分析工具的建議用法和評價內容,也具有相當高的參考價值。

2018年2月6日 星期二

[R]如何利用Apriori Algorithm進行關聯性分析,以文具公司執行去化庫存作業為範例?


決策事務是企業經營者和中高階管理層的重要工作之一,尤其是涉及營運策略的決策事務,更應該謹慎面對。如同唐內拉‧梅多斯(Donella H. Meadows)於系統思考(Thinking in Systems: A Primer)一書所提到的內容,管理層常遇到的問題屬性往往不是彼此獨立,而是具備多種層面並相互關聯的系統性和多維度問題。因此執行決策的前置工作往往須包含明確定義問題、彙整可能涉及該問題的相關資訊以及思考和分析各個層面於該問題的關聯性和影響程度等等相關工作。換句話說,若能藉由彙整資訊的分析工作,有效地評估各層面因子之間關聯性和影響程度,產出合理決策方案的機率相對提升。(OS: 除了上述因子,執行決策事務有時還會遭遇到及時性和資訊不確定性等等問題,總之決策工作是一門高深學問。)

2018年1月28日 星期日

[R]如何取得網頁的Xpath,以實現網頁爬蟲(Web Crawler)目的?

隨著人們對於互聯網的信任和依賴,網頁資料幾乎已成為一個浩瀚無際的龐大資料庫。另外,就資訊呈現的形態而言,人們已由分類架構的入口網站形態(例如蕃薯藤)轉變至依個人需求的搜索網站形態(例如Google和Yandex),甚至是已逐漸成為主流形態的社群媒體(例如Facebook和Twitter),使得人們需求逐漸地由被動滿足轉變為主動滿足,例如曾經在個人Facebook按讚的書本資訊,類似書籍將以高頻率地呈現在個人的Facebook廣告中,使得獲取需求資源的門檻越來越低,並形成新興的商業模式「社群行銷」。

2018年1月24日 星期三

[R]如何使程式每間隔一段時間即執行一次?


針對網頁資料的蒐集需求,以R語言製作網頁爬蟲(Web Crawler)是不錯的工具之一,藉由安裝網頁擷取相關套件(Package)和搭配幾個簡易語法,即可達成需求。然而,若網頁數據隨時間不斷更新,同時亦無提供隨時間變化的完整數據下載服務,例如氣象觀測資料和即時匯率變動資料等等。新增每間隔一段時間即執行一次的程式碼並將蒐集數據彙整成圖表,以進一步分析後續趨勢,是解決方案之一。(OS:另一個想到的解決方式是新增判斷網頁少量數據是否已更新,再擷取和比對全部數據,該方式考量網路資源的不必要消耗並兼具網頁造訪的禮貌性。)