在數據分析中,直方圖(Histogram)和條型圖(Bar chart)是常用於觀察數據樣態的工具。關於直方圖的用法,可參考<[R]直方圖(Histogram)的用法>文章。
關於條型圖的用法,各位一定不陌生,尤其是經過2020年的COVID-19疫情事件,為了統計和比較各區域的確診或死亡病例,各媒體常以條型圖呈現數據。在R語言中,藉由安裝包ggplot2亦可輕鬆繪製,範例程式如下。
Learn & Share由H-Y Chou 和 Books and Pencil 共筆,藉由這個平台紀錄著實用工具和好書閱讀,同時也分享著教育學習與思維概念等等多元化的主題。
在數據分析中,直方圖(Histogram)和條型圖(Bar chart)是常用於觀察數據樣態的工具。關於直方圖的用法,可參考<[R]直方圖(Histogram)的用法>文章。
關於條型圖的用法,各位一定不陌生,尤其是經過2020年的COVID-19疫情事件,為了統計和比較各區域的確診或死亡病例,各媒體常以條型圖呈現數據。在R語言中,藉由安裝包ggplot2亦可輕鬆繪製,範例程式如下。
在R語言中,篩選出特定子集數據的函數為subset(),經由查詢Help的結果,其對應的描述和用法如下。顧名思義,利用邏輯符號表述篩選子集的方式,將符合條件的數據子集合篩選出來。
在R語言中,擷取特定字串的函數為substr(),經由查詢Help的結果,其對應的描述和用法如下,顧名思義,substr()的用法僅需要定義原字串x,並定義起始字元和終止字元,即可達成效果。
這個功能類似Excel中Vlookup函數的效果。但Excel畢竟有儲存欄位數量的限制,換句話說,Excel能處理數據量級是受限制的。在R語言中,亦可用which來實現查詢符合條件的對應行列數據。
在數值計算軟體的應用上,生成各類符合要求的隨機亂數分布以進一步驗證模型,幾乎是基本需求。R語言中,可利用rnorm指令來生成符合某個平均值和某個標準差要求的常態亂數分布。另外,亦可善用rnorm來生成時間序列亂數。
延伸<[Excel]k-means聚類算法的應用,以評價現有供應商的水平為例。>文章,同時恰巧在圖書館看到一本R語言機器學習書籍,因此正好可進一步了解如何用R語言來實現k-means算法和應用,一併將k-means模組建立起來,做為未來參照使用。
在數值計算軟體的應用上,生成各類的隨機亂數是基本的功能。在R語言中,可利用seed和sample來生成各種類的隨機亂數,隨機亂數結果包含單個數值是否重複產生,亂數群是否可固定以驗證數值模型,以及是否可依照比例產出隨機亂數。
基本的程序語言都具備基本的控制結構指令,如if...else和for...loop,一般可做為操作向量數據的輔助工具。然而,當用於大數據的平行處理作業,切換為矩陣操作就顯得相當重要,R語言中的高級數據結構指令即具備平行處理大數據的功能。
在數理統計中,線性回歸是利用最小平方法將自變量和因變量數據之間的關係,以建立函數形式的分析方法。根據自變量的個數,一個自變量的關係稱為一元線性回歸,兩個以上的關係稱為多元線性回歸。在實務的相關工程應用也相當廣泛,如電烙鐵的輸入電功率與加熱溫度的關係,膠機的出膠量與膠管溫度和壓力泵的輸出壓力的關係等等。
利用R語言的模組,可協助建立線性回歸模型,並進一步診斷模型的正確性,一起來看看如何操作吧。