VitaBox AD

2022年11月19日 星期六

[Python]初探爬蟲(scrapy)

隨著互聯網時代的到來,網路已成為人類生活的資料庫,只要輸入合適的關鍵字,大部分的問題可藉由搜索找到方向。然而,以另一個角度觀察,龐大的網路資料庫也易因為巨量的資料,導致容易失焦,因此如何從資料庫篩選出期望的主題資料是一個重點工作。早有耳聞Python的爬蟲功能,藉著零碎時間看了一些視頻,同時將重點摘要如下,供日後查閱,也供各位參考。

2022年10月23日 星期日

[R]如何繪製條型圖(Bar chart)? geom_bar()

 

在數據分析中,直方圖(Histogram)和條型圖(Bar chart)是常用於觀察數據樣態的工具。關於直方圖的用法,可參考<[R]直方圖(Histogram)的用法>文章。

關於條型圖的用法,各位一定不陌生,尤其是經過2020年的COVID-19疫情事件,為了統計和比較各區域的確診或死亡病例,各媒體常以條型圖呈現數據。在R語言中,藉由安裝包ggplot2亦可輕鬆繪製,範例程式如下。

2022年9月2日 星期五

[R]如何篩選出特定子集數據? subset()

在R語言中,篩選出特定子集數據的函數為subset(),經由查詢Help的結果,其對應的描述和用法如下。顧名思義,利用邏輯符號表述篩選子集的方式,將符合條件的數據子集合篩選出來。

2022年8月7日 星期日

[R]如何擷取特定字串? substr()

在R語言中,擷取特定字串的函數為substr(),經由查詢Help的結果,其對應的描述和用法如下,顧名思義,substr()的用法僅需要定義原字串x,並定義起始字元和終止字元,即可達成效果。

2022年7月3日 星期日

[R]如何取得非重複的向量或數組? unique()

在數據處理中,去除並取得非重複的數組是一項基本需求。在R語言中,可以用unique函數實現。

2022年5月2日 星期一

[R]如何查詢符合條件的對應行列數據?

這個功能類似Excel中Vlookup函數的效果。但Excel畢竟有儲存欄位數量的限制,換句話說,Excel能處理數據量級是受限制的。在R語言中,亦可用which來實現查詢符合條件的對應行列數據。

2022年4月3日 星期日

[R]直方圖(Histogram)的用法

直方圖(Histogram)常用於數據分布和分類的呈現功能。在R語言中,利用hist指令即可繪製,同時亦可輸出數據分布結果,語法說明如下。

Histograms
Description:
The generic function hist computes a histogram of the given data values.
hist(x, breaks = "Sturges",
     main = paste("Histogram of" , xname),
     xlim = range(breaks), ylim = NULL,
     xlab = xname, ylab,
     axes = TRUE, plot = TRUE, labels = FALSE)

2022年3月6日 星期日

[R]如何根據特定字元拆分數據(str_split_fixed)?

關於數據集(dataset)的處理,往往讀入數據集後,需要進一步對於數據進行拆分或合併處理,以利銜接後續數據分析工作。在R語言中,可利用安裝包 stringr中的str_split_fixed指令,根據特定字元拆分批量數據,達到數據匯總之效果。

2021年12月26日 星期日

[R]如何利用rnorm生成亂數矩陣和時間序列亂數?

在數值計算軟體的應用上,生成各類符合要求的隨機亂數分布以進一步驗證模型,幾乎是基本需求。R語言中,可利用rnorm指令來生成符合某個平均值和某個標準差要求的常態亂數分布。另外,亦可善用rnorm來生成時間序列亂數。

2021年11月14日 星期日

[R]聚類算法:k-means模組

 延伸<[Excel]k-means聚類算法的應用,以評價現有供應商的水平為例。>文章,同時恰巧在圖書館看到一本R語言機器學習書籍,因此正好可進一步了解如何用R語言來實現k-means算法和應用,一併將k-means模組建立起來,做為未來參照使用。

2021年10月9日 星期六

[R]如何利用seed和sample指令,生成各類的隨機亂數?

在數值計算軟體的應用上,生成各類的隨機亂數是基本的功能。在R語言中,可利用seed和sample來生成各種類的隨機亂數,隨機亂數結果包含單個數值是否重複產生,亂數群是否可固定以驗證數值模型,以及是否可依照比例產出隨機亂數。

2021年9月11日 星期六

[R]高級結構指令(lapply, sapply和apply)的用法

基本的程序語言都具備基本的控制結構指令,如if...else和for...loop,一般可做為操作向量數據的輔助工具。然而,當用於大數據的平行處理作業,切換為矩陣操作就顯得相當重要,R語言中的高級數據結構指令即具備平行處理大數據的功能。

2021年8月7日 星期六

[R]如何建立線性回歸模型,並診斷模型的正確性?

在數理統計中,線性回歸是利用最小平方法將自變量和因變量數據之間的關係,以建立函數形式的分析方法。根據自變量的個數,一個自變量的關係稱為一元線性回歸,兩個以上的關係稱為多元線性回歸。在實務的相關工程應用也相當廣泛,如電烙鐵的輸入電功率與加熱溫度的關係,膠機的出膠量與膠管溫度和壓力泵的輸出壓力的關係等等。

利用R語言的模組,可協助建立線性回歸模型,並進一步診斷模型的正確性,一起來看看如何操作吧。

2021年7月17日 星期六

[R]如何查詢安裝包(package)中的數據集(dataset)?

安裝包(package)之於R,就如同一棵樹的枝幹之於主幹。藉由安裝包的拓展,R語言的功能得已趨近於完整。

安裝包除了集成眾多函數之外,有時為了展示安裝包中的函數效果,會再自帶數據集。如應用於處理數據繪圖的lattice安裝包,就包含不少數據集。