2022年4月3日 星期日

[R]直方圖(Histogram)的用法

直方圖(Histogram)常用於數據分布和分類的呈現功能。在R語言中,利用hist指令即可繪製,同時亦可輸出數據分布結果,語法說明如下。

Histograms
Description:
The generic function hist computes a histogram of the given data values.
hist(x, breaks = "Sturges",
     main = paste("Histogram of" , xname),
     xlim = range(breaks), ylim = NULL,
     xlab = xname, ylab,
     axes = TRUE, plot = TRUE, labels = FALSE)

延續著<[R]如何根據特定字元拆分數據(str_split_fixed)?>文章,利用經典的MovieLens數據集為範例,將已完成拆分的rating.dat數據繪製成直方圖,用意是了解所有電影的評價次數中,評價分數的分布為何。

用法摘要說明如下:
1.breaks:設定值方圖的區間,以電影評價分數為1~5而言,區間可設定為0.5~5.5,並以1為間隔。
2.main,xlabel, ylabel:分別設定圖表主標題,x軸標題和y軸標題。
3.輸出結果中,$counts表示每個分類的次數, $density表示每個分類的占比。

#movie rating vs rating frequency
mv_ratings_his<-hist(as.numeric(ratings_tb$Rating),breaks = c(0.5,1.5,2.5,3.5,4.5,5.5),col = "green",main = paste("Histogram of movie ratings"),xlab="Movie ratings",ylab="Counts")
 
#輸出結果
> mv_ratings_his
$breaks
[1] 0.5 1.5 2.5 3.5 4.5 5.5
 
$counts
[1]  56174 107557 261197 348971 226310
 
$density
[1] 0.05616226 0.10753453 0.26114242 0.34889808 0.22626271
 
$mids
[1] 1 2 3 4 5
 
$xname
[1] "as.numeric(ratings_tb$Rating)"
 
$equidist
[1] TRUE

attr(,"class")
[1] "histogram"






沒有留言:

張貼留言