這算是debug代碼的紀錄,只求此次碰過的坑,下次可以繞道而過,紀錄,也供分享。
下列兩個簡單的代碼段都會看到IndexError: list index out of range錯誤訊息,其實問題來自於data1[5]和data2[0]無法被print出來,原因是data1是一個1~5的list,而其序號是由0開始計數,即data1[0]=1....data1[4]=5,所以找不到data1[5]。以此類推,data2是一個empty list,自然連data2[0]都沒有元素。
Learn & Share由H-Y Chou 和 Books and Pencil 共筆,藉由這個平台紀錄著實用工具和好書閱讀,同時也分享著教育學習與思維概念等等多元化的主題。
這算是debug代碼的紀錄,只求此次碰過的坑,下次可以繞道而過,紀錄,也供分享。
下列兩個簡單的代碼段都會看到IndexError: list index out of range錯誤訊息,其實問題來自於data1[5]和data2[0]無法被print出來,原因是data1是一個1~5的list,而其序號是由0開始計數,即data1[0]=1....data1[4]=5,所以找不到data1[5]。以此類推,data2是一個empty list,自然連data2[0]都沒有元素。
銜接<[Python]初探爬蟲(scrapy)>的學習,在Python中,除了善用request安裝包抓取網頁資料之外,還可利用selenium安裝包模擬瀏覽器操作網頁,包含搜尋關鍵字和抓取網頁資料,得以實現機機器人流程自動化(RPA, Robotic process automation)的操作。
在現今電腦化(或稱無紙化)的辦公環境中,往往因為工作需求需將一些資料在不同辦公文件之間轉移,如若需要呈現簡報(.ppt),可能需將word的部分文字複製到ppt上;若需要分析論文中的表格數據,可能需將pdf轉換成excel。然而,若僅僅是少數文件的轉換,或許可簡單用複製和貼上的功能來處理,但若是批量轉換的工作,為了避免重複性勞力和容易出錯,藉由工具來進行批量轉換才是正確的工作方式。
關於Python,如上篇文章<[Python]初探爬蟲(scrapy)>所述,其藉由各類安裝包的導入可以開展對應程序工作。既然是藉由安裝包的導入,可想而知,一定會有查詢安裝包的指令,網路上很容易搜尋到。(OS: 其實這篇文章的主要目的是為了紀錄今日的幾個重點結論,而查看安裝包的狀態僅是其中一個結論。)
隨著互聯網時代的到來,網路已成為人類生活的資料庫,只要輸入合適的關鍵字,大部分的問題可藉由搜索找到方向。然而,以另一個角度觀察,龐大的網路資料庫也易因為巨量的資料,導致容易失焦,因此如何從資料庫篩選出期望的主題資料是一個重點工作。早有耳聞Python的爬蟲功能,藉著零碎時間看了一些視頻,同時將重點摘要如下,供日後查閱,也供各位參考。
在數據分析中,直方圖(Histogram)和條型圖(Bar chart)是常用於觀察數據樣態的工具。關於直方圖的用法,可參考<[R]直方圖(Histogram)的用法>文章。
關於條型圖的用法,各位一定不陌生,尤其是經過2020年的COVID-19疫情事件,為了統計和比較各區域的確診或死亡病例,各媒體常以條型圖呈現數據。在R語言中,藉由安裝包ggplot2亦可輕鬆繪製,範例程式如下。
在R語言中,篩選出特定子集數據的函數為subset(),經由查詢Help的結果,其對應的描述和用法如下。顧名思義,利用邏輯符號表述篩選子集的方式,將符合條件的數據子集合篩選出來。
在R語言中,擷取特定字串的函數為substr(),經由查詢Help的結果,其對應的描述和用法如下,顧名思義,substr()的用法僅需要定義原字串x,並定義起始字元和終止字元,即可達成效果。