VitaBox AD

2018年1月28日 星期日

[R]如何取得網頁的Xpath,以實現網頁爬蟲(Web Crawler)目的?

隨著人們對於互聯網的信任和依賴,網頁資料幾乎已成為一個浩瀚無際的龐大資料庫。另外,就資訊呈現的形態而言,人們已由分類架構的入口網站形態(例如蕃薯藤)轉變至依個人需求的搜索網站形態(例如Google和Yandex),甚至是已逐漸成為主流形態的社群媒體(例如Facebook和Twitter),使得人們需求逐漸地由被動滿足轉變為主動滿足,例如曾經在個人Facebook按讚的書本資訊,類似書籍將以高頻率地呈現在個人的Facebook廣告中,使得獲取需求資源的門檻越來越低,並形成新興的商業模式「社群行銷」。

2018年1月27日 星期六

[假日好去處]南投縣三育基督學院


清晨的雲海與晨曦曙光,令人心曠神怡~~

南投縣三育基督學院位於南投縣魚池鄉,距離日月潭約3公里處。學院占地約52公頃,除了教室、宿舍、活動中心和圖書館等等校園建築物,與一般學校最大的不同處是其廣闊的草地和群樹圍繞的林蔭,估計綠化範圍達70%以上。

2018年1月24日 星期三

[R]如何使程式每間隔一段時間即執行一次?


針對網頁資料的蒐集需求,以R語言製作網頁爬蟲(Web Crawler)是不錯的工具之一,藉由安裝網頁擷取相關套件(Package)和搭配幾個簡易語法,即可達成需求。然而,若網頁數據隨時間不斷更新,同時亦無提供隨時間變化的完整數據下載服務,例如氣象觀測資料和即時匯率變動資料等等。新增每間隔一段時間即執行一次的程式碼並將蒐集數據彙整成圖表,以進一步分析後續趨勢,是解決方案之一。(OS:另一個想到的解決方式是新增判斷網頁少量數據是否已更新,再擷取和比對全部數據,該方式考量網路資源的不必要消耗並兼具網頁造訪的禮貌性。)

2018年1月22日 星期一

[假日好去處]高雄縣中寮山




好久不見如此日落美景~~

應親戚的邀約,因緣際會來到高雄縣中寮山。中寮山位於高雄縣燕巢區、田寮區和旗山區交界一帶,其泥岩惡地和泥活山的地貌地形是一大特色景觀,同時孕育多樣物種生態,包含台灣獼猴族群、鷹類和蜘蛛族群等等,根據蜘蛛生態專家告知,中寮山區可是中形金蛛的大本營。