前言:

新手小白對網頁爬蟲的概念了解不多
但在爬簡單的網頁呢  至少要知道

我們打開一個網頁 會有兩件事情發生 就是request 和 response 
也就是說 我們先用自己的電腦 向一個網頁提出我們要去參觀
然後網頁再把它的內容回傳給我們 檔案可能有 HTML / Json / csv 等等的
最後瀏覽器 (像是 GoogleChrome) 來包裝成我們現在看的網頁的樣貌

當我們要爬蟲的時候
簡單來講會有幾個步驟
1. 觀察我們要爬的網頁
2. 下載我們要的網頁
3. 整理成我們要的形式

有些行家可以邊下載邊整理 不過新手小白沒這麼厲害
就先整個下載來再整理吧~~


正文:  觀察我們要爬的網頁

首先 以股價資料為例 我們可以在證交所看到

http://www.twse.com.tw/zh/page/trading/exchange/MI_INDEX.html

你可以看到他有寫 CSV下載~~~ 表示這網頁應該是很好爬的~~
接下來 我們必須知道瀏覽器的一個功能
在這個網頁上按右鍵 => 檢查 => 然後就會跑出多一個視窗
 

這個視窗就是 我們在左邊網頁做的任何事情
會用 網頁代碼和檔案的形式 顯示出來
好啦~~ 新手小白 只想 爬股價資料
那就照下邊的幾個步驟吧
1. 點選右邊視窗的 Network 
2. 點選左邊視窗的 查詢
3. 點選右邊視窗的 Headers
就會有以下畫面

4.我們複製剛剛Request的 URL 裡面的網址 ( 如上圖)
5.貼在任意的新的瀏覽器頁面打開   基本上...會有很多亂碼 
但你可以稍微觀察一下裡面是真有我們想要的股價資訊 

如要好看一點呢~ 你可以試試把剛複製的網址 中的 json 改成csv
也就是
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=json&date=20180820&type=ALLBUT0999&_=1534745211834
改成
http://www.twse.com.tw/exchangeReport/MI_INDEX?response=csv&date=20180820&type=ALLBUT0999&_=1534745211834
就可以把剛剛的內容 下載下來用EXCEL打開  ### 這招不一定適用喔~ 因為每個網頁的寫法不一樣 請先當作特例吧

因為新手小白要的只是各股 所以其他的資訊可以把他刪了
就可以得到以下的內容囉~~

好啦~~ 這個CSV檔就是我們要爬出來的東西
只是新手小白是用手動完成的
下次的爬蟲系列文 會講講怎麼用 Python來實現我們以上的動作
並且重複地抓取不同天的股價資料 

 

 


補充: 再觀察網頁的時候 其實也可以透過 右邊的 Response 來看看網頁裡面的內容

基本上 複製下來 再用文字檔打開就行了


 

arrow
arrow

    Markjong001 發表在 痞客邦 留言(0) 人氣()