[爆卦]ptt爬蟲時間是什麼?優點缺點精華區懶人包

為什麼這篇ptt爬蟲時間鄉民發文收入到精華區:因為在ptt爬蟲時間這個討論話題中,有許多相關的文章在討論,這篇最有參考價值!作者EasonWW (R)看板Python標題[問題] 抓取限定區間日期的PTT文章時間Sat Se...

ptt爬蟲時間 在 beinghongkong Instagram 的最佳解答

2021-09-24 07:56:30

城市是那麼方便,城市又那麼壓抑,還好香港城市一直與自然為鄰。城後面有山,城中間有海港,城內不同角落還有鳥和樹。細心觀察,自然,就在身邊。 書中也有大自然。 「就係香港」編輯部精選十多部有關大自然的紙本書及雜誌收藏,於中環街市pop up store 閱讀室內展出。選書有的以細膩的素描及生動插畫去...


大家好,小弟最近在學習上遇到一個問題

先跟大家說一下,因為我希望短期有個明確的成果,來鼓勵自己學習下去
因此在學習一些最最最基本的概念後,決定找一個已經被編輯好的code
從對方的code中,透過了解每行code的意義與用法後,希望最後可以理解並運用這個code

所以我選擇之前在網路上看到的一則爬PTT圖片的code來學習(因為看到很多心得分享文章,都說小成果的第一次是爬出PPT的圖片)

但是那邊主要是爬,當日的PTT文章,想請問如何把日期的限制,改成特定日期或特定區間的日期
而非只有針對當日新增的文章做爬文動作。以下是該code針對時間限制的段落

if __name__ == '__main__':
current_page = get_web_page(PTT_URL + '/bbs/Beauty/index.html')
if current_page:
articles = [] # 全部的今日文章
date = time.strftime("%m/%d").lstrip('0') # 今天日期, 去掉開頭的 '0'
以符合 PTT 網站格式
current_articles, prev_url = get_articles(current_page, date) # 目前
頁面的今日文章
while current_articles: # 若目前頁面有今日文章則加入 articles,並回到
上一頁繼續尋找是否有今日文章
articles += current_articles
current_page = get_web_page(PTT_URL + prev_url)
current_articles, prev_url = get_articles(current_page, date)


"%m/%d" 如果這個是當日日期,要如何改變日期限制呢?再麻煩各位大大了謝謝!

我知道可能有人會覺得我的學習方式有點偏門,但是實在是為了有些成果來鼓勵自己...


--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.254.43.45
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1535781486.A.CE4.html
s8300355: 直接從爬到的資料去限制時間應該可以吧 09/01 16:08
EasonWW: 請問大大是什麼意思,我用這個爬都只會有當天的文章...這 09/01 19:26
EasonWW: 樣要從何限制呢?抱歉太菜 09/01 19:26
TakiDog: "python 時間計算" datetime 等等.. 時間不只有字串狀態 09/02 01:23
CodingMan: https://github.com/Truth0906/PTTLibrary 09/02 16:58
CodingMan: 自動就是二元搜尋到你想要的日期的第一篇 然後爬文直到 09/02 17:00
CodingMan: 不是你想要的日期 09/02 17:00
CodingMan: 簡單一點就是你先自己把該日期起始編號跟結束編號找出 09/02 17:01
CodingMan: 來 然後用爬文API 去幫你爬完 09/02 17:01

你可能也想看看

搜尋相關網站