[爆卦]爬蟲 span是什麼？優點缺點精華區懶人包

為什麼這篇爬蟲 span鄉民發文收入到精華區：因為在爬蟲 span這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者nini200 (200妮妮)看板Python標題[問題] 請教爬蟲bs4如何去除標籤?時間Tu...

作者nini200 (200妮妮)

看板Python

標題[問題] 請教爬蟲bs4如何去除標籤?

時間Tue Dec 25 23:29:20 2018

import requests
from bs4 import BeautifulSoup
import re

url = 'https://tw.appledaily.com/new/realtime'
res = requests.get(url)
soup = BeautifulSoup(res.text,'lxml')
tags = soup.find('ul',attrs={'class':'rtddd slvl'})
titles = tags.find_all('h1')
for title in titles:
print(title.text)

我爬蘋果日報標題
title.text 會將文字 <span>數字</span> 合併
但我只想要文字部分數字不要
請問如何提取呢
感謝

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.179.219
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1545751765.A.6F6.html

推 leawei: .string吧 12/26 09:26

感謝回覆有試過但反而很多標題消失了
※ 編輯: nini200 (114.33.71.129), 12/26/2018 20:29:52

→ s860134: 看了一下結構，兩條路，用 lxml，會殘留做括弧 12/26 23:32

看來只能用lxml 它的text()不會撈到旁邊span的數字

→ s860134: 第二條路　re.strip 硬幹，數字的pattern 只出現在尾端 12/26 23:33

→ s860134: 第二條路應該比較符合你的理想 12/26 23:33

→ s860134: 阿　第一條路其實沒殘存，那個括弧是標題被截斷 12/26 23:34

感謝^ ^

推 cody880528: 在print(title.text)前面加上title.span.decompose() 12/26 23:39

之前有試過 'NoneType' object has no attribute 'decompose' 但會報錯

推 s860134: title.font.string 其實就可以了XD 12/26 23:44

有試過但很多標題都消失了
※ 編輯: nini200 (114.33.71.129), 12/27/2018 00:45:45
※ 編輯: nini200 (114.33.71.129), 12/27/2018 00:48:28

[爆卦]爬蟲 span是什麼？優點缺點精華區懶人包

為什麼這篇爬蟲 span鄉民發文收入到精華區：因為在爬蟲 span這個討論話題中，有許多相關的文章在討論，這篇最有參考價值！作者nini200 (200妮妮)看板Python標題[問題] 請教爬蟲bs4如何去除標籤?時間Tu...

你可能也想看看

搜尋相關網站

#1Python爬蟲抓取不到span裡面的文字 - iT 邦幫忙

#2python 爬取<span></span>中间标签的内容 - CSDN博客

#3Python爬蟲(2) — Beautiful Soup的網頁爬取技巧 - Medium

#4[Python爬蟲教學]7個Python使用BeautifulSoup開發網頁爬蟲的 ...

#5社群網路爬蟲實作課程- HackMD

#6Python：爬蟲處理流程及網頁解析 - 每日頭條

#7爬蟲

#8Python3 靜態爬蟲｜方格子vocus

#9怎么爬虫抓取部分数据(✔️shuju6.xyz✔️)VBA抓 ... - 教育百科

#10Python爬虫——BautifulSoup 节点信息 - 稀土掘金

#11python怎么爬去<span>lt;/span>中间标签的内容 - 百度知道

#12Python網路爬蟲.pdf

#13Python 爬虫span

#14網路爬蟲要學什麼程式語言？從哪開始練基礎功？ | Yiru@Studio

#15Python 爬蟲beautifulsoup string 抓取問題 - GitHub

#16妙喵二手書| 露天市集

#17这种反爬虫手段有点意思，看我破了它！ - 知乎

#18用Python 3开发网络爬虫- Chapter 05 使用BeautifulSoup

#19Java爬虫自动化采集：如何实现对某个span的抓取？ - 搜狐

#2015個常用的HTML標籤與屬性基本介紹 - 自學成功道

#21R網路爬蟲 - 吳漢銘

#22[筆記] 超新手也能用Python 爬蟲打造貨比千家的比價網站

#23關於爬蟲的span - 卡特Kater

#24爬虫入门到放弃02：如何解析网页获取数据 - InfoQ 写作平台

#25在<div>中使用Beautifulsoup从<span>获取文本进行网页抓取

#26肝了三天三夜，一文道尽Python的xpath解析！

#27Python爬虫获取页面span标签中的内容 - SegmentFault 思否

#28index.ejs · 專題菁英班- JavaScirpt爬蟲專案 - Hsueh-Jen

#29Python网络爬虫练习- 叮叮当当sunny - 博客园

#30JQ和Js获取span标签的内容- html - 51CTO博客

#31如何用爬虫爬取span里的内容 - 开源中国

#32<span>python爬虫学习笔记(三)-爬取数据之urllib库 ... - 牛客博客

#33Python 程式設計

#34<span>python爬虫学习笔记(十九)-Scrapy 数据的保存 ... - 牛客

#35PyQuery - 爬虫学习1.0 文档

#36[心得] 複習Python爬蟲以Investing網站當範例

#37博客來

#38作業成果- Yahoo股市個股新聞爬蟲練習- Hahow 好學校

#39第87 章网络爬虫| 数据科学中的R 语言 - Bookdown

#4009-XPath 语言-python爬虫-eolink官网

#41Python爬虫超详细讲解-华为开发者论坛

#42Python爬虫--爬取糗事百科段子 - blubiu

#43Python的爬蟲包Beautiful Soup中用正則表示式來搜尋- IT閱讀

#44蒐集網頁資料通過驗證的「工人智慧」 - 美股探路客

#45給初學者的Python 網頁爬蟲與資料分析(4) 擷取資料及下載圖片

#46第2 章复杂HTML 解析 - 图灵社区

#47python爬虫初步 - 简书

#48Python 爬虫+网页点击事件+selenium模拟浏览器，爬取内容

#49兩週從爬蟲小白變大神，看完你就知道我不是標題黨了【五萬字 ...

#50爬虫实时变化的span该如何抓取 - 慕课网

#51[R爬虫]看看数据分析师的薪资- 文章详情

#52爬虫- 08-div和span元素-哔哩哔哩 - BiliBili

#53網路爬蟲要學什麼程式語言？從哪開始練基礎功？

#54Python 爬虫入门：常见工具介绍 - 免费学习编程- freeCodeCamp

#55Python爬虫——爬取豆瓣电影Top250代码实例-开发技术 - 天达云

#56Python筆記- 網路爬蟲【一】- 文字處理 - 爾摩儲藏室

#57如何使用Selenium和Python通过爬虫测试非标准的下拉列表

#58python網路爬蟲--(2)簡單使用BeautifulSoup的解析網頁(屬性和 ...

#59大衆點評爬蟲抓取數字文字解密 - 台部落

#60div和span - 黑马机器人—PYTHON高级阶段

#61[Python3网络爬虫开发实战] 4.3-使用pyquery - 静觅

#62大勝嚴選-龍岡圓環透天店面-15米路角間 - 591售屋

#63Python爬虫进阶| 某音字体反爬分析 - 极术社区

#64計算物理2

#65通过案例对比这几种爬虫方式的差异和优劣 - 搜狐

#66爬虫进阶开发——xpath选择器常见用法

#67網頁節點定位整理(CSS、Python 搭配BeautifulSoup 套件)

#68C05-06 利用標籤屬性做篩選- C05 網路爬蟲| Coursera

#69Scrapy使用笔记-如何写爬虫脚本进行网页文本挖掘采集需要的 ...

#70資料分割與網頁爬蟲(requests, BeautifulSoup,re正規表達式)

#71Python 爬蟲實戰範例｜學會抓取Yahoo奇摩最新電影

#72Text Mining & 網路爬蟲web crawler | Google新聞與文章文字雲

#73Python 爬蟲(爬取部落格人氣)

#74[問題] 請教爬蟲bs4如何去除標籤? - 看板Python - 批踢踢實業坊

#75[爬蟲] lxml、XPath 常用語法 - I try | MarsW

#76浅谈动态爬虫与去重(续) - 安全客