韦德国际_韦德国际1946官方网站_韦德国际1946手机版
做最好的网站

选拔PHP抓取百度读书的方式亲自去做,PHP抓取网

日期:2019-07-10编辑作者:韦德国际1946官方网站

前言

抓取方法如下

python 3利用BeautifulSoup抓取div标签的主意以身作则,beautifulsoup抓取

前言

选拔PHP抓取百度读书的方式亲自去做,PHP抓取网页内容的方法。本文主要介绍的是有关python 3用BeautifulSoup抓取div标签的不二诀要亲自去做,分享出来供大家参考学习,上边来看看详细的牵线:

演示代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://www.bkjia.com/uploads/allimg/170612/0219163644-0.gif">加载中…</div>

<div class="SG_connHead">
   个人资料


<div class="info_list">  
         <ul class="info_list1">
     <li>博客等级:<img src="http://www.bkjia.com/uploads/allimg/170612/02191CW2-1.gif" real_src="http://www.bkjia.com/uploads/allimg/170612/0219162963-2.gif" /></li>
     <li>博客积分:<strong>0</strong></li>
     </ul>
     <ul class="info_list2">
     <li>博客访问:<strong>3,971</strong></li>
     <li>关注人气:<strong>0</strong></li>
     <li>获赠金笔:<strong id="comp_901_d_goldpen">0支</strong></li>
     <li>赠出金笔:<strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge">荣誉徽章:</li>
     </ul>
     </div>
<div class="atcTit_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></div>

韦德国际1946官方网站,总结

以上正是那篇文章的全部内容了,希望本文的剧情对大家的就学或许办事能带动一定的推来推去,要是有疑点我们能够留言调换,感谢我们帮客之家的协助。

3利用BeautifulSoup抓取div标签的办法现身说法,beautifulsoup抓取 前言 本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的主意以身作则,分享出...

PHP抓取网页内容的措施
PHP抓取页面包车型大巴剧情在实际的支出在那之中是拾分平价的,如作多个简便的源委搜聚器,提取网页中的部分剧情等等,抓取到的剧情在通过正则表明式做一下过滤就拿到了您想要的内容,至于怎么着用正则表达式过滤,在此地就不做牵线了,风野趣的校友能够参照他事他说加以考察板块:,以下正是两种常用的用php教程抓取网页中的内容的主意。
1.file_get_contents
PHP代码

那篇小说重要介绍的是,怎么着运用PHP抓取百度读书的措施,上面话相当的少说,来八只看看啊。

第一在浏览器里张开阅读页面,查看源代码后开采小说的剧情并非一贯写在页面里的,也正是说随笔的开始和结果是透过异步加载而来的。

<?php   
$url = "";
$contents = file_get_contents($url);
//倘若出现中文乱码使用上边代码
//$getcontent = iconv("gb2312", "utf-8",$contents); 
echo $contents;
?>   

抓取方法如下

于是乎将chrome的开采者工具切到network一栏,刷新阅读页面,主要关怀的是XHSportage和script八个分类下。

2.curl
PHP代码 <?php   
$url = "";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需求用户检查实验的网页里须要充实上面两行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?> 

第一在浏览器里张开阅读页面,查看源代码后意识小说的源委而不是直接写在页面里的,也正是说小说的故事情节是经过异步加载而来的。

通过排查,开采在script分类下有个jsonp央求相比疑似随笔内容,央求的地方是

3.fopen->fread->fclose
PHP代码 <?php   
$handle = fopen ("", "rb");
$contents = "";
do {
   $data = fread($handle, 1024);
   if (strlen($data) == 0) {
   break;
   }
   $contents .= $data;
} while(true);
fclose ($handle);
echo $contents;
?> 

于是乎将chrome的开垦者工具切到network一栏,刷新阅读页面,主要关注的是XH揽胜极光和script七个分类下。

注:

本文由韦德国际发布于韦德国际1946官方网站,转载请注明出处:选拔PHP抓取百度读书的方式亲自去做,PHP抓取网

关键词: 19462211伟德国际

java的数据类型有怎样,java数据类型

java的数据类型有哪些?,java数据类型 java的数据类型有怎样,java数据类型。主干数据类型 1. 整数型   byte  short i...

详细>>