php抓取網(wǎng)站指定數(shù)據(jù) js獲取php數(shù)據(jù)

怎么用php采集網(wǎng)站數(shù)據(jù)

簡(jiǎn)單的分了幾個(gè)步驟:

創(chuàng)新互聯(lián)是一家專(zhuān)注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃、微信平臺(tái)小程序開(kāi)發(fā)、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動(dòng)互聯(lián)開(kāi)發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十余年以來(lái),已經(jīng)為上千廣告制作各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?,F(xiàn)在,服務(wù)的上千客戶與我們一路同行,見(jiàn)證我們的成長(zhǎng);未來(lái),我們一起分享成功的喜悅。

1、確定采集目標(biāo)

2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容(curl、file_get_contents)

3、分析頁(yè)面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁(yè)面正則匹配規(guī)則不一樣

4、入庫(kù)

php中想要抓取網(wǎng)頁(yè)中某一段的數(shù)據(jù)的代碼

?php

$url='abc.com/';

$data=get_file($url);

$pattern='你的內(nèi)容正則表達(dá)式';

perg_match($pattern,$data,$match);

print_r($match);

function get_file($url)

{

$curl = curl_init($url);

curl_setopt($curl, CURLOPT_HEADER, 0);

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

$data = curl_exec($curl);

return $data;

}

?

PHP抓取網(wǎng)頁(yè)指定內(nèi)容

?php

/*

* 如下: 方法有點(diǎn)笨

* 抓取網(wǎng)頁(yè)內(nèi)容用 PHP 的正則

* 用JS每隔5分鐘刷新當(dāng)前頁(yè)面---即重新獲取網(wǎng)頁(yè)內(nèi)容

*

* 注: $mode中--title/title-更改為所需內(nèi)容(如 $mode = "#a(.*)/a#";獲取所有鏈接)

*

* window.location.href="";中的

* 更改為自己的URL----作用:即刷新當(dāng)前頁(yè)面

*

* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分鐘)執(zhí)行一次函數(shù) ref()

*

* print_r($arr);輸出獲得的所有內(nèi)容 $arr是一個(gè)數(shù)組 可根據(jù)所需輸出一部分(如 echo $arr[1][0];)

* 若要獲得所有內(nèi)容 可去掉

* $mode = "#title(.*)/title#";

if(preg_match_all($mode,$content,$arr)){

print_r($arr);

echo "br/";

echo $arr[1][0];

}

再加上 echo $content;

*/

$url = ""; //目標(biāo)站

$fp = @fopen($url, "r") or die("超時(shí)");

$content=file_get_contents($url);

$mode = "#title(.*)/title#";

if(preg_match_all($mode,$content,$arr)){

//print_r($arr);

echo "br/";

echo $arr[1][0];

}

?

script language="JavaScript" type="text/javascript"

--

function ref(){

window.location.href="";

}

setInterval("ref()",300000);

//--

/script

php用正規(guī)表達(dá)式獲取網(wǎng)頁(yè)指定內(nèi)容

?php

$str

=

str

th1/th

td

class="key"a

href="網(wǎng)址1"

target="_blank"你要的地址1/a/td

th2/th

td

class="key"a

href="網(wǎng)址2"

target="_blank"你要的地址2/a/td

th3/th

td

class="key"a

href="網(wǎng)址3"

target="_blank"你要的地址3/a/td

th4/th

td

class="key"a

href="網(wǎng)址4"

target="_blank"你要的地址4/a/td

th5/th

td

class="key"a

href="網(wǎng)址5"

target="_blank"你要的地址5/a/td

str;

$p

=

'#td

class="key"a

href="(.*)"

target="_blank"(.*)/a/td#iUs';

preg_match_all($p,$str,$ar);

print_r($ar[0]);

?

$ar[0]

的所有值就是你想要的地址了

測(cè)試過(guò)

沒(méi)問(wèn)題

文章名稱:php抓取網(wǎng)站指定數(shù)據(jù) js獲取php數(shù)據(jù)
網(wǎng)站鏈接:http://muchs.cn/article22/hgsjcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、品牌網(wǎng)站制作、手機(jī)網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)