簡(jiǎn)單的分了幾個(gè)步驟:
創(chuàng)新互聯(lián)是一家專(zhuān)注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃、微信平臺(tái)小程序開(kāi)發(fā)、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動(dòng)互聯(lián)開(kāi)發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十余年以來(lái),已經(jīng)為上千廣告制作各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?,F(xiàn)在,服務(wù)的上千客戶與我們一路同行,見(jiàn)證我們的成長(zhǎng);未來(lái),我們一起分享成功的喜悅。
1、確定采集目標(biāo)
2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容(curl、file_get_contents)
3、分析頁(yè)面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁(yè)面正則匹配規(guī)則不一樣
4、入庫(kù)
?php
$url='abc.com/';
$data=get_file($url);
$pattern='你的內(nèi)容正則表達(dá)式';
perg_match($pattern,$data,$match);
print_r($match);
function get_file($url)
{
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$data = curl_exec($curl);
return $data;
}
?
?php
/*
* 如下: 方法有點(diǎn)笨
* 抓取網(wǎng)頁(yè)內(nèi)容用 PHP 的正則
* 用JS每隔5分鐘刷新當(dāng)前頁(yè)面---即重新獲取網(wǎng)頁(yè)內(nèi)容
*
* 注: $mode中--title/title-更改為所需內(nèi)容(如 $mode = "#a(.*)/a#";獲取所有鏈接)
*
* window.location.href="";中的
* 更改為自己的URL----作用:即刷新當(dāng)前頁(yè)面
*
* setInterval("ref()",300000);是每隔300000毫秒(即 5 * 60 *1000 毫秒即5分鐘)執(zhí)行一次函數(shù) ref()
*
* print_r($arr);輸出獲得的所有內(nèi)容 $arr是一個(gè)數(shù)組 可根據(jù)所需輸出一部分(如 echo $arr[1][0];)
* 若要獲得所有內(nèi)容 可去掉
* $mode = "#title(.*)/title#";
if(preg_match_all($mode,$content,$arr)){
print_r($arr);
echo "br/";
echo $arr[1][0];
}
再加上 echo $content;
*/
$url = ""; //目標(biāo)站
$fp = @fopen($url, "r") or die("超時(shí)");
$content=file_get_contents($url);
$mode = "#title(.*)/title#";
if(preg_match_all($mode,$content,$arr)){
//print_r($arr);
echo "br/";
echo $arr[1][0];
}
?
script language="JavaScript" type="text/javascript"
--
function ref(){
window.location.href="";
}
setInterval("ref()",300000);
//--
/script
?php
$str
=
str
th1/th
td
class="key"a
href="網(wǎng)址1"
target="_blank"你要的地址1/a/td
th2/th
td
class="key"a
href="網(wǎng)址2"
target="_blank"你要的地址2/a/td
th3/th
td
class="key"a
href="網(wǎng)址3"
target="_blank"你要的地址3/a/td
th4/th
td
class="key"a
href="網(wǎng)址4"
target="_blank"你要的地址4/a/td
th5/th
td
class="key"a
href="網(wǎng)址5"
target="_blank"你要的地址5/a/td
str;
$p
=
'#td
class="key"a
href="(.*)"
target="_blank"(.*)/a/td#iUs';
preg_match_all($p,$str,$ar);
print_r($ar[0]);
?
$ar[0]
的所有值就是你想要的地址了
測(cè)試過(guò)
沒(méi)問(wèn)題
文章名稱:php抓取網(wǎng)站指定數(shù)據(jù) js獲取php數(shù)據(jù)
網(wǎng)站鏈接:http://muchs.cn/article22/hgsjcc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、品牌網(wǎng)站制作、手機(jī)網(wǎng)站建設(shè)、外貿(mào)網(wǎng)站建設(shè)、
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)