phpcurl爬取網(wǎng)站數(shù)據(jù)的方法-創(chuàng)新互聯(lián)

這篇“php curl爬取網(wǎng)站數(shù)據(jù)的方法”除了程序員外大部分人都不太理解,今天小編為了讓大家更加理解“php curl爬取網(wǎng)站數(shù)據(jù)的方法”,給大家總結(jié)了以下內(nèi)容,具有一定借鑒價值,內(nèi)容詳細步驟清晰,細節(jié)處理妥當(dāng),希望大家通過這篇文章有所收獲,下面讓我們一起來看看具體內(nèi)容吧。

站在用戶的角度思考問題,與客戶深入溝通,找到興安網(wǎng)站設(shè)計與興安網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋興安地區(qū)。

php有什么用

php是一個嵌套的縮寫名稱,指的是英文超級文本預(yù)處理語言(php:Hypertext Preprocessor)的縮寫,它的語法混合了C、Java、Perl以及php自創(chuàng)新的語法,主要用來做網(wǎng)站開發(fā),許多小型網(wǎng)站都用php開發(fā),因為php是開源的,從而使得php經(jīng)久不衰。

php curl 爬取網(wǎng)站數(shù)據(jù)

今天幫一朋友爬取一網(wǎng)站數(shù)據(jù),涉及到PHP CURL模塊的使用。總結(jié)一下整個過程思路:

1.保證curl擴展模塊可用,如不可用,請在php.ini配置中打開php_curl.dll擴展;

2.初始化curl對象,并配置curl的參數(shù):

$ch = curl_init();
// 有部分web服務(wù)驗證了HTTP頭,該參數(shù)表示使用當(dāng)前瀏覽器HTTP;
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); 
curl_setopt($ch, CURLOPT_HEADER, 0);  // 不輸出header頭
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_TIMEOUT, 100);  // 超時設(shè)置

3.保存或傳替cookie,因為web服務(wù)可能檢查了session或cookie,在這種情況下我們需要發(fā)送cookie信息:

// 設(shè)置cookie,格式為cookiename1 = cookievalue1; cookiename2 = cookievalue2; …… 
curl_setopt($ch, CURLOPT_COOKIE, $cookie);

或者把該web的cookie保存成文件,自動傳遞

curl_setopt($ch, CURLOPT_COOKIEJAR, $cookiepath);   // 保存cookie文件
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookiepath);   // 從文件傳遞cookie

4.偽造引用信息,因為web服務(wù)可能檢查了引用信息,非對應(yīng)域名的不能通過驗證,那么我們可以偽造referer引用信息:

curl_setopt($ch, CURLOPT_REFERER, $referer);

5.如果POST數(shù)據(jù),那么應(yīng)設(shè)置提交的數(shù)據(jù)

curl_setopt($ch, CURLOPT_POST, 1);
// 數(shù)據(jù)的格式為var1=value1&var2=value2……
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);

6.獲取結(jié)果,關(guān)閉curl:

$rs = curl_exec($ch);
curl_close($ch);

7.處理數(shù)據(jù),數(shù)據(jù)爬下來后,我們使用正則表達式進行匹配處理,獲取需要的數(shù)據(jù):

preg_match_all($pattern, $rs, $matchs);

這里寫了一個通過的函數(shù),大家可以參考:

function curl($url, $data = null, $cookie = null, $referer = null) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_TIMEOUT, 100);

    if ($data != null) {
        curl_setopt($ch, CURLOPT_POST, 1);
        curl_setopt($ch, CURLOPT_POSTFIELDS, 
                (is_array($data) ? paramArray($data) : $data));
    }

    if ($cookie != null) {
        if (strpos($cookie, '=')) {  // cookie字串
            curl_setopt($ch, CURLOPT_COOKIE, $cookie);
        } else {  // cookie文件
            // 保存cookie文件
            curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie); 
            // 從文件傳遞cookie
            curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);
        }
    }

    if ($referer === null) {
        curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
    } else {
        curl_setopt($ch, CURLOPT_REFERER, $referer);
    }

    $content = curl_exec($ch);
    curl_close($ch);

    return $content;
}

function paramArray($data) {
    $param = '';
    foreach ($data as $k => $v) {
        $param .= "&$k=" . urlencode($v);
    }
    return substr($param, 1);
}

感謝你的閱讀,希望你對“php curl爬取網(wǎng)站數(shù)據(jù)的方法”這一關(guān)鍵問題有了一定的理解,具體使用情況還需要大家自己動手實驗使用過才能領(lǐng)會,快去試試吧,如果想閱讀更多相關(guān)知識點的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

網(wǎng)站題目:phpcurl爬取網(wǎng)站數(shù)據(jù)的方法-創(chuàng)新互聯(lián)
標(biāo)題來源:http://muchs.cn/article10/dpjego.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、手機網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化、網(wǎng)站設(shè)計、網(wǎng)站收錄、網(wǎng)站營銷

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管