php采集b2b網(wǎng)站數(shù)據(jù) 自動采集網(wǎng)站php源碼

php采集大數(shù)據(jù)的方案

1、建議你讀寫數(shù)據(jù)和下載圖片分開,各用不同的進(jìn)程完成。

十年的鐵西網(wǎng)站建設(shè)經(jīng)驗(yàn),針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時及時工作處理。成都營銷網(wǎng)站建設(shè)的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整鐵西建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計,從而大程度地提升瀏覽體驗(yàn)。成都創(chuàng)新互聯(lián)公司從事“鐵西網(wǎng)站設(shè)計”,“鐵西網(wǎng)站推廣”以來,每個客戶項目都認(rèn)真落實(shí)執(zhí)行。

比如說,取數(shù)據(jù)用get-data.php,下載圖片用get-image.php。

2、多進(jìn)程的話,php可以簡單的用pcntl_fork()。這樣可以并發(fā)多個子進(jìn)程。

但是我不建議你用fork,我建議你安裝一個gearman worker。這樣你要并發(fā)幾個,就啟幾個worker,寫代碼簡單,根本不用在代碼里考慮thread啊,process等等。

3、綜上,解決方案這樣:

(1)安裝gearman worker。

(2)寫一個get-data.php,在crontab里設(shè)置它每5分鐘執(zhí)行一次,只負(fù)責(zé)讀數(shù)據(jù),然后把讀回來的數(shù)據(jù)一條一條的扔到 gearman worker的隊列里;

然后再寫一個處理數(shù)據(jù)的腳本作為worker,例如叫process-data.php,這個腳本常駐內(nèi)存。它作為worker從geraman 隊列里讀出一條一條的數(shù)據(jù),然后跟你的數(shù)據(jù)庫老數(shù)據(jù)比較,進(jìn)行你的業(yè)務(wù)邏輯。如果你要10個并發(fā),那就啟動10個process-data.php好了。處理完后,如果圖片地址有變動需要下載圖片,就把圖片地址扔到 gearman worker的另一個隊列里。

(3)再寫一個download-data.php,作為下載圖片的worker,同樣,你啟動10個20個并發(fā)隨便你。這個進(jìn)程也常駐內(nèi)存運(yùn)行,從gearman worker的圖片數(shù)據(jù)隊列里取數(shù)據(jù)出來,下載圖片

4、常駐進(jìn)程的話,就是在代碼里寫個while(true)死循環(huán),讓它一直運(yùn)行好了。如果怕內(nèi)存泄露啥的,你可以每循環(huán)10萬次退出一下。然后在crontab里設(shè)置,每分鐘檢查一下進(jìn)程有沒有啟動,比如說這樣啟動3個process-data worker進(jìn)程:

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了沒有

php怎么抓取其它網(wǎng)站數(shù)據(jù)

可以用以下4個方法來抓取網(wǎng)站 的數(shù)據(jù):

1. 用 file_get_contents 以 get 方式獲取內(nèi)容:

?

$url = '';

$html = file_get_contents($url);

echo $html;

2. 用fopen打開url,以get方式獲取內(nèi)容

?

$url = '';

$fp = fopen($url, 'r');

stream_get_meta_data($fp);

$result = '';

while(!feof($fp))

{

$result .= fgets($fp, 1024);

}

echo "url body: $result";

fclose($fp);

3. 用file_get_contents函數(shù),以post方式獲取url

?

$data = array(

'foo'='bar',

'baz'='boom',

'site'='',

'name'='nowa magic');

$data = http_build_query($data);

//$postdata = http_build_query($data);

$options = array(

'http' = array(

'method' = 'POST',

'header' = 'Content-type:application/x-www-form-urlencoded',

'content' = $data

//'timeout' = 60 * 60 // 超時時間(單位:s)

)

);

$url = "";

$context = stream_context_create($options);

$result = file_get_contents($url, false, $context);

echo $result;

4、使用curl庫,使用curl庫之前,可能需要查看一下php.ini是否已經(jīng)打開了curl擴(kuò)展

$url = '';

$ch = curl_init();

$timeout = 5;

curl_setopt ($ch, CURLOPT_URL, $url);

curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

$file_contents = curl_exec($ch);

curl_close($ch);

echo $file_contents;

phpcms網(wǎng)站建設(shè)中采集的方法,怎么樣做采集

工具/原料

PHPCMS

文章采集器

方法/步驟

1、首先我們需要下載并安裝GBK格式的PHPCMS系統(tǒng)。

2、下載PHPCMS和文章采集器的接口文件

3、將jiekou.php文件復(fù)制到網(wǎng)站的根目錄下,并用記事本打開該文件,修改“密碼驗(yàn)證”欄目password處的密碼

4、啟動文章采集器,先點(diǎn)擊【第三步發(fā)布內(nèi)容設(shè)置】中的"web發(fā)布管理配置"

5、在彈出的【web發(fā)布配置管理】窗口中單擊右側(cè)的【更多】按鈕,導(dǎo)入“phpcms9.wpm”配置模塊,并選擇該模塊

6、設(shè)置【web發(fā)布配置管理】中的編碼設(shè)置、登錄操作、獲取分類欄目等選項

7、單擊【測試】按鈕,在彈出的【發(fā)布配置測試】對話框中設(shè)置標(biāo)簽和內(nèi)容的值,此項為必須設(shè)置,否則發(fā)布測試文章會失敗。至此PHPCMS已經(jīng)與文章采集器連接成功。

當(dāng)前題目:php采集b2b網(wǎng)站數(shù)據(jù) 自動采集網(wǎng)站php源碼
瀏覽路徑:http://muchs.cn/article18/hgsgdp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、Google、面包屑導(dǎo)航、App開發(fā)、網(wǎng)站維護(hù)建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)