php查詞采集器

/**  * dict.class.php 采集百度詞典翻譯內(nèi)容  *  * @copyright      (C) 2014 widuu  * @license       http://www.widuu.com  * @lastmodify     2014-2-15  */      header("content-type:text/html;charset=utf8"); class Dict{       private $word;           //顯示的條數(shù)     private static $num = 10;       public function __construct(){}                 /**    * 公用返回百度采集數(shù)據(jù)的方法    * @param string 英文單詞    * retun array(      *              symbol" => 音標(biāo)      *              "pro"    => 發(fā)音      *              "example"=> 例句      *              "explain"=> 簡(jiǎn)明釋義      *              "synonym"=> 同反義詞      *              "phrase" => 短語(yǔ)數(shù)組      *          )    *      */    public function content($word){          $this -> word = $word;          $symbol = $this -> Pronounced();          $pro    = $this->getSay();          $example = $this -> getExample();          $explain = $this -> getExplain();          $synonym = $this -> getSynonym();          $phrase = $this -> getPhrase();          $result = array(                 "symbol" => $symbol,     //音標(biāo)                 "pro"    => $pro,            //發(fā)音                 "example"=> $example,        //例句                 "explain"=> $explain,        //簡(jiǎn)明釋義                 "synonym"=> $synonym,        //同反義詞                 "phrase" => $phrase      //短語(yǔ)數(shù)組             );         return $result;     }         /**    * 遠(yuǎn)程獲取百度翻譯內(nèi)容    * get function curl    * retun string    *      */      private function getContent(){         $useragent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0";         $ch = curl_init();         $url = "http://dict.baidu.com/s?wd=".$this->word;         curl_setopt($ch, CURLOPT_URL, $url);         curl_setopt($ch, CURLOPT_USERAGENT,$useragent);         curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);          curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);          curl_setopt($ch, CURLOPT_HTTPGET, 1);         curl_setopt($ch, CURLOPT_AUTOREFERER,1);         curl_setopt($ch, CURLOPT_HEADER, 0);          curl_setopt($ch, CURLOPT_TIMEOUT, 30);         $result = curl_exec($ch);         if (curl_errno($curl)) {             echo 'Errno'.curl_error($curl);         }         curl_close($ch);         return $result;     }         /**    * 獲取百度翻譯發(fā)音    * retun array(英,美)    *      */      private function Pronounced(){         $data = $this -> getContent();         preg_match_all("/\"EN\-US\"\>(.*)\<\/b\>/Ui",$data,$pronounced);         return array(             'en' => $pronounced[1][0],             'us' => $pronounced[1][1]         );     }       /**      * 獲取百度翻譯發(fā)音      * return array(英,美)      *      */      private function getSay(){         $data = $this -> getContent();         preg_match_all("/url=\"(.*)\"/Ui",$data,$pronounced);         return array(             'en' => $pronounced[1][0],             'us' => $pronounced[1][1]         );       }       /**    * 獲取百度翻譯例句    * return array() 多維數(shù)組 例句    *       */      private function getExample(){         $str = "";         $data = $this -> getContent();         preg_match_all("/var example_data = (.*)\]\;/Us",$data,$example);       $data1 = "[[[".ltrim($example[1][0],"[");       $data2 = explode("[[[",$data1);       $num = count(array_filter($data2));         foreach($data2 as $key => $value){             $data3 = explode("[[","[[".$value);             foreach ($data3 as $k => $v) {                 preg_match_all("/\[\"(.*)\",/Us","[".$v, $match);                 if(!empty($match[1])){                     $str .= implode($match[1]," ")."@";                 }             }         }         $data4 = trim($str,"@");         $data5 = explode("@", $data4);         $result = array_chunk($data5, 2);         return $result;     }       /**    * 獲取簡(jiǎn)明釋義    * return array (x => "詞性",b => "附屬")    *       **/      private function getExplain(){         $data = $this -> getContent();         preg_match_all("/id\=\"en\-simple\-means\"\>(.*)\<div(\s+)class\=\"source\"\>/Us",$data,$explain);         $r_data = $explain[1][0];         preg_match_all("/\<p\>\<strong\>(?P<adj>.*)\<\/strong\>\<span\>(?P<name>.*)\<\/span\>\<\/p\>/Us", $r_data, $a_data);         preg_match_all("/\<span\>(?P<tag>[^\>]+)\:\<a(\s+)href\=\"(.*)\"\>(?P<word>.*)\<\/a\>\<\/span\>/Us", $r_data, $b_data);                   $result = array();         foreach ($a_data["adj"] as $key => $value) {             $result[$value] = $a_data["name"][$key];         }                   $word_b = array();         foreach ($b_data["tag"] as $key => $value) {             $word_b[$value] = strip_tags($b_data["word"][$key]);         }                   $result_data = array("x" => $result,"b" => $word_b);           return $result_data;     }         /**    * 獲取同義詞    * return array(0 => "同義詞", 1 => "反義詞") 一般為多維數(shù)組    *       */      private function getSynonym(){         $data = $this -> getContent();         preg_match_all("/id=\"en\-syn\-ant\"\>(.*)<div(\s+)class\=\"source\">/Us",$data,$synonym);         $content = $synonym[1][0];         $data1 = explode("</dl>", $content);         $result = array();         $data2 = array();         foreach ($data1 as $key => $value) {             preg_match_all("/\<strong\>(?P<adj>.*)\ \;\<\/strong\>\<\/div\>\<div(\s+)class\=\"syn\-ant\-list\"\>\<ul\>(?<content>.*)\<\/ul\>/Us", $value, $r_data);             $data2[$key]["adj"] = $r_data["adj"];             $data2[$key]["content"] = $r_data["content"];         }           foreach ($data2 as $key => $value) {             foreach ($value["content"] as $k => $v) {                 if(!empty($v)){                     preg_match_all("/\<li\>\<p\>(?P<title>.*)\<\/p\>(?P<value>.*)\<\/li>/Us", $v, $v_data);                     foreach ($v_data['title'] as $m => $d) {                         $data = strip_tags(preg_replace("<</a>>"," ", $v_data["value"][$m]));                         $result[$key][$value["adj"][$k]][$d] = $data;                     }                 }             }         }         return $result;     }       /**    * 獲取短語(yǔ)詞組    * return array (key => value) 一維或者多維數(shù)組    *       */      private function getPhrase(){         $num = self::$num;         $data = $this -> getContent();         preg_match_all("/id=\"en\-phrase\"\>(.*)\<div class\=\"source\"\>/Us",$data,$phrase);         $data = explode("</dd>",$phrase[1][0]);         $data1 = array_slice($data,0,$num);         $result = array();         foreach ($data1 as $key => $value) {             $data2 = explode("</p>", $value);             $n = count($data2);             if($n<=3){                 $result[str_replace(" ","",strip_tags($data2[0]))] = strip_tags($data2[1]);             }else{                 $data3 = array_slice($data2,0,$n-1);                 $data4 = array_slice($data2,0,2);                 $res = array_diff($data3,$data4);                 $data5 = array_chunk($res,2);                 $key_value = trim(str_replace(" ","",strip_tags($data4[0])));                 $result[$key_value] = strip_tags($data4[1]);                 foreach ($data5 as $key => $value) {                     foreach ($value as $k => $v) {                         $value[$k] = strip_tags($v);                     }                     $array = array($result[$key_value],$value);                     if (array_key_exists($key_value, $result)){                         $result[$key_value] = $array;                     }                 }                               }         }         return $result;     }       /**      * 將數(shù)組轉(zhuǎn)換為字符串      *      * @param  array  $data    數(shù)組      * @param  bool  $isformdata 如果為0,則不使用new_stripslashes處理,可選參數(shù),默認(rèn)為1      * @return  string 返回字符串,如果,data為空,則返回空      */    private function array2string($data, $isformdata = 1) {       if($data == '') return '';       if($isformdata) $data = $this->new_stripslashes($data);       return addslashes(var_export($data, TRUE));     }       /**      * 返回經(jīng)stripslashes處理過(guò)的字符串或數(shù)組      * @param $string 需要處理的字符串或數(shù)組codego.net/25/1/1/      * @return mixed      */    private function new_stripslashes($string) {       if(!is_array($string)) return stripslashes($string);       foreach($string as $key => $val) $string[$key] = $this->new_stripslashes($val);       return $string;     }   }   // $word = new dict("express"); // $word ->content();

創(chuàng)新互聯(lián)建站專注于嘉魚網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供嘉魚營(yíng)銷型網(wǎng)站建設(shè),嘉魚網(wǎng)站制作、嘉魚網(wǎng)頁(yè)設(shè)計(jì)、嘉魚網(wǎng)站官網(wǎng)定制、小程序設(shè)計(jì)服務(wù),打造嘉魚網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供嘉魚網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。

網(wǎng)站名稱:php查詞采集器
當(dāng)前鏈接:http://muchs.cn/article20/pihpjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)、關(guān)鍵詞優(yōu)化用戶體驗(yàn)、自適應(yīng)網(wǎng)站、網(wǎng)站維護(hù)網(wǎng)頁(yè)設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司