怎么在php中使用scws實(shí)現(xiàn)一個(gè)中文分詞搜索功能-創(chuàng)新互聯(lián)

本篇文章給大家分享的是有關(guān)怎么在php中使用scws實(shí)現(xiàn)一個(gè)中文分詞搜索功能,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。

成都創(chuàng)新互聯(lián)公司客戶idc服務(wù)中心,提供成都溫江機(jī)房、成都服務(wù)器、成都主機(jī)托管、成都雙線服務(wù)器等業(yè)務(wù)的一站式服務(wù)。通過(guò)各地的服務(wù)中心,我們向成都用戶提供優(yōu)質(zhì)廉價(jià)的產(chǎn)品以及開(kāi)放、透明、穩(wěn)定、高性價(jià)比的服務(wù),資深網(wǎng)絡(luò)工程師在機(jī)房提供7*24小時(shí)標(biāo)準(zhǔn)級(jí)技術(shù)保障。

具體如下:

1、4個(gè)文件(本站下載地址。)解壓后,放到一個(gè)地方 eg:E:/wamp/scws

2、php.ini 中配置

extension = php_scws.dll 
scws.default.charset = utf8 //配置默認(rèn)的編碼方式
scws.default.fpath = "E:/wamp/scws" //加壓后文件的路徑

3、使用

$so = scws_new(); 
$so->set_charset('utf8'); //編碼
// 這里沒(méi)有調(diào)用 set_dict 和 set_rule 系統(tǒng)會(huì)自動(dòng)試調(diào)用 ini 中指定路徑下的詞典和規(guī)則文件 
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//$so->add_dict('./dd.txt',SCWS_XDICT_TXT);
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 
$so->set_duality(0);  //散字二元 
$so->set_ignore(0); //忽略標(biāo)點(diǎn)符號(hào)
$so->set_multi(0); 
$wd='要搜索的內(nèi)容';
$so->send_text($wd); 
while($tmp = $so->get_result())
//遍歷后即得到字符串分割后的內(nèi)容,
//根據(jù)得到的內(nèi)容分別到數(shù)據(jù)庫(kù)中查找(like匹配)
{
}

親自試驗(yàn)了一下如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"/tupian/20230522/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>test</title>
</head>
<body>
<?php
function search($keywords,$table,$key1,$key2){
// (要查找的字符串,表名,字段一,字段二)如果就一個(gè)字段的話,$key2='';
 $arr=array();
 $str=array(); 
 if( preg_match("/^[^\x80-\xff]+$/", $keywords)){//判斷keywords是否全為英文,全為英文的話按照字符串切割處理
 $str1=explode(' ',$keywords); //先按照空格切割
 foreach($str1 as $key=>$value)
 {
  $str2=explode(',',$value); //,切割
  foreach($str2 as $k=>$v)
  {
  $str3=explode('.',$v); //。切割
  foreach($str3 as $kk=>$vv)
  {
   array_push($arr,$vv);//處理完后,返回一個(gè)數(shù)組
  }
  }
 }
 }else{//對(duì)中文的分詞處理
 $so = scws_new(); 
 $so->set_charset('utf8'); 
  // 這里沒(méi)有調(diào)用 set_dict 和 set_rule 系統(tǒng)會(huì)自動(dòng)試調(diào)用 ini 中指定路徑下的詞典和規(guī)則文件 
   $so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
   $so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini'); 
   $so->set_duality(0);  //散字二元 
  $so->set_ignore(0); //忽略標(biāo)點(diǎn)符號(hào)
  $so->set_multi(0);
 $so->send_text($keywords);
 while ($tmp = $so->get_result())//得到一個(gè)數(shù)組,里面包含詞組和標(biāo)點(diǎn)符號(hào)
 {
  foreach($tmp as $key=>$value)
  {
  $value=$value["word"];
  if(preg_match("/^[一-龥](méi){6,21}$/", $value))//去除標(biāo)點(diǎn)符號(hào)
  {
   array_push($arr,$value);
  }
  }
 }
 }
 foreach($arr as $key=>$value)//便利得到的數(shù)組,到數(shù)據(jù)庫(kù)中匹配
 {
 if($key2!='')
 {
  $sql="select * from `$table` where `$key1` like '%$value%' or `$key2` like '%$value%'";
 }else{
  $sql="select * from `$table` where `$key1` like '%$value%'";
 }
 $query=mysql_query($sql);
 array_push($str,$query);
 }
 return $str;
}
include('conn.php');
$keywords="哈哈lsd djk,hdjs dd";
$table='two_key';
$key1='address';
$key2='';
$query=search($keywords,$table,$key1,$key2);
foreach($query as $key=>$value)
{
 while($row=mysql_fetch_array($value))
 {
 echo $row[id].'----'.$row[name].'-----'.$row[address].'<br>';
 }
}
?>
</body>
</html>

以上就是怎么在php中使用scws實(shí)現(xiàn)一個(gè)中文分詞搜索功能,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

當(dāng)前標(biāo)題:怎么在php中使用scws實(shí)現(xiàn)一個(gè)中文分詞搜索功能-創(chuàng)新互聯(lián)
網(wǎng)頁(yè)網(wǎng)址:http://muchs.cn/article44/dpiche.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄網(wǎng)站制作、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)全網(wǎng)營(yíng)銷推廣、外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)