文件搜索引擎java代碼 搜索文件的代碼

怎么用java 開發(fā)一個搜索引擎呀?

一.???????????創(chuàng)建索引

目前創(chuàng)新互聯(lián)已為近千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間成都網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計、宣漢網(wǎng)站維護(hù)等服務(wù),公司將堅持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

1.一般創(chuàng)建索引的核心步驟

(1).?創(chuàng)建索引寫入對象IndexWriter:

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

參數(shù)說明:INDEX_STORE_PATH:??索引文件存放路徑

new StandardAnalyzer():?分詞工具

create:?此參數(shù)為Boolean型,true表示重新創(chuàng)建整個索引,?false?表示增量式創(chuàng)建索引。

(2).創(chuàng)建文檔模型,并用IndexWriter對象寫入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue ,??Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue ,??Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2);

……

indexWriter.addDocument(doc);

indexWriter.close();

參數(shù)說明:

Document?:負(fù)責(zé)搜集數(shù)據(jù)源,它可以從不同的物理文件提取數(shù)據(jù)并放入同一個Document?中或從一個物理文件中提取出不同的數(shù)據(jù)并放入同一個Document中。

如下圖所示

? ? ? ? ? ?

Field?:用來表示不同的數(shù)據(jù)源

fieldName1:?表示field名稱

fieldValue:??表示field?的值

Field.Store.YES,:表示是否在索引文件中完整的存儲該值。

在創(chuàng)建索引時,有些內(nèi)容需要以摘要的形式完整地或以片段的方式顯示在頁面上,來便于用戶查找想要的記錄,那么就應(yīng)該選擇存儲,如果不需要完整或片段的顯示就不需要存儲。

Field.Index.TOKENIZED?:表示是否索引和分詞。

只要是需要當(dāng)作關(guān)鍵字讓用戶查找的字段就需要建立索引。

在建立索引的過程中,如果像文章標(biāo)題、文章內(nèi)容這樣的Field,?一般是靠用戶輸入幾個關(guān)鍵字來查詢的,就應(yīng)該選擇分詞。

如果需要用戶輸入完整字符也就是精確查找才能查詢到的,例如:beanName,就可以不分詞。

Document最直觀的理解方式:

Document就相當(dāng)于我們平臺中的一個普通javaBean,,而Field?就是javaBean中的一個屬性。lucene搜索的機制就是靠搜索指定的Field的值?,來得到含有要搜索內(nèi)容的Document?集合,所以問題的關(guān)鍵在于如何組織Document .

2.結(jié)合平臺創(chuàng)建索引的思路

(1)?經(jīng)分析搜索元素應(yīng)該由如下內(nèi)容組成(Document的屬性)

(2)?數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)化為Document?的構(gòu)造過程:

JavaBean / Attachment?????→???(Temp Object) BaseData??→???(Finally Object) Document

分析:

要建立索引的源數(shù)據(jù)分為兩大部分:一個是數(shù)據(jù)庫數(shù)據(jù)?BeanData ,另一個是附件數(shù)據(jù)?FileData ,?這樣可以建立一個抽象類?BaseData ,?來存放它們共有的屬性。同時為了管理這些相應(yīng)的數(shù)據(jù),在相同的等級結(jié)構(gòu)上,建立了相應(yīng)的管理類(xxxDataManager) ,對這些數(shù)據(jù)類的操作(建立或刪除索引)進(jìn)行管理,并用一個工廠類(DataManagerFactory)來創(chuàng)建所需要的管理類,IndexHelper用來充當(dāng)整個索引模塊對外的接口,為了實現(xiàn)一些與平臺特定的業(yè)務(wù),特用SupportManager來提供一些額外的業(yè)務(wù)支持,索引模塊代碼結(jié)構(gòu)如下圖所示。

二.搜索索引

1.???lucene?搜索的核心步驟:

String[]??fields??=??{“title”,?“summary”,……};?????//要查找的field范圍

BooleanClause.Occur[]???flags??=??{BooleanClause.Occur.SHOULD, BooleanClause.Occur.?MUST ,……};

Query??query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits??hits??=??new??IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(“title”);

String summary = doc.get(“summary”);

//?搜索出來的結(jié)果高亮顯示在頁面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(“title”,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info("SearchHelper.search.title="+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(“summary”,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info("SearchHelper.search. summary ="+ summary);

}

}

2.結(jié)合平臺構(gòu)造搜索模塊

PageData?類用來存放檢索結(jié)果集數(shù)據(jù)。

PageInfo?類用來存放頁面相關(guān)信息例如,PageData對象集合、總記錄個數(shù)、每一頁的記錄數(shù)、?總頁面數(shù)量等等。

SearchHelper用來充當(dāng)整個搜索模塊的對外接口。

三.為平臺組件添加索引的步驟(以知識中心為例)

1.在com.cscec.oa.searchengine.extend.module?目錄下添加一個新的package

例如:com.cscec.oa.searchengine.extend.module.resourcestore

2.在新的目錄下建立data package?并建立相應(yīng)的數(shù)據(jù)類,并使這個數(shù)據(jù)類繼承BeanData。

例如:

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3.?與data package?同一級目錄建立manager package?并建立相應(yīng)管理類,并使這個管理類繼承BeanDataManager

例如:

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4.以管理員的身份登陸OA后,在菜單中找到“索引模塊管理”鏈接,將相應(yīng)信息添加完成后,便可以在List?頁面?點擊“創(chuàng)建索引”對該模塊的數(shù)據(jù)進(jìn)行索引的建立,建立完成后便可以進(jìn)行查詢。

java如何實現(xiàn)搜索功能。比如,輸入txt就能搜索出這個文件夾內(nèi)所有txt格式的文件。請給完整代碼。

import?java.io.*;

public?class?FileDemo{

public?static?void?main(String[]?args)throws?Exception{

//第一個參數(shù)是文件路徑,第二個參數(shù)是要搜索的文件擴展名

getFile("D:\\JavaDemo",".txt");

}

private?static?void?getFile(String?pathName,?final?String?endsWith)throws?Exception{

File?file?=?new?File(pathName);

if(!file.exists())

throw?new?RuntimeException("文件不存在,你檢索個P呀。");

file.listFiles(new?FileFilter(){

public?boolean?accept(File?file){

if(file.getName().endsWith(endsWith)){

System.out.println(file.getName());

return?true;

}else

return?false;

}

});

}

}

請問一下怎么寫搜索引擎,使用java編程語言,是搜索文件的搜索引擎,不是文件的搜索引擎,感激不盡

談?wù)勎业目捶?,并不是具體如何去編程,僅僅是一個思路而已

1\建立一個微型的數(shù)據(jù)庫,然后做一個系統(tǒng)服務(wù),每隔一段時間就自動運行一次,搜索全盤文件系統(tǒng)的文件結(jié)構(gòu),并做索引記錄

2\你要進(jìn)行搜索的時候,直接數(shù)據(jù)庫查詢就行

思路來源:Linux系統(tǒng)的updatedb,然后locate查找文件的機制。你可以百度一下。

分享名稱:文件搜索引擎java代碼 搜索文件的代碼
分享URL:http://www.muchs.cn/article14/dohchge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)網(wǎng)頁設(shè)計公司、做網(wǎng)站、定制開發(fā)、App開發(fā)、云服務(wù)器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)