網(wǎng)頁切片算法

2022-05-31    分類: 網(wǎng)站建設(shè)

網(wǎng)頁切片的粒度題目:

之前我寫過:一種面向搜索引擎的網(wǎng)頁分塊、切片的原理,實(shí)現(xiàn)和演示,跟著工作的深入,逐漸遇到以下題目:

這是我研究網(wǎng)頁切片算法的一個(gè)匯總想法主意。歸結(jié)到90度和0度上去,得到一個(gè)條塊分割的矢量圖。 網(wǎng)頁切片算法。

這段時(shí)間對(duì)算法的一個(gè)體會(huì)就是,算法就是解決特定題目的方法。

假如處理分頁的內(nèi)容型網(wǎng)頁:

從切片的粒度可以看出,應(yīng)該把內(nèi)容區(qū)作為一個(gè)部門單獨(dú)切出來。

好的辦法只有一個(gè),模擬鼠標(biāo)擊鍵,擊鍵處的對(duì)象返回響應(yīng),這在IE能夠?qū)崿F(xiàn)的。

干嗎要分析HTML呢?情況多得很,根天職析不外來。

視覺分析只能落腳到視覺上,只能對(duì)頁面的靜態(tài)畫面作分析才能得到準(zhǔn)確的條塊分割,分割條塊是輕易的簡(jiǎn)樸算法就能做到,但是要把這些內(nèi)容歸結(jié)到分割到的條塊是難的??此趺捶治?。對(duì)不同網(wǎng)頁,應(yīng)該有個(gè)識(shí)別算法,應(yīng)該包括哪些尺度?

互連網(wǎng)紗功能的網(wǎng)頁大概有2種類型,目錄型和內(nèi)容型;跟著搜索引擎的發(fā)展,網(wǎng)站結(jié)構(gòu)逐漸向扁平化的方向發(fā)展,車東 對(duì)此也做出了數(shù)據(jù)驗(yàn)證,而且跟著顯示器分辨率的不斷進(jìn)步,內(nèi)容和目錄結(jié)合型的網(wǎng)頁呈增加趨勢(shì),天極的網(wǎng)頁涉及,可以說是其中的典范。

我目前的進(jìn)展是:可以識(shí)別 導(dǎo)航區(qū)、鏈接區(qū)、頁腳區(qū)。但能把我們解決的題目用數(shù)學(xué)模型表達(dá)出來還是一個(gè)不斷進(jìn)步算法水平的基本要求。

就拿最簡(jiǎn)樸的,我有一個(gè)類似于OutLook工具條的頁面風(fēng)格,都是腳本天生的,我看他怎么分析!

況且,現(xiàn)在依靠客戶端腳本展現(xiàn)動(dòng)態(tài)表現(xiàn)力慢慢開始流行,這個(gè)算法很難適應(yīng)未來的潮流。

我那天用浮動(dòng)的 用絕對(duì)位置定位代替 定位,并且在客戶真?zhèn)€JavaScript中動(dòng)態(tài)排列。

我怎么想都覺得我的簡(jiǎn)樸算法都要比文中的算法強(qiáng)多了。然后作恍惚處理,然后用一個(gè)亮度閾值把圖片轉(zhuǎn)換成二值圖,然后作一個(gè)矢量化處理,留下線條??墒菍?shí)現(xiàn)起來有良多障礙,正如這位所說的:

現(xiàn)在大多數(shù)網(wǎng)站為了改善用戶體驗(yàn)和增加頁面展示次數(shù)的需要,對(duì)網(wǎng)頁做了分頁處理,這部門需要設(shè)別出來。教科書上的算法大都是最一般性,常用性的方法的說明??蛻粽?zhèn)€對(duì)象用腳本動(dòng)態(tài)天生插入。

網(wǎng)頁內(nèi)容區(qū)大范圍識(shí)別:

網(wǎng)頁切片算法的對(duì)象應(yīng)該是針對(duì):內(nèi)容型和內(nèi)容目錄混合型。

無意間看到了:VIPS:基于視覺的Web頁面分頁算法 ,從理論上證實(shí)了這種方法的可行性。

然后,每一塊中按照密度用鼠標(biāo)點(diǎn)擊模擬獲得對(duì)象!這樣就可以完成了條塊歸納了。

網(wǎng)頁切片的網(wǎng)頁對(duì)象:

網(wǎng)頁切片算法的目的不是精確找到所需要的內(nèi)容,而是識(shí)別劃分網(wǎng)頁的各種功能區(qū)域,導(dǎo)航區(qū),鏈接區(qū),內(nèi)容,頁腳區(qū)和廣告區(qū)等。

對(duì)內(nèi)容區(qū)的分析是個(gè)難點(diǎn),鑒于我自己的需要,只要找到大的內(nèi)容區(qū)就可以了。這樣才能取得分割好條塊后的對(duì)象歸屬。根據(jù)一般的網(wǎng)頁設(shè)計(jì)規(guī)律,一般有2種容納內(nèi)容區(qū)的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

視覺依賴畫面分割條塊,很簡(jiǎn)樸,對(duì)空缺進(jìn)行膨脹-縮小算法,這樣留白就能逐漸清楚出來,文字就恍惚了。

套句俗話,能解決實(shí)際題目的方法就是好方法。

這樣的算法太依靠于詳細(xì)實(shí)現(xiàn)了,很難有好的解決辦法。

網(wǎng)站標(biāo)題:網(wǎng)頁切片算法
新聞來源:http://www.muchs.cn/news30/162030.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、營銷型網(wǎng)站建設(shè)響應(yīng)式網(wǎng)站、微信公眾號(hào)企業(yè)網(wǎng)站制作、網(wǎng)站設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)