mshtml獲取meta信息

為了計算文本與標題相似度,需要用到標題文本。而爬數(shù)據(jù)的時候?qū)⑽募O置為url而沒有用網(wǎng)頁標題來存,所以需要解析網(wǎng)頁提取,工程在.net平臺下利用webbrowser實現(xiàn)的,用到了微軟的mshtml。

網(wǎng)站建設哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、微信小程序定制開發(fā)、集團企業(yè)網(wǎng)站建設等服務項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了宣城免費建站歡迎大家使用!

用IHTMLDocument2.title倒是可以獲得標題,但是它取得的標題有時會包含網(wǎng)站名如: Colorado shooting suspect sent to trial | World news | guardian.co.uk

為了計算準確,希望只有當前主題網(wǎng)頁中的標題就是只有Colorado shooting suspect sent to trial。觀察html發(fā)現(xiàn)一般主題網(wǎng)頁的meta信息中會有不包含網(wǎng)站名的title,在格式如下的一個標簽里<meta property="og:title" content="Colorado shooting suspect sent to trial"/>。于是用正則匹配IHTMLElement的outerhtml,嘗試各種正則都沒匹配到。

原來outerhtml中只有body結(jié)點中的html,并不包含meta信息。然后google查有什么方法獲得meta中的內(nèi)容,發(fā)現(xiàn)一個解決方法http://forums.asp.net/p/1455331/3332061.aspx。關鍵代碼貼在這里:

 

  1. foreach (IHTMLElement el in (IHTMLElementCollection)doc.all) 
  2.        { 
  3.            // check to see if all the desired attributes were found with the correct values 
  4.            bool qualify = true; 
  5.            if (el.tagName == "META") 
  6.            { 
  7.                HTMLMetaElement meta = (HTMLMetaElement)el; 
  8.                Response.Write("Content " + meta.content +"<br/>"); 
  9.            } 

利用IHTMLDocument2可以獲得所有標簽信息,包括meta中的。然后再用正則或者字符串匹配在其中找相應的title信息,完成。

當前標題:mshtml獲取meta信息
網(wǎng)站鏈接:http://muchs.cn/article18/pgohdp.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設、用戶體驗微信公眾號、網(wǎng)站排名、企業(yè)網(wǎng)站制作網(wǎng)站營銷

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設公司