美章網 資料文庫 紡織業信息自動獲取體系分析范文

紡織業信息自動獲取體系分析范文

本站小編為你精心準備了紡織業信息自動獲取體系分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

紡織業信息自動獲取體系分析

隨著因特網的飛速發展,WWW已成為一個巨大的信息資源庫,為用戶又提供了一個極具價值的信息來源。由于WWw信息的量大、動態、分散和異構等特點,使得用戶很難快速準確地獲取所需信息。為了解決這一矛盾,網絡搜索引擎技術應運而生。網絡搜索引擎在網絡信息資源查找中起到了重要的作用,它可以幫助用戶從浩如煙海的網絡信息中找出自己想要得到的信息[1]。網絡搜索引擎一般由信息收集、索引數據庫的創建和用戶查詢接口三部分組成。在一個通用的搜索引擎系統中,信息收集可用一類稱之為“網絡蜘蛛”的軟件,按照一定的規則瀏覽盡可能多的W如頁面,抓取頁面信息。索引數據庫即將抓取的信息分類索引,以利于檢索。用戶查詢接口即提供用戶輸入查詢關鍵詞和搜索條件的界面以及瀏覽結果的界面。由于WWW中信息的龐大,使得網絡搜索引擎需要的軟硬件條件相當高,一般只有大公司才能提供。而且這些龐大的搜索引擎系統存在~些缺陷:如返回結果常不夠專業要求,不能為用戶自動提取網頁中內容等等[2]。能不能有效地利用搜索引擎的相關技術,為某些專業需求的廣大用戶服務呢?因特網上存在大量的紡織企業信息[3],如要建立一個有關紡織企業基本信息庫,通過網絡搜索引擎,可找到很多相關信息,但是只能通過手工記錄該信息。為了解決該問題,筆者以搜索引擎技術為核心研究具有反饋功能的搜索,該根據專業性的要求,結合用戶反饋信息自動分析網頁內容,只抓取針對專業相關的頁面特征信息。利用該,研究設計了一個紡織企業信息庫的自動獲取系統,該系統能自動跟蹤紡織企業信息網頁,獲取其網頁特征信息,通過剖析這些特征信息,識別出其相關內容,并將其置于數據庫中,可進行廣泛應用。

1系統總體框架

筆者所研究的基于搜索的紡織企業信息庫的自動獲取系統如圖1所示。與通用搜索引擎不同的是,它用搜索替代了搜索引擎中的“網絡蜘蛛”軟件,該除了能完成網頁收集和自動“爬行”外,還能利用專業關鍵詞和用戶的反饋信息自動過濾相關網頁,這樣使收集來的頁面均與專業相關,較大地縮小了對存儲空間的要求。此外還增加了反饋信息、專業信息數據庫,以及收集這些信息的模塊。

1.1搜索的工作原理又稱Agent是一個具有自治能力的實體,一般表現為由軟件支持下的系統[4]。在所設計的系統中,搜索是一個面向特定專業領域的信息獲取引擎。與一般搜索引擎相比,它使用自動獲得的專業特征信息(如專業關鍵字、專業信息資源、頁面結構信息等)、用戶反饋信息(如專業信息格式、用戶興趣等)知識進行網頁信息搜集、過濾,并將自動提取網頁基本結構信息。其工作原理如圖2中虛線框所示。

1.2用戶反饋信息及專業信息收集為了提高信息識別的專業化和信息挖掘的準確度,該搜索還利用了用戶的反饋信息和專業詞匯等信息,充分體現了該系統的自適應性。用戶的反饋信息主要有:用戶經常使用的某些關鍵詞,用戶對搜索結果的選擇情況,用戶對某個網(頁)站的評價等等。反饋信息庫可以采用表l所示的數據庫結構來存儲。專業詞匯信息主要是針對某專業來說的相關詞匯。對某一網頁來說,通過計算該網頁中這些專業詞匯的出現情況,再根據“向量空間模型”[5]即可以判斷該網頁是否包含專業性信息,對那些無專業信息的網頁,不作處理,從而可以減少數據庫的存儲空間及后期處理的時間。專業詞匯信息庫可以采用表2所示的數據庫結構來存儲。

2系統中的關鍵技術

2.1網頁的獲取由于Web系統具有分布性、相異性和獨立性的特點,網頁的獲取是一項具有挑戰性的工作。為了提高獲取的效率及可靠性,本系統采用了線程緩沖池和超時技術。線程緩沖池可同時運行20個線程以上,每個線程專門針對一個網站。當一個網站被索引完成后,線程緩沖池即可馬上啟動另一個線程對新的網站開始索引。該算法描述如下:while程序未退出fori=0to最大線程緩沖池if第i個緩沖池為空then‘從網站目錄表中得到一條IndexFlag為0的網站URL啟動索引線程將網站目錄表中該記錄的Index-Flag置為2(索引中)將第i個線程緩沖池標為忙endifendforendwhile2.2網頁結構特征信息過濾網頁文本信息由HTML標記語言描述,其中包含有大量格式化標記信息,其中有效信息只占少數。因此,對HTML源代碼進行過濾,不但可以減少信息處理量,而且可以提高后面信息挖掘的準確性。通過對大量HTML網頁的分析,包含有結構化信息內容的標簽一般由<table></table><tbody></tbody><tr></tr><td></td>等標簽組成。除此以外,<title></title><a></a>等標簽也具有極其重要的價值。因此,網頁結構特征信息過濾即從HTML源信息中保留以上標簽的內容,而將其他信息刪除掉。該算法描述如下:fori=0to保留標簽個數得到保留標簽從文檔開始至結尾處查找該保留標簽將所有由該標簽起始和結束符之間的信息保留nextfor將所有保留的信息加在一起即為過濾后信息

2.3專業信息的劃分在收集到網頁信息后,許多頁面可能都是與該專業不相關的。大量不相關的網頁,將占用大量存儲空間且影響信息獲取的速度和質量,因此如何識別專業信息具有至關重要的作用。在判斷網頁內容是否屬于專業性方面,我們借鑒“向量模型”的相關概念。用N個關鍵詞來對某專業領域R進行表達,從而形成N維的向量空間。同時,對每個關鍵詞我們賦予它不同的權重級別m則該專業領域R可以表示為N維的向量空間:R一(n,Y2,…,靠)。對任何一個文檔D,我們可以找到每個關鍵詞在文檔D中出現的位置,從而確定其所處的標簽。對HTML標簽我們進行了分類并給每類賦予不同的權值[6I,如表3所示。如表3所示,我們將HTML標簽分成7類并賦給它們不同的權重值,當然可以根據實際情況進行相應修改。根據表3,我們可以計算出每一個關鍵詞在文檔D中所占的權值(重要度)。假設關鍵詞T在每類標簽中出現的頻率分別為:則該關鍵詞T在文檔D中的權值如式(1)所示。dl一玎1×1.2+礦2+玎3×0.9+tf4×0.8+礦5×0.64-tf6×0.4+玎7×0.2(1)根據式(1),不難計算出所有專業關鍵詞在文檔W中的權值。因此,整個文檔可以由一個N維向量表示:D一(d,,d。,…,d。)。得到該向量后,我們可以通過式(2)計算出該文檔D與某專業領域R的相似度:川similarity(R,D)一下薩蘭。Vi=1i=1得到文檔與某專業領域R的相似度后,通過多次實驗,我們可以設定一個閾值K,當文檔D的相似度S≥K時,我們將保留該文檔的內容,反之,該文檔被丟棄,即實現專業信息的劃分。

2.4網頁信息識別與挖掘在HTMI。語言的規范中,網頁中格式信息一般由<TABLE><TBODY><TR><TD></TD></TR></TBODY></TABLE>所包含。通過對格式信息數據區域分析,一個包含格式化信息的網頁中可以轉化成一個樹型結構,如圖3所示。從圖3我們可以看出,網頁中信息可以描述成由行列組成的二維信息。若將<TABLE>標志看作數據庫中表的話,那么<TR>標志等同于表中的一條記錄,<TD>標志等同于記錄的字段。但也有特殊情況,如幾個<TR>組成一條記錄,每個<TR>為該記錄的字段。為了解決這些情況,我們利用樹的相關算法可以完成信息的識別與挖掘。在圖3所示的樹型結構中,令TR結點有N個,TR節點的度為D川顯然D,等于該結點下包含TD節點的個數,則信息識別與挖掘的規則如下:(1)若所有的TR節點的D。均相等且大于0,則TR的個數即為記錄行的數目,D,,即為記錄字段的數目。(2)若有M個連續的TR節點的D,相等且大于0,則M即為記錄行的數目,n,即為記錄字段的數目。其中M的選取可根據占所有TR之比來選取,如50%×N。(3)除情況(1)和(2)外,相鄰TR結點的D,不相等但它們的變化呈現重復性,重復的間隔為K,如:n,的變化趨勢依次為1,2,2,0,1,2,2,0,1,2,2,0,…,重復間隔為4,則K即為記錄字段的數目,記錄行的數目為重復變化的TR個數除以K。(4)其他情況暫不處理。

3紡織企業信息的自動獲取系統的實現

通過以上的介紹,我們以紡織企業信息庫的創建為例,實現了Web環境下的紡織企業信息的自動獲取。經過了解,紡織企業基本信息包括:企業名稱、企業簡介、主要產品、所屬行業(企業類別)、聯系方式(地址、郵編、聯系人、電話、傳真、網址、電子郵件)等。為了僅對該相關信息進行搜索,首先需要設定專業詞匯信息,主要包括與紡織及企業相關的內容,由于該類詞匯很多,僅選幾個列于表4中。當網頁信息被索引后,我們可以瀏覽這些信息,通過人工判別,可以給搜索添加反饋信息,如某個網站必須索引,某個網站不需索引,等等。當網頁信息索引完成后,搜索開始對每個網頁內容進行了格式信息識別與挖掘,如石家莊紡織網中有如圖4所示網頁。雖然,該信息并不完全是我們所要的信息,但是搜索已為我們挖掘出與所要專業相關的重要信息,我們下一步所要做的僅僅是告訴搜索,哪些是我們最感興趣的,哪些是不需要的信息。

4結論

(紡織)領域信息的獲取中,通過對搜索的研究,討論了其工作原理。在特定領域信息的劃分方面,提出了基于“向量模型”的相似度比較方法;在格式信息識別與挖掘方面,利用網頁自身的樹型結構的特點,給出了相關規則。最后,以紡織企業基本信息庫的自動獲取為例,實現了該類信息的自動獲取。

主站蜘蛛池模板: 国产三级久久久精品麻豆三级| 天堂а√在线地址| 亚州**色毛片免费观看| 激性欧美激情在线| 又色又污又黄无遮挡的免费视| 黄网视频在线观看| 国产精品女人呻吟在线观看 | 国产成人精品久久亚洲高清不卡| 91精品视频播放| 孩交精品xxxx视频视频| 久久99亚洲网美利坚合众国| 日韩精品电影在线| 亚洲人成电影在线观看青青| 波多野结衣一区二区三区高清在线 | 欧洲美女与动性zozozo| 亚洲精品乱码久久久久久蜜桃| 精品久久久久久国产| 四虎最新永久免费视频| 青青青视频免费| 国产成人综合久久精品红| 2020阿v天堂网| 在线观看免费人成视频| lover视频无删减免费观看| 成人午夜精品久久久久久久小说 | 97在线公开视频| 好男人社区神马www在线影视| 中文无码字幕中文有码字幕| 日韩亚洲欧美视频| 亚洲av女人18毛片水真多| 欧美日韩一品道| 亚洲欧美日韩色| 浮力影院第一页| 人妻中文无码久热丝袜| 真实国产精品视频国产网| 十八禁视频在线观看免费无码无遮挡骂过| 色综合色国产热无码一| 国产另类ts人妖一区二区| 91香蕉污视频| 国产日韩精品一区二区在线观看| 丝袜情趣在线资源二区| 国产精品美女久久久网站动漫|