美章網(wǎng) 資料文庫(kù) 新聞網(wǎng)站自動(dòng)生成系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)范文

新聞網(wǎng)站自動(dòng)生成系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)范文

本站小編為你精心準(zhǔn)備了新聞網(wǎng)站自動(dòng)生成系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。

新聞網(wǎng)站自動(dòng)生成系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲(chóng);靜態(tài)網(wǎng)頁(yè);新聞模板

1緒論

網(wǎng)絡(luò)媒體隨著網(wǎng)絡(luò)技術(shù)的發(fā)展迅速壯大,這使得人們能夠更快地獲取新聞信息。網(wǎng)絡(luò)媒體的新聞來(lái)源有來(lái)自于自己所采訪(fǎng)的新聞,也有許多引用自其他的網(wǎng)站。如何快速準(zhǔn)確地采集新聞,更新新聞網(wǎng)站成為網(wǎng)絡(luò)媒體的一個(gè)重要問(wèn)題。

2研究進(jìn)展

早期的新聞采集大多靠人工去搜索和整理,直到網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的出現(xiàn)才使得人工得以解放,大大提高了新聞的采集速度。為了更加快速準(zhǔn)確地抓取網(wǎng)頁(yè),Cho[1]等人在爬蟲(chóng)中引入了網(wǎng)頁(yè)抓取策略的概念。針對(duì)特定領(lǐng)域的新聞,王辛[2]等人基于站點(diǎn)分類(lèi)的網(wǎng)頁(yè)抓取策略,設(shè)計(jì)了即時(shí)新聞采集分析系統(tǒng)。雖然現(xiàn)在有了不少爬蟲(chóng)框架,陳歡[3]等人也利用Scrapy爬蟲(chóng)框架設(shè)計(jì)了有效的網(wǎng)絡(luò)新聞爬蟲(chóng)。但由于網(wǎng)絡(luò)中的網(wǎng)頁(yè)中存在著大量的與新聞無(wú)關(guān)的噪聲信息,如何去除噪聲,快速有效地找到有效的新聞信息近年被廣泛地研究。陳西安[4]提出了基于網(wǎng)頁(yè)文本標(biāo)簽特征挖掘的網(wǎng)頁(yè)正文提取方法來(lái)解決噪聲問(wèn)題。快速新聞網(wǎng)站生成系統(tǒng)的重要組成部分,除了快速采集新聞,還有新聞頁(yè)面模板。新聞頁(yè)面模板可以為采集到的新聞內(nèi)容自動(dòng)生成新聞頁(yè)面,這能大大加快新網(wǎng)網(wǎng)站內(nèi)容更新速度。另一方面,可以借助新聞頁(yè)面模板,將新聞網(wǎng)頁(yè)轉(zhuǎn)換成靜態(tài)網(wǎng)頁(yè),這能大大提高用戶(hù)訪(fǎng)問(wèn)頁(yè)面的速度。王莉利[5]等人提出的將動(dòng)靜技術(shù)相結(jié)合的思路則能夠既保留動(dòng)態(tài)網(wǎng)站的交互性,又克服傳統(tǒng)網(wǎng)站訪(fǎng)問(wèn)效率低、并發(fā)性差的問(wèn)題。

3系統(tǒng)分析和設(shè)計(jì)

3.1系統(tǒng)功能模塊劃分

本文根據(jù)新聞網(wǎng)站采集和更新的相關(guān)功能需求,設(shè)計(jì)一個(gè)新聞網(wǎng)站自動(dòng)生成系統(tǒng),它包括“新聞采集管理”、“新聞管理”、“新聞模板管理”三部分。通過(guò)管理新聞網(wǎng)站網(wǎng)址及新聞內(nèi)容的特殊標(biāo)簽,讓爬蟲(chóng)根據(jù)預(yù)先設(shè)置的參數(shù)迅速地采集新聞信息,并利用網(wǎng)頁(yè)模板自動(dòng)生成新聞靜態(tài)網(wǎng)頁(yè),從而達(dá)到新聞網(wǎng)站自動(dòng)快速更新的效果。整個(gè)系統(tǒng)的功能模塊如圖1所示。

3.2新聞采集管理

“新聞采集管理”是對(duì)預(yù)備采集新聞的網(wǎng)站網(wǎng)址進(jìn)行管理以及進(jìn)行新聞搜索。為了更快速準(zhǔn)確地去采集新聞信息,系統(tǒng)不會(huì)對(duì)網(wǎng)絡(luò)中的所有網(wǎng)站進(jìn)行新聞信息爬取,而是有針對(duì)性地選擇主流的新聞網(wǎng)站作為新聞采集對(duì)象,建立新聞采集網(wǎng)址庫(kù)。在爬蟲(chóng)自動(dòng)抽取網(wǎng)站新聞信息時(shí),主要抽取的信息包括新聞標(biāo)題、新聞來(lái)源、新聞日期、新聞內(nèi)容等。通常同一個(gè)網(wǎng)站內(nèi)的新聞網(wǎng)頁(yè)都具有相同的格式,這些信息都由特定的HTML起止標(biāo)簽容納。所以可以通過(guò)預(yù)先設(shè)置需要采集項(xiàng)目的HTML起止標(biāo)簽讓爬蟲(chóng)自動(dòng)地對(duì)網(wǎng)頁(yè)進(jìn)行分析,抓取其中有用的新聞信息。在設(shè)置HTML起止標(biāo)簽時(shí),需要考慮如下問(wèn)題:(1)有些標(biāo)簽是單標(biāo)簽,此時(shí)需要擴(kuò)大起止標(biāo)簽的范圍,避免選擇單標(biāo)簽;(2)在抓取新聞信息的過(guò)程中,需要注意網(wǎng)站頁(yè)面設(shè)置的編碼是UTF-8還是GB2312,這對(duì)于爬蟲(chóng)分析網(wǎng)頁(yè)是十分重要的。設(shè)置好所有預(yù)備采集的新聞網(wǎng)站的采集參數(shù)后,就可以通過(guò)“搜索新聞”功能自動(dòng)地運(yùn)行爬蟲(chóng)程序去抓取新聞內(nèi)容,并將相關(guān)內(nèi)容保存到本地服務(wù)器的數(shù)據(jù)庫(kù)中。由于爬蟲(chóng)搜索網(wǎng)頁(yè)并存儲(chǔ)到本地服務(wù)器的過(guò)程通常會(huì)比較耗時(shí),所以通常在新聞網(wǎng)站訪(fǎng)問(wèn)量較少的夜間自動(dòng)進(jìn)行。為提高搜索新聞的速度,我們提出了一種批處理的方式進(jìn)行搜索。批處理的搜索是利用多線(xiàn)程來(lái)實(shí)現(xiàn)的,以隊(duì)列的方式建立線(xiàn)程池,通過(guò)多線(xiàn)程來(lái)提高搜索的效率。因?yàn)榫W(wǎng)速等客觀原因,在搜索和分析新聞網(wǎng)站時(shí)需要的響應(yīng)時(shí)間不同,系統(tǒng)會(huì)自動(dòng)根據(jù)網(wǎng)路傳輸速度調(diào)節(jié)分析新聞網(wǎng)頁(yè)的延時(shí)。

3.3新聞管理

“新聞管理”是對(duì)采集到的新聞進(jìn)行管理,它包括預(yù)覽、編輯、確認(rèn)等操作。雖然在新聞采集階段,通過(guò)參數(shù)設(shè)置可以基本保證采集到的新聞信息具有較高的準(zhǔn)確度,但也不可完全避免采集到的信息出錯(cuò)的情況。所以,新聞編輯人員可以通過(guò)提供的預(yù)覽功能對(duì)采集到的新聞信息進(jìn)行預(yù)覽和審核。當(dāng)發(fā)現(xiàn)有些采集到的新聞信息中有部分內(nèi)容不準(zhǔn)確時(shí),新聞編輯人員可以通過(guò)“編輯新聞”對(duì)其進(jìn)行編輯加工。更多的出錯(cuò)情況通常是因?yàn)橛胁糠中侣劸W(wǎng)頁(yè)信息沒(méi)有遵循網(wǎng)站共同的格式而導(dǎo)致采集到的信息出錯(cuò),此時(shí)采集到的整條新聞內(nèi)容信息都可能異常。不論何種情況,新聞編輯人員都可以通過(guò)“確認(rèn)新聞”的功能來(lái)確定這條新聞是否可刊登。只有那些被標(biāo)記為“允許刊登”的新聞信息條目才會(huì)自動(dòng)生成靜態(tài)新聞網(wǎng)頁(yè),并在網(wǎng)站上正式。對(duì)于確認(rèn)過(guò)的新聞,系統(tǒng)每天定時(shí)在夜間維護(hù)時(shí)創(chuàng)建一個(gè)當(dāng)天的新聞數(shù)據(jù)表,并將當(dāng)天所有確認(rèn)的新聞復(fù)制到此表中,這樣每天生成新聞網(wǎng)頁(yè)時(shí)可從這個(gè)數(shù)據(jù)表讀取要刊登的新聞。當(dāng)數(shù)據(jù)量比較大時(shí),這樣可以提高數(shù)據(jù)庫(kù)的訪(fǎng)問(wèn)效率。當(dāng)采集的新聞數(shù)據(jù)非常大時(shí),我們也可以借助基于Hadoop框架的大數(shù)據(jù)存儲(chǔ)系統(tǒng)來(lái)管理新聞數(shù)據(jù)。

3.4新聞模板管理

“新聞模板管理”包括新聞模板的展示,以及靜態(tài)新聞網(wǎng)頁(yè)的生成。新聞網(wǎng)頁(yè)的內(nèi)容雖然不同,但頁(yè)面的樣式、風(fēng)格可以統(tǒng)一。所以我們事先設(shè)計(jì)好很多不同風(fēng)格樣式的網(wǎng)頁(yè)模板供新聞編輯人員進(jìn)行選擇。新聞編輯人員可以通過(guò)“新聞模板顯示”查看已有的網(wǎng)頁(yè)模板并進(jìn)行選擇。選擇好合適的網(wǎng)頁(yè)模板后,通過(guò)“靜態(tài)網(wǎng)頁(yè)生成”功能可將編輯人員確認(rèn)允許刊登的新聞數(shù)據(jù)轉(zhuǎn)化轉(zhuǎn)化成靜態(tài)網(wǎng)頁(yè)格式。為了節(jié)省時(shí)間,系統(tǒng)默認(rèn)從當(dāng)天確認(rèn)刊登的新聞數(shù)據(jù)表中逐條讀取新聞數(shù)據(jù),然后將新聞標(biāo)題、新聞來(lái)源、新聞日期、新聞內(nèi)容等字段的內(nèi)容放置在新聞模板中對(duì)應(yīng)標(biāo)簽中。所有生成的靜態(tài)網(wǎng)頁(yè)保存在以對(duì)應(yīng)日期命名的文件夾內(nèi)。靜態(tài)網(wǎng)頁(yè)使得用戶(hù)訪(fǎng)問(wèn)時(shí)大大減少由于讀寫(xiě)數(shù)據(jù)庫(kù)而造成的效率低下問(wèn)題。

4系統(tǒng)測(cè)試與結(jié)論

通過(guò)對(duì)多個(gè)網(wǎng)站的教育板塊進(jìn)行新聞信息抓取,我們發(fā)現(xiàn)所設(shè)計(jì)的系統(tǒng)能夠快速準(zhǔn)確地實(shí)現(xiàn)自動(dòng)采集新聞、自動(dòng)生成新聞網(wǎng)站的功能。但是,由于采集信息是根據(jù)新聞網(wǎng)頁(yè)中的特殊HTML標(biāo)簽進(jìn)行采集的,如果采集來(lái)源網(wǎng)頁(yè)樣式發(fā)生改變,則會(huì)抽取不出新聞內(nèi)容,此時(shí)需要重新標(biāo)注采集來(lái)源網(wǎng)址中的特殊HTML標(biāo)簽。此外,對(duì)于新聞內(nèi)容的合法性,目前主要通過(guò)人工校驗(yàn),今后可以考慮借助文本的語(yǔ)義分析等手段進(jìn)行自動(dòng)處理。

參考文獻(xiàn)

[2]王辛,黃穗,龍舜.即時(shí)定向新聞采集技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(09):180-183.

[3]陳歡,黃勃,劉文竹,高永彬,姜曉燕.基于Python的網(wǎng)絡(luò)新聞爬蟲(chóng)與檢索[J].軟件導(dǎo)刊,2019(05):168-171

[4]陳西安.智能Web新聞文本采集方法研究[D].電子科技大學(xué),2016.

[5]王莉利,高新成,王才智.基于動(dòng)轉(zhuǎn)靜技術(shù)的新聞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].陜西理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,31(02):41-44.

[6]馬雷鳴.基于Hadoop的互聯(lián)網(wǎng)新聞閱讀系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].南京航空航天大學(xué),2017.

作者:劉暉 石倩 單位:中南林業(yè)科技大學(xué)理學(xué)院

主站蜘蛛池模板: 尹人久久大香找蕉综合影院| 欧美日韩免费在线视频| 国产在线观看免费视频软件| 91手机看片国产永久免费| 强行入侵粗暴h肉囚禁| 久久午夜无码鲁丝片直播午夜精品 | 国产手机在线播放| 亚洲国产精品白丝在线观看| 精品一卡2卡三卡4卡免费网站| 国产精品真实对白精彩久久| www..com色| 成人毛片全部免费观看| 久久棈精品久久久久久噜噜| 猫咪www免费人成网站| 啊…别了在线观看免费下载| 韩国女主播一区二区| 国产真实乱子伦精品视手机观看| 91精品福利一区二区三区野战| 天天爱天天操天天射| 一级一级特黄女人精品毛片| 新梅瓶1一5集在线观看| 久久人人爽人人爽人人片AV高清 | 欧洲精品一区二区三区| 亚洲欧美中文日韩v在线观看| 狠狠爱无码一区二区三区| 日韩精品一区二区三区免费视频 | 最近更新2019中文字幕国语4| 亚洲日本一区二区三区在线不卡| 爱情鸟第一论坛com高清免费| 免费绿巨人草莓秋葵黄瓜丝瓜芭乐| 1300部真实小u女视频在线| 大又大粗又爽又黄少妇毛片| 一本无码中文字幕在线观| 我和岳乱妇三级高清电影| 久久久久亚洲av无码专区蜜芽| 日韩在线视频免费观看| 九色综合狠狠综合久久| 猫咪av成人永久网站在线观看| 八戒网站免费观看视频| 给我免费播放片黄色| 四虎国产精品免费久久久|