本站小編為你精心準(zhǔn)備了城市軌道交通客流量預(yù)測(cè)探究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:通過分析城市軌道交通日均客流及相關(guān)影響因素的變化特征,以多種因素作為數(shù)據(jù)集特征,采用梯度提升法和隨機(jī)森林的混合模型對(duì)日均客流量進(jìn)行預(yù)測(cè)。以北京地鐵客流數(shù)據(jù)作為研究對(duì)象,對(duì)模型進(jìn)行了試驗(yàn)。試驗(yàn)結(jié)果表明,基于梯度提升和隨機(jī)森林的混合模型相較于常規(guī)ARI-MA模型和隨機(jī)森林模型具有更好的適應(yīng)性,在常態(tài)和特殊情況下均能取得可接受的預(yù)測(cè)效果。
關(guān)鍵詞:城市軌道交通;客流量預(yù)測(cè);梯度提升
客流量的預(yù)測(cè)和分析是城市軌道交通規(guī)劃和建設(shè)的重要依據(jù)。城市軌道交通客流與群眾出行規(guī)律密切相關(guān),通常具有較強(qiáng)的時(shí)間序列特征。過去已有相關(guān)領(lǐng)域的研究人員基于ARIMA模型實(shí)現(xiàn)了客流量的預(yù)測(cè),通過對(duì)模型進(jìn)行各方面優(yōu)化,提升了預(yù)測(cè)效果[1-2]。近年來機(jī)器學(xué)習(xí)技術(shù)得到廣泛應(yīng)用,有的采用特殊結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)[3-4]、支持向量機(jī)[5]等方法實(shí)現(xiàn)客流量預(yù)測(cè),并通過分析客流特征研究居民出行規(guī)律和交通規(guī)律。本文在參考已有算法的基礎(chǔ)上[6-8],使用梯度提升決策樹混合模型預(yù)測(cè)城市軌道交通客流量,并分析相關(guān)影響因素特征。
1梯度提升決策樹基本原理
梯度提升決策樹是一種通過構(gòu)建多個(gè)弱學(xué)習(xí)器、并將之組合形成強(qiáng)學(xué)習(xí)器的集成模型。通常使用分類回歸決策樹作為弱學(xué)習(xí)器。分類回歸決策樹是一種應(yīng)用較為廣泛的決策樹實(shí)現(xiàn)方法,其每一次訓(xùn)練盡可能遍歷所有可能的屬性取值,依據(jù)最佳分割點(diǎn)將樣本數(shù)據(jù)分為2個(gè)部分,以遞歸分割的方式,不斷循環(huán)直至終止條件。梯度提升屬于提升算法體系的一種,由斯坦福教授J.H.Friedman提出[6-7]。其基本思想是利用損失函數(shù)的負(fù)梯度在當(dāng)前模型下的值作為模型本次訓(xùn)練結(jié)果殘差的近似,并以該值作為下一次訓(xùn)練的目標(biāo)。模型的輸出結(jié)果將向著損失函數(shù)減小的方向移動(dòng)。
2客流預(yù)測(cè)模型機(jī)理及數(shù)據(jù)集特征處理
2.1模型預(yù)測(cè)機(jī)理地鐵日均客流量具有明顯的周期性和季度性。其時(shí)序性決定了日客流量與日期、歷史客流量直接相關(guān)。天氣、氣溫及節(jié)假日等則是引起客流量波動(dòng)的重要因素。使用樹模型的實(shí)質(zhì),即通過樣本數(shù)據(jù)探究以上相關(guān)因素的差異性對(duì)流量大小的影響。根據(jù)樹模型的原理,在理想狀態(tài)下,對(duì)于任意1組特征組合,都應(yīng)存在1個(gè)客流量集合與之對(duì)應(yīng),同1集合內(nèi)客流量的均值將作為符合該特征組合的客流量預(yù)測(cè)值。模型每一次迭代都將根據(jù)以上特征對(duì)樣本進(jìn)行若干次劃分,特征與預(yù)測(cè)目標(biāo)較高的相關(guān)性保證了分類效果。根據(jù)梯度提升算法,模型第一次訓(xùn)練以實(shí)際客流進(jìn)行擬合,此后以上一次預(yù)測(cè)結(jié)果與實(shí)際值的殘差來訓(xùn)練子樹,從而逐步縮小預(yù)測(cè)殘差,降低擬合偏差。數(shù)據(jù)樣本及其特征的選擇將極大影響模型的預(yù)測(cè)結(jié)果,只有合理的樣本特征才能實(shí)現(xiàn)模型的最大作用。因此,需選定樣本的輸入與輸出,并對(duì)樣本數(shù)據(jù)進(jìn)行特征工程處理,以保證樣本屬性與特征的有效性。
2.2數(shù)據(jù)集特征處理根據(jù)預(yù)測(cè)機(jī)理及相關(guān)研究,在分析影響城市軌道交通日客流量的若干因素后,搜集相關(guān)數(shù)據(jù)進(jìn)行特征處理形成合適的訓(xùn)練樣本。本試驗(yàn)采用的數(shù)據(jù)來源為北京地鐵2015年1月1日至2017年7月17日15條運(yùn)營(yíng)線路的日客運(yùn)量及對(duì)應(yīng)時(shí)間的相關(guān)特征數(shù)據(jù),共929個(gè)樣本。特征數(shù)據(jù)包含離散值和連續(xù)值。離散值應(yīng)按等級(jí)分類、合并或進(jìn)行one-hot編碼。為保證決策樹分類效果,應(yīng)根據(jù)特征與客流間的相關(guān)性作為評(píng)價(jià)標(biāo)準(zhǔn),應(yīng)將不相關(guān)數(shù)據(jù)或具有較多噪音數(shù)據(jù)進(jìn)行剔除、替換和合并處理,以實(shí)現(xiàn)降維,最終形成適用于模型的數(shù)據(jù)集。根據(jù)以上分析對(duì)相關(guān)屬性特征進(jìn)行處理,得到訓(xùn)練特征。工作日與周末使用同一個(gè)狀態(tài)進(jìn)行分類;天氣數(shù)據(jù)按照類別進(jìn)行合并處理,分為7個(gè)等級(jí);節(jié)假日對(duì)客流量有較大的影響,春節(jié)、國(guó)慶與其他節(jié)假日的差異性通過4個(gè)類別劃分。通過Python模塊Seaborn和Pandas可進(jìn)行編程,以實(shí)現(xiàn)數(shù)據(jù)圖表的可視化輸出。
3試驗(yàn)與仿真
使用Python機(jī)器學(xué)習(xí)模塊Scikit-learn[9]實(shí)現(xiàn)模型的建模與仿真。取前850個(gè)樣本作為訓(xùn)練集,后79個(gè)樣本作為測(cè)試集,模型輸出為對(duì)應(yīng)測(cè)試集下的日客流量。對(duì)模型參數(shù)進(jìn)行多次調(diào)整,每種參數(shù)組合進(jìn)行2000次訓(xùn)練。令T為樣本的特征總數(shù),選取部分參數(shù)組合下的預(yù)測(cè)結(jié)果如表2所示。由表2可知,回歸子樹的深度N與訓(xùn)練子集使用的特征數(shù)t越大,訓(xùn)練時(shí)間越長(zhǎng)。
4結(jié)語
本文分析了梯度提升法的概念和基本原理,將梯度提升法和隨機(jī)森林的混合模型應(yīng)用于城市軌道交通客流預(yù)測(cè)。通過分析北京地鐵客流特征及多種影響因素,制定了適用于模型的訓(xùn)練集。試驗(yàn)分析了梯度提升混合模型及其他兩種基本模型的預(yù)測(cè)結(jié)果,基于梯度提升的混合模型能實(shí)現(xiàn)更高精度。綜上所述,梯度提升混合模型能夠適用于城市軌道交通客流量的預(yù)測(cè)與分析,且能取得較好效果。未來研究需進(jìn)一步完善數(shù)據(jù)集,擴(kuò)大樣本規(guī)模,并結(jié)合智慧交通及大數(shù)據(jù)技術(shù),深入分析城市人口出行規(guī)律,為城市軌道交通規(guī)劃及管理提供新的研究思路及參考。
參考文獻(xiàn)
[1]蔡昌俊,姚恩建,王梅英,等.基于乘積ARIMA模型的城市軌道交通進(jìn)出站客流量預(yù)測(cè)[J].北京交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,38(2):135.
[2]白麗.城市軌道交通常態(tài)與非常態(tài)短期客流預(yù)測(cè)方法研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2017,17(1):127.
[3]李少偉,陳永生.城市軌道交通客流預(yù)測(cè)算法設(shè)計(jì)與仿真[J].計(jì)算機(jī)科學(xué),2014,41(2):276.
[4]鄒東,劉瓊,黃梓榮.城市軌道交通線網(wǎng)時(shí)空相關(guān)性客流預(yù)測(cè)研究[J].城市軌道交通研究,2016(3):32.
[5]趙鈺棠,楊信豐,楊珂.基于支持向量機(jī)的地鐵客流量預(yù)測(cè)[J].都市快軌交通,2014,27(3):35.
[8]BOWLESM.Python機(jī)器學(xué)習(xí)預(yù)測(cè)分析核心算法[M].沙嬴,李鵬,譯.北京:人民郵電出版社,2016.
作者:丁聰1;倪少權(quán)2;呂紅霞2 單位:1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,2.西南交通大學(xué)交通運(yùn)輸與物流學(xué)院