本站小編為你精心準備了企業信息系統用戶行為統計特性參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
對用戶訪問行為規律的研究分析,是大型門戶網站、社交網絡、電子商務網站等每天必做的功課,通過對網站訪問的分析研究,了解用戶的地域分布、興趣愛好、行為特征等,從而更好地對網站進行運維管理,改善網站的服務質量,以迎合客戶需求,吸引客戶。但是在管理信息系統領域中,企業缺乏對用戶行為規律的研究,在新信息技術不斷涌現特別是云計算的背景下,基于云的信息系統已成為必然,對系統中用戶行為規律和群體特征缺乏了解,會阻礙管理信息系統的發展。通過對大量人類行為事件進行研究分析,從中挖掘出人類行為的特性與規律,是當前的研究熱點之一,已在許多領域開展了大量的實證探索,取得了系列的研究成果,研究情境包括水路郵件、電子郵件、網頁瀏覽、電影點播、手機通訊、金融活動、博客論壇、面對面交互網絡等。然而到目前為止,對人類行為模式研究較少,僅有文獻研究了市場中的證券交易,文獻[15]對某世界500強企業下發采購訂單行為進行了時間統計分析,但是對企業信息系統中的人類行為模式的研究還沒有涉足。為此,本文通過對企業管理信息系統用戶訪問日志數據進行分析,研究企業信息系統用戶個人訪問的時間間隔、活躍度、陣發性和記憶性,對信息系統中用戶訪問行為規律進行定量分析,并進一步研究群組用戶和全體用戶的訪問時間間隔規律。研究企業信息系統用戶訪問行為的規律,可以對信息系統用戶的訪問行為進行有效預測,進而為企業信息系統的運行維護和優化提升提供依據,同時也拓展了用戶訪問行為規律的研究情境。
1研究方法
1.1人類行為動力學全面深刻地認識復雜的人類行為特征一直是學者們努力的方向。以往由于數據記錄的手段落后,加上缺乏現代統計工具和方法,在研究涉及人類行為特性的問題時,常常假設人類行為是符合泊松過程的穩態隨機過程,其2個相繼行為的時間間隔用負指數分布描述如下:P(τ)~λe-λτ(1)泊松過程可以看作具有負指數間隔的計數過程,即人類活動模式是隨機和平穩的,其相鄰事件的時間間隔大體上是均勻的,很長的時間間隔非常稀少。隨著信息技術的發展和現代統計工具的進步,人類記錄和分析自身行為數據的手段也越來越高效和便捷,使得利用大規模數據分析人類行為模式成為可能。2005年,Barabási[2]在Nature上發表了一篇題為“Theoriginofburstsandheavytailsinhumandynam-ics”的論文,標志著人類行為動力學的正式提出,該論文通過分析電子郵件發送和回復行為的時間間隔,揭示了人類行為在時間上對泊松分布的偏離,人類行為的時間統計特性不是均勻的,其中伴隨著長時間的靜默和短時間內的高頻率的爆發,相繼行為的時間間隔分布具有明顯的胖尾特征,可以用冪律分布函數更好地擬合。人類行為動力學是一門新興的交叉科學,通過對大量人類行為事件進行定量統計,從中挖掘人類行為的統計規律,提出假設建立模型來探索這些規律的產生機制和可能的動力學影響[2]。大量的實證研究都揭示了人類行為在時間維度上是偏離泊松分布的,在行為模式上表現出了短時間陣發和長時間休眠的特征。
1.2時間特征分析指標人類行為的時間特征指標分別包括間隔時間、活躍度、陣發性、記憶性等。1)間隔時間:是指連續2次相繼訪問的時間間隔。例:甲于“2012\01\0108:08:08”時刻訪問信息系統,乙在“2012\01\0108:08:09”時刻訪問信息系統,則甲乙2個相連行為的間隔時間為1秒。如果所有系統用戶訪問信息系統的次數為k次,則有k-1個間隔時間。本文的時間單位是秒。2)陣發性:是描述用戶行為短時期密集活動和長時間靜默的物理量,在本文中使用Goh和Barabási的公式計算陣發性。3)記憶性:是描述時間間隔特性的相關性程度,人類活動長的時間間隔后面容易跟著一個長的時間間隔,短的時間間隔后則容易跟著一個較短的時間間隔,這樣的人類行為發生的時間序列被認為具有記憶性。4)活躍度:即活躍程度,是指一個人從事某種活動的強度。文獻[7]提出活躍度的概念,并指出了用戶活躍性程度與冪指數具有非線性正比關系,定義活躍度為第一個行為發出到最后一個行為發出這段時間內用戶發出的平均行為數。Ni是該用戶個體發出的行為總數,Ti是該用戶從第一個行為發出到最后一個行為之間經歷的總時間。
2數據收集與分析
2.1樣本企業的選擇在本文中以X公司為研究對象,研究用戶訪問企業信息系統的時間特征。X公司是國內著名的船舶修造企業,有員工及務工人員1萬多名。X公司一直重視企業信息系統建設,曾投入巨資購買了Oracle的ERP系統。由于受到全球經濟危機的影響,船舶市場整體低迷,X公司為了增強企業競爭力,于2011年9月實施了成本管控系統,包含報價成本、目標成本、成本核算、成本分析、財務管理等共8個子系統,該成本管控系統注冊用戶314名,人均日訪問量3次,人均日訪問系統功能3個,員工的訪問人數和訪問量代表了X公司的信息化應用情況。
2.2數據獲取從X公司成本管控系統的數據庫日志文件,提取了2011年9月14日到2013年6月14日期間用戶對成本管控系統的訪問操作,刪除了沒有登錄名和部分錯誤的記錄,得到了314位系統用戶共計348122條訪問行為記錄,通過訪問行為記錄研究總體用戶訪問行為規律,同時以其中30位訪問量最大的活躍用戶為對象研究個體用戶訪問行為特征,并對30位活躍用戶按訪問量大小分為3個群組,研究群組用戶的訪問行為特征。
2.3數據分析在對數據的獲取和分析過程中,主要運用SQLServer,Matlab,Excel等工具對樣本數據進行處理和分析。1)根據X公司的數據庫日志文件,提取所有用戶登錄訪問系統時間,計算相繼訪問系統行為的時間間隔;2)通過Matlab軟件,得到相繼行為的間隔時間在雙對數坐標下的概率分布圖;3)采用最小二乘法對主體數據擬合得到冪指數及其概率密度函數,選出30位訪問量最多的活躍用戶分析用戶訪問行為特征并統計其訪問量、活躍度、陣發性、記憶性等指標,同時將其分為3個群組,從個體———群組———全體3個層面研究信息系統用戶訪問的行為規律特性。
2.4擬合方法及過程數據擬合又稱函數逼近,是指選擇適當的曲線來擬合離散數據點,不要求經過所有數據點,只要求盡可能地反應數據點的基本走勢。本文所用擬合工具是Matlab,擬合方法是最小二乘法,即根據已提取的數據找到函數關系表達式,作為擬合模型,使求解得到的數據和實際數據之間誤差的平方和最小。對數據擬合的優劣性衡量指標有:解釋能力(R-square)、殘差平方和(SSE)、均方根(RMSE)等。其中殘差平方和(SSE)是衡量最小二乘擬合優劣程度最重要的指標之一,R-square越大,SSE和RMSE越接近0,說明模型選擇和擬合效果好,數據預測也越成功。筆者用Matlab通過自己編寫的代碼,作出X公司的成本管控系統用戶的訪問時間間隔在雙對數坐標的圖,然后通過最小二乘法在Matlab下的實現,找出最優的擬合模型。
3結果分析
3.1個人行為分析1.個體用戶訪問信息系統的規律。以數據庫日志文件中訪問量最大的前30位活躍用戶為對象,通過Matlab軟件,得到這30位活躍用戶對成本管控系統訪問行為的間隔時間在雙對數坐標下的概率分布圖,然后利用最小二乘估計方法對主體數據曲線進行擬合,得到個體用戶訪問信息系統行為的擬合曲線,圖1~圖3分別是系統管理員、訪問量排名第19位和第21位的用戶訪問系統相繼行為的間隔時間分布。其中藍色點為全體用戶訪問成本管控系統相繼行為間隔時間的原始數據,紅色直線是擬合曲線,3位用戶訪問信息系統相繼行為的冪律分布指數分別為0.9622,0.6422和0.6787。綜上分析,發現個體行為的時間統計特性不是均勻的,其中伴隨著長時間的靜默和短時間內的高頻率的爆發,相繼行為的時間間隔分布具有明顯的胖尾特征,其間隔時間分布在超過2個數量級范圍服從冪律分布P(τ)~τ-α,冪指數不等。2.活躍度和冪指數之間的關系。人類行為是高度復雜的,用戶的行為規律不僅體現在間隔時間的分布規律上,為了更深層次挖掘信息系統用戶的訪問行為規律,本文對30位用戶的訪問間隔時間的陣發性、記憶性和活躍度指標進行計算,詳見表1。從表1可以發現:1)X公司個人用戶對成本管控系統的訪問行為表現出強陣發性和弱記憶性,相比其他研究的復雜行為中的陣發性值,本系統中個人訪問行為表現出來的陣發性值更大,說明企業信息系統用戶訪問的胖尾更為嚴重。2)冪指數和活躍度存在正相關關系,冪指數會隨著活躍度增加而增加,但是冪指數不會無限增大,大概到1.5左右時會保持穩定,如圖4所示。例如個人訪問量最大的用戶活躍度也最大,每天接近72次訪問管理系統,但是冪指數是1.37。
3.2群組行為分析為了研究群組訪問信息系統的行為,把30位活躍個體用戶按照訪問量的大小遞減排序,把排序后的用戶分為3個群組,每個群組包含10個用戶,群組數據按照對成本管控系統訪問時間的先后順序組成。首先利用冪律分布分析3個群組對成本管控系統訪問行為時間特性,如圖5~圖7所示。雖然3個群組冪律分布的擬合指數較好,但是對3個群組的擬合中沒有考慮頭部的數據,而群組數據由于數據量大且并發嚴重,不能不考慮頭部,從圖5~圖7中也可以看出頭部顯然是偏離冪律分布的。所以,群組用戶訪問信息系統的間隔時間可能不是服從單一的分布。從圖8~圖10可以看出,相比單純的冪律分布,混合分布的擬合指數更優,對3個群組用戶訪問信息系統的行為擬合更加精準。為什么服從冪律分布的個體疊加,為什么會偏離冪律分布?一方面是因為對個體用戶訪問行為頭部數據的忽略,這些忽略偏差的累積導致了群組訪問行為產生了指數因子;另一方面是信息系統員工訪問行為的特性,個體用戶很少會在10秒內大量并發地訪問信息系統,在對個人訪問行為數據統計時發現,雖然有10秒內連續訪問信息系統的情況,但是這包含了一定的誤操作和非規范操作,所以在對個人用戶訪問行為的間隔時間分布擬合時,沒有考慮間隔時間在10秒內的情況,而對于群組的數據則不然,每天對信息系統的訪問交叉在一起,存在大量的并發情況,導致小的間隔時間所占比例增加,從圖中也可以看到小的間隔時間出現概率增大,同時由于每個群組數據只包含了10個個體用戶,數據量相對不是很大,導致10秒內的并發情況近似平緩,正如圖8~圖10中所展示的,體現了一定指數分布的特性。此外,通過對3個群組數據擬合得到的冪律分布函數,對比混合分布所包含的2個冪律部分,可以發現群組1的冪律指數最大,而群組3的冪律指數最小,這是源自用戶活躍程度的不同所造成的,群組1包含的訪問行為數據最多,整體活躍性程度最大,每天的并發訪問情況最大,導致小的間隔時間所占比例大于另外2組,大的間隔時間所占比例則小,從而導致在冪律指數在3組中是最大的。而群組3正好相反,整體的活躍性程度在3個群組中最小,即并發訪問情況相對較輕,小的間隔時間所占比例小,大的間隔時間占的比例大,即體現在冪律指數是3個群組中最小的。
3.3全體行為分析3.1節和3.2節對管理信息系統的個體用戶訪問系統行為規律進行了統計和分析,對分成3個群組的個體用戶進行了群組訪問行為規律的分析,得到了與個體用戶行為不同的群組特性。下面將從數據庫日志文件中獲得的訪問行為數據進行整體研究。研究發現,雖然全體行為的間隔時間分布在超過2個數量級范圍服從冪律分布P(τ)~τ-α,但是實證數據的頭部顯然兼具著指數分布的特性。用指數截斷的冪律分布對數據進行擬合,發現擬合參數中的R2值僅為0.5012,如圖11所示,沒有找到合適的指數截斷的冪率函數形式,所以除了混合形式的分布,用分段形式的分布來表示更好。如圖12所示,頭部的數據用指數分布擬合,中尾部的數據用冪律分布擬合,擬合曲線和實證數據高度吻合。從圖中可以看到,在60秒內的間隔時間服從指數分布,超過60秒后的間隔時間服從冪律分布。由于相對只有10個個體用戶訪問行為數據的群組而言,全體訪問有314位用戶,每個工作日都會有更嚴重的并發訪問信息系統。從圖12中也可以看到,小的間隔時間概率在增大,從而導致對比個體用戶和群組訪問行為的間隔時間,全體訪問行為間隔時間數據的頭部更加的平緩,更加趨向指數分布,從擬合效果也可以看到,60秒內間隔時間用指數分布擬合和實證數據的吻合(R2=0.9991),即全體用戶在60秒內對成本管控系統的訪問服從泊松分布;而隨著間隔時間的增大,分布逐漸偏向冪律分布(R2=0.9899),冪指數是2.2689。對比個人訪問行為,全體訪問行為數據中段部分的冪律分布指數更大,原因是隨著訪問人數的增多,并發訪問變大,小的訪問間隔時間所占比例增大,大的間隔時間所占比例變小,導致冪指數變大;全體用戶的訪問行為的間隔時間在頭部出現較大差異,一方面是由于對個體行為擬合的弱小誤差,另一方面是并發情況的加劇所導致。所以,可以大膽設想,如果系統用戶有無窮多個用戶,日常訪問的并發情況應該更嚴重,可能會導致訪問行為60秒內的間隔時間分布也偏離指數分布,趨向冪律分布。
4結論與討論
通過對信息系統用戶的個體———群組———全體3個層面的實證分析,探討系統用戶訪問行為特征,實證結果表明:1)信息系統用戶行為的統計規律在個體層面上表現出單一的冪律分布,在群組層面具有混合分布的特征,在全體層面卻表現出分段的分布形態,展現了人類行為的高度復雜性和多重標度特性。2)信息系統用戶在個體———群組———全體3個層面都表現出了嚴重的胖尾特征,個體用戶的訪問有很強的陣發性和弱記憶性,冪指數和活躍度存在正相關關系。3)個體———群組———全體3個層面表現出的冪律指數的差異,是由并發訪問情況的差異所決定,并發性越大則小的間隔時間所占比例越大,大間隔時間所占比例則小,冪指數越大。筆者得到和以往學者針對用戶行為研究的不同:信息系統用戶的訪問行為在個體到群組再到全體展現出不同的標度特性,表現出人類行為的高度復雜性,對于用戶行為的規律的研究有更深層次的意義,為了更加深刻地理解人類行為提供一定的理論和實證提供一定的參考價值。同時仍有一些問題值得進一步研究,比如,筆者指出了用戶行為的冪律特征和用戶的并發訪問有深刻的聯系,并發訪問的嚴重程度決定了冪律指數和泊松特征,需要擴展數據量來實證分析;另外分析用戶對信息系統的使用頻度,對各個功能業務模塊訪問的差異性等;同時建立一個信息系統用戶訪問行為的動力學模型來預測用戶行為也是筆者急需解決的問題。
作者:任佳佳 王念新 葛世倫 單位:江蘇科技大學經濟管理學院