時(shí)間:2023-06-18 10:31:04
導(dǎo)語:在數(shù)據(jù)分析方法的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

關(guān)鍵詞:大壩 安全監(jiān)測(cè) 數(shù)據(jù) 分析
中圖分類號(hào):P2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2012)12(b)-0053-02
1 大壩安全監(jiān)測(cè)的意義
大壩所具有的潛在安全問題既是一個(gè)復(fù)雜的技術(shù)問題,也是一個(gè)日益突出的公共安全問題,因此,我國(guó)對(duì)大壩安全越來越重視。隨著壩工理論和技術(shù)的不斷發(fā)展與完善,為了更好地實(shí)現(xiàn)水資源的進(jìn)一步開發(fā)利用,我國(guó)的大壩建設(shè)正向著更高更大方向發(fā)展,如三峽重力壩、小灣拱壩(最大壩高294.5 m)、拉西瓦拱壩(最大壩高250 m)、溪洛渡拱壩(最大壩高285.5 m)等,這些工程的建設(shè)將為我國(guó)的經(jīng)濟(jì)發(fā)展做出巨大貢獻(xiàn),也將推動(dòng)我國(guó)的壩工理論和技術(shù)水平上升到一個(gè)新的高度。但是,這些工程一旦失事,將是不可想象的毀滅性災(zāi)難,因此,大壩安全問題就顯得日益突出和重要。保證大壩安全的措施可分為工程措施和非工程措施兩種,兩者相互依存,缺一不可。
回顧大壩安全監(jiān)測(cè)的發(fā)展歷史,最早可追溯到19世紀(jì)90年代,1891年德國(guó)的挨施巴赫重力壩開展了大壩位移觀測(cè),隨后于1903年美國(guó)新澤西州Boont。n重力壩開展了溫度觀測(cè),1908年澳大利亞新南威爾士州巴倫杰克溪薄拱壩開展了變形觀測(cè),1925年美國(guó)愛達(dá)荷州亞美尼加一佛爾茲壩開展了揚(yáng)壓力觀測(cè),1826年美國(guó)墾務(wù)局在Stevenson一creek試驗(yàn)拱壩上開展了應(yīng)力及應(yīng)變觀測(cè),這是最早開展安全監(jiān)測(cè)的幾個(gè)實(shí)例。我國(guó)從20世紀(jì)50年代開始進(jìn)行安全監(jiān)測(cè)工作,大壩安全監(jiān)測(cè)的作用是逐漸被人們認(rèn)識(shí)的,趙志仁將大壩安全監(jiān)測(cè)的發(fā)展歷程劃分為以下3個(gè)階段。
(1)1891年至1964年,原型觀測(cè)階段,原型觀測(cè)的主要目的是研究大壩設(shè)計(jì)計(jì)算方法,檢驗(yàn)設(shè)計(jì),改進(jìn)壩工理論。(2)1964年至1985年,由原型觀測(cè)向安全監(jiān)測(cè)的過度階段,接連發(fā)生的大壩失事,讓人們逐漸認(rèn)識(shí)到大壩安全的重要性,逐步把保證大壩安全運(yùn)行作為主要目的。(3)1985年至今,安全監(jiān)測(cè)階段,此階段,大壩安全監(jiān)測(cè)已經(jīng)成為人們的共識(shí),隨著監(jiān)測(cè)儀器、監(jiān)測(cè)技術(shù)和資料分析方法的不斷進(jìn)步、發(fā)展與完善,將逐步實(shí)現(xiàn)大壩的安全監(jiān)控。
2 大壩安全監(jiān)測(cè)數(shù)據(jù)分析概述
大壩安全監(jiān)測(cè)取得的大量數(shù)據(jù)為評(píng)價(jià)大壩運(yùn)行狀態(tài)提供了基礎(chǔ),但是,原始觀測(cè)數(shù)據(jù)往往不能直觀清晰地展示大壩性態(tài),需要對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分辨、解析、提煉和概括,從繁多的觀測(cè)資料中找出關(guān)鍵問題,深刻地揭示規(guī)律并作出判斷,這就需要進(jìn)行監(jiān)測(cè)數(shù)據(jù)分析。
2.1 監(jiān)測(cè)數(shù)據(jù)分析的意義
大壩監(jiān)測(cè)數(shù)據(jù)分析可以從原始數(shù)據(jù)中提取包含的信息,為大壩的建設(shè)和運(yùn)行管理提供有價(jià)值的科學(xué)依據(jù)。大量工程實(shí)踐表明:大壩監(jiān)測(cè)數(shù)據(jù)中蘊(yùn)藏了豐富的反映壩體結(jié)構(gòu)性態(tài)的信息,做好觀測(cè)資料分析工作既有工程應(yīng)用價(jià)值又有科學(xué)研究意義。大壩安全監(jiān)測(cè)數(shù)據(jù)分析的意義表現(xiàn)在如下幾方面:(1)原始觀測(cè)數(shù)據(jù)本身既包含著大壩實(shí)際運(yùn)行狀態(tài)的信息,又帶有觀測(cè)誤差及外界隨機(jī)因素所造成的干擾。必須經(jīng)過誤差分析及干擾辨析,才能揭示出真實(shí)的信息。(2)觀測(cè)值是影響壩體狀態(tài)的多種內(nèi)外因素交織在一起的綜合效應(yīng),也必須對(duì)測(cè)值作分解和剖析,將影響因素加以分解,找出主要因素及各個(gè)因素的影響程度。(3)只有將多測(cè)點(diǎn)的多測(cè)次的多種觀測(cè)量放在一起綜合考察,相互補(bǔ)充和驗(yàn)證,才能全面了解測(cè)值在空間分布上和時(shí)間發(fā)展上的相互聯(lián)系,了解大壩的變化過程和發(fā)展趨勢(shì),發(fā)現(xiàn)變動(dòng)特殊的部位和薄弱環(huán)節(jié)。(4)為了對(duì)大壩監(jiān)測(cè)數(shù)據(jù)作出合理的物理解釋,為了預(yù)測(cè)大壩未來的變化趨勢(shì),也都離不開監(jiān)測(cè)數(shù)據(jù)分析工作。因此,大壩監(jiān)測(cè)資料分析是實(shí)現(xiàn)大壩安全監(jiān)測(cè)最終目的的一個(gè)重要環(huán)節(jié)。
2.2 監(jiān)測(cè)數(shù)據(jù)分析的內(nèi)容
監(jiān)測(cè)資料分析的內(nèi)容通常包括:認(rèn)識(shí)規(guī)律、查找問題、預(yù)測(cè)變化、判斷安全。
(1)認(rèn)識(shí)規(guī)律:分析測(cè)值的發(fā)展過程以了解其隨時(shí)間而變化的情況,如周期性、趨勢(shì)、變化類型、發(fā)展速度、變動(dòng)幅度等;分析測(cè)值的空間分布以了解它在不同部位的特點(diǎn)和差異,掌握它的分布特點(diǎn)及代表性測(cè)點(diǎn)的位置;分析測(cè)值的影響因素以了解各種外界條件及內(nèi)部因素對(duì)所測(cè)物理量的作用程度、主次關(guān)系。通過這些分析,掌握壩的運(yùn)行狀況,認(rèn)識(shí)壩的各個(gè)部位上各種測(cè)值的變化規(guī)律。(2)查找問題:對(duì)監(jiān)測(cè)變量在發(fā)展過程和分布關(guān)系上發(fā)現(xiàn)的特殊或突出測(cè)值,聯(lián)系荷載條件及結(jié)構(gòu)因素進(jìn)行考查,了解其是否符合正常變化規(guī)律或是否在正常變化范圍之內(nèi),分析原因,找出問題。(3)預(yù)測(cè)變化:根據(jù)所掌握的規(guī)律,預(yù)測(cè)未來一定條件下測(cè)值的變化范圍或取值;對(duì)于發(fā)現(xiàn)的問題,估計(jì)其發(fā)展趨勢(shì)、變化速度和可能后果。(4)判斷安全:基于對(duì)測(cè)值的分析,判斷過去一段時(shí)期內(nèi)壩的運(yùn)行狀態(tài)是否安全并對(duì)今后可能出現(xiàn)的最不利條件組合下壩的安全作出預(yù)先判斷。
一般來講,大壩監(jiān)測(cè)資料分析可分為正分析和反演分析兩個(gè)方面。正分析是指由實(shí)測(cè)資料建立原型物理觀測(cè)量的數(shù)學(xué)模型,并應(yīng)用這些模型監(jiān)控大壩的運(yùn)行。反演分析是仿效系統(tǒng)識(shí)別的思想,以正分析成果為依據(jù),通過相應(yīng)的理論分析,反求大壩材料的物理力學(xué)參數(shù)和項(xiàng)源(如壩體混凝土溫度、拱壩實(shí)際梁荷載等)。吳中如院士提到通過大壩監(jiān)測(cè)資料分析可以實(shí)現(xiàn)反饋設(shè)計(jì),即“綜合原型觀測(cè)資料正分析和反演分析的成果,通過理論分析計(jì)算或歸納總結(jié),從中尋找某些規(guī)律和信息,及時(shí)反饋到設(shè)計(jì)、施工和運(yùn)行中去,從而達(dá)到優(yōu)化設(shè)計(jì)、施工和運(yùn)行的目的,并補(bǔ)充和完善現(xiàn)行水工設(shè)計(jì)和施工規(guī)范”。綜上所述,大壩監(jiān)測(cè)資料正分析中數(shù)學(xué)模型的研究與應(yīng)用是實(shí)現(xiàn)大壩安全監(jiān)測(cè)及資料分析的目的和意義的基礎(chǔ)與根本。
3 監(jiān)測(cè)數(shù)據(jù)分析方法
大壩安全監(jiān)測(cè)數(shù)據(jù)分析涉及到多學(xué)科交叉的許多方法和理論,目前,常用的大壩監(jiān)測(cè)數(shù)據(jù)分析方法主要有如下幾種:多元回歸分析、時(shí)間序列分析、灰色理論分析、頻譜分析、Kalman濾波法、有限元法、人工神經(jīng)網(wǎng)絡(luò)法、小波分析法、系統(tǒng)論方法等等。(圖1)
3.1 多元回歸分析
多元回歸分析方法是大壩監(jiān)測(cè)數(shù)據(jù)分析中應(yīng)用最為廣泛的方法之一,最常用的方法就是逐步回歸分析方法,基于該方法的回歸統(tǒng)計(jì)模型廣泛應(yīng)用于各類監(jiān)測(cè)變量的分析建模工作。以大壩變形監(jiān)測(cè)的分析為例,取變形(如各種位移值)為因變量(又稱效應(yīng)量),取環(huán)境量(如水壓、溫度等)為自變量(又稱影響因子),根據(jù)數(shù)理統(tǒng)計(jì)理論建立多元線性回歸模型,用逐步回歸分析方法就可以得到效應(yīng)量與環(huán)境量之間的函數(shù)模型,然后就可以進(jìn)行變形的物理解釋和預(yù)報(bào)。由于它是一種統(tǒng)計(jì)分析方法,需要因變量和自變量具有較長(zhǎng)且一致性較好的觀測(cè)值序列。如果回歸模型的環(huán)境變量之間存在多重共線性,可能會(huì)引起回歸模型參數(shù)估計(jì)的不正確;如果觀測(cè)數(shù)據(jù)序列長(zhǎng)度不足且數(shù)據(jù)中所含隨機(jī)噪聲偏大,則可能會(huì)引起回歸模型的過擬合現(xiàn)象,而破壞模型的穩(wěn)健性。
在回歸分析法中,當(dāng)環(huán)境量之間相關(guān)性較大時(shí),可采用主成分分析或嶺回歸分析,為了解決和改善回歸模型中因子多重相關(guān)性和欠擬合問題,則可采用偏回歸模型,該模型具有多元線性回歸、相關(guān)分析和主成分分析的性能,在某些情況下甚至優(yōu)于常用的逐步線性回歸模型,例如王小軍、楊杰、鄧念武等在應(yīng)用偏回歸模型進(jìn)行大壩監(jiān)測(cè)數(shù)據(jù)分析時(shí),還采用遺傳算法進(jìn)行模型的參數(shù)估計(jì),取得了較好的效果。
3.2 時(shí)間序列分析
大壩安全監(jiān)測(cè)過程中,各監(jiān)測(cè)變量的實(shí)測(cè)數(shù)據(jù)自然組成了一個(gè)離散隨機(jī)時(shí)間序列,因此,可以用時(shí)間序列分析理論與方法建立模型。一般認(rèn)為時(shí)間序列分析方法是一種動(dòng)態(tài)數(shù)據(jù)的參數(shù)化時(shí)域分析方法,它通過對(duì)動(dòng)態(tài)數(shù)據(jù)進(jìn)行模型階次和參數(shù)估計(jì)建立相應(yīng)的數(shù)學(xué)模型,以了解這些數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特性,從而對(duì)數(shù)據(jù)變化趨勢(shì)做出判斷和預(yù)測(cè),具有良好的短期預(yù)測(cè)效果。進(jìn)行時(shí)間序列分析時(shí)一般要求數(shù)據(jù)為平穩(wěn)隨機(jī)過程,否則,需要進(jìn)行協(xié)整分析,對(duì)數(shù)據(jù)進(jìn)行差分處理,或者采用誤差修正模型。例如,徐培亮利用時(shí)間序列分析方法,對(duì)大壩變形觀測(cè)資料進(jìn)行分析建模得到一個(gè)AR(2)模型,并對(duì)大壩變形進(jìn)行了預(yù)報(bào),結(jié)果表明具有良好的預(yù)測(cè)精度。涂克楠、張利、鄭簫等也利用時(shí)間序列對(duì)大壩監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析,有效地提高了模型對(duì)實(shí)測(cè)數(shù)據(jù)的擬合能力和預(yù)測(cè)能力。
3.3 灰色理論分析
當(dāng)觀測(cè)數(shù)據(jù)的樣本數(shù)不多時(shí),不能滿足時(shí)間序列分析或者回歸分析模型對(duì)于數(shù)據(jù)長(zhǎng)度的要求,此時(shí),可采用灰色系統(tǒng)理論建模。該理論于20世紀(jì)80年代由鄧聚龍首次提出,該方法通過將原始數(shù)列利用累加生成法變換為生成數(shù)列,從而減弱數(shù)據(jù)序列的隨機(jī)性,增強(qiáng)規(guī)律性。例如,在大壩變形監(jiān)測(cè)數(shù)據(jù)分析時(shí),也可以大壩變形的灰微分方程來提取趨勢(shì)項(xiàng)后建立組合模型。一般時(shí)間序列分析都是針對(duì)單測(cè)點(diǎn)的數(shù)據(jù)序列,如果考慮各測(cè)點(diǎn)之間的相關(guān)性而進(jìn)行多測(cè)點(diǎn)的關(guān)聯(lián)分析,有可能會(huì)取得更好的效果。1991年,熊支榮等人詳述了灰色系統(tǒng)理論在水工觀測(cè)資料分析中的應(yīng)用情況,并對(duì)其應(yīng)用時(shí)的檢驗(yàn)標(biāo)準(zhǔn)等問題進(jìn)行了探討。同年,劉觀標(biāo)利用灰色系統(tǒng)模型對(duì)某重力壩的實(shí)測(cè)應(yīng)力分析證明了灰色模型具有理論合理、嚴(yán)謹(jǐn)、成果精度較高的特點(diǎn)。
3.4 頻譜分析
大壩監(jiān)測(cè)數(shù)據(jù)的處理和分析主要在時(shí)域內(nèi)進(jìn)行,利用Fourier變換將監(jiān)測(cè)數(shù)據(jù)序列由時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)進(jìn)行分析,通過計(jì)算各諧波頻率的振幅,最大振幅所對(duì)應(yīng)的主頻可以揭示監(jiān)測(cè)量的變化周期,這樣,有時(shí)在時(shí)域內(nèi)看不清的數(shù)據(jù)信息在頻域內(nèi)可以很容易看清楚。例如,將測(cè)點(diǎn)的變形量作為輸出,相關(guān)的環(huán)境因子作為輸入,通過估計(jì)相干函數(shù)、頻率響應(yīng)函數(shù)和響應(yīng)譜函數(shù),就可以通過分析輸入輸出之間的相關(guān)性進(jìn)行變形的物理解釋,確定輸入的貢獻(xiàn)和影響變形的主要因子。將大壩監(jiān)測(cè)數(shù)據(jù)由時(shí)域信號(hào)轉(zhuǎn)換到頻域信號(hào)進(jìn)行分析的研究應(yīng)用并不多,主要是由于該方法在應(yīng)用時(shí)要求樣本數(shù)量要足夠多,而且要求數(shù)據(jù)是平穩(wěn)的,系統(tǒng)是線性的,頻譜分析從整個(gè)頻域上對(duì)信號(hào)進(jìn)行考慮,局部化性能差。
參考文獻(xiàn)
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0104-02
1 綜述
1.1 簡(jiǎn)介
在數(shù)字化時(shí)代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺(tái)時(shí),就著手大數(shù)據(jù)治理相關(guān)建設(shè)。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動(dòng)化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺(tái)服務(wù)能力,讓大數(shù)據(jù)平臺(tái)變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時(shí)間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。
2 功能設(shè)計(jì)
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實(shí)現(xiàn)用戶集成處理、、清理、分析的一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺(tái);按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺(tái)與安全管理方案,為企業(yè)級(jí)用戶建立一個(gè)通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級(jí)或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進(jìn)行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺(tái)中采用:Storm或Spark Streaming框架進(jìn)行實(shí)現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時(shí)間間隔處理,Spark抽象一個(gè)持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個(gè)DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個(gè)滑動(dòng)窗口的數(shù)據(jù)進(jìn)行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲(chǔ)周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級(jí)或速度更慢。通常歸檔數(shù)據(jù)的計(jì)算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺(tái)中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進(jìn)行計(jì)算,這里不詳細(xì)闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長(zhǎng)度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。
針對(duì)包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進(jìn)行提取,這項(xiàng)工作目前仍依賴技術(shù)員進(jìn)行操作,由于格式的復(fù)雜性所以難以使用自動(dòng)化方式進(jìn)行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對(duì)數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通??梢赞D(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價(jià)值的主要對(duì)象。
本平臺(tái)中主要使用Hadoop Impala和Spark SQL來進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實(shí)現(xiàn),而非Hadoop的基于Java的Map-Reduce機(jī)制,將性能提高了1-2個(gè)數(shù)量級(jí)。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對(duì)結(jié)構(gòu)化數(shù)據(jù)的簡(jiǎn)便的narrow-waist操作,為高級(jí)的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)。
2.6 準(zhǔn)實(shí)時(shí)數(shù)據(jù)
通常準(zhǔn)實(shí)時(shí)數(shù)據(jù)是指數(shù)據(jù)存儲(chǔ)在平臺(tái)本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計(jì)算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點(diǎn)。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進(jìn)行計(jì)算過程緩沖和優(yōu)化。本平臺(tái)主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來實(shí)現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。
2.7 非實(shí)時(shí)數(shù)據(jù)
非實(shí)時(shí)數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時(shí)效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡(luò)、圖計(jì)算、數(shù)值擬合等。
非實(shí)時(shí)數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)設(shè)計(jì)范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)區(qū),建議使用并行MPP數(shù)據(jù)庫(kù)集群,既具備關(guān)系型數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時(shí)代下,本技術(shù)平臺(tái)采用Hadoop Impala來進(jìn)行實(shí)現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫(kù)的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運(yùn)算得到優(yōu)化。
3 應(yīng)用效果
本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉(cāng)庫(kù)建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲(chǔ)方式,以更高的要求去進(jìn)行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個(gè)方面的實(shí)施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺(tái)為支撐,實(shí)現(xiàn)了數(shù)據(jù)管控在50多個(gè)分支,60個(gè)局,1000余處的全面推廣,實(shí)現(xiàn)了全行的覆蓋;管理了120個(gè)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù),顯著提升了新系統(tǒng)的快速接入能力;通過14個(gè)數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機(jī)制的實(shí)施,使其在數(shù)據(jù)質(zhì)量評(píng)比中名列前茅。
4 結(jié)語
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)的大體設(shè)計(jì)和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個(gè)方面來介紹。文章在最后介紹出了這種平臺(tái)的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。
參考文獻(xiàn)
[關(guān)鍵詞]財(cái)政收入;GDP;面板數(shù)據(jù)
中圖分類號(hào):F01 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-0278(2013)02-024-01
在計(jì)量經(jīng)濟(jì)學(xué)中,我們一般應(yīng)用的最多的數(shù)據(jù)分析是截面數(shù)據(jù)回歸分析和時(shí)間序列分析,但截面數(shù)據(jù)分析和時(shí)間序列分析都有著一定的局限性。在實(shí)際經(jīng)濟(jì)研究當(dāng)中,截面數(shù)據(jù)回歸分析會(huì)遺漏掉數(shù)據(jù)的時(shí)間序列特征,例如在分析某年中國(guó)各省的GDP增長(zhǎng)數(shù)據(jù)時(shí),單純的截面數(shù)據(jù)回歸分析無法找出各省GDP隨時(shí)間變化的特征,使得分析結(jié)果沒有深度。而如果只用時(shí)間序列分析,則會(huì)遺漏掉不同截面間的聯(lián)系與區(qū)別,例如在分析中國(guó)單個(gè)省市的GDP隨時(shí)間增長(zhǎng)的數(shù)據(jù)時(shí),無法找出各個(gè)省市之間經(jīng)濟(jì)增長(zhǎng)的聯(lián)系與區(qū)別,因而同樣無法滿足我們的需要。而面板數(shù)據(jù),是一種既包括了時(shí)間序列數(shù)據(jù),也包括了相關(guān)截面數(shù)據(jù)的復(fù)合數(shù)據(jù),是近年來用得較多的一種數(shù)據(jù)類型。
下面我們將基于2000-2009年中國(guó)各省GDP和財(cái)政收入的面板數(shù)據(jù)的實(shí)例來詳細(xì)闡述面板數(shù)據(jù)的分析方法。
一、GDP與財(cái)政收入關(guān)系的經(jīng)濟(jì)學(xué)模型
財(cái)政收入是保證國(guó)家有效運(yùn)轉(zhuǎn)的經(jīng)濟(jì)基礎(chǔ),在一國(guó)經(jīng)濟(jì)建設(shè)中發(fā)揮著重要作用。隨著中國(guó)經(jīng)濟(jì)發(fā)展速度的日益加快,財(cái)政收入不斷擴(kuò)大,而擴(kuò)大的財(cái)政收入又以政府支出來調(diào)節(jié)和推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展。正確認(rèn)識(shí)財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的長(zhǎng)期關(guān)系,把握財(cái)政收入與經(jīng)濟(jì)增長(zhǎng)之間的相互影響,發(fā)揮財(cái)政收入對(duì)經(jīng)濟(jì)發(fā)展的調(diào)節(jié)和促進(jìn)功能,對(duì)于完善財(cái)稅政策,深化財(cái)稅體制改革,實(shí)現(xiàn)財(cái)政與經(jīng)濟(jì)之間的良性互動(dòng),具有重要的現(xiàn)實(shí)意義。文章就將從中國(guó)各省的面板數(shù)據(jù)出發(fā)研究,中國(guó)不同地域間財(cái)政收入和GDP之間的關(guān)系。
二、實(shí)證分析
(一)單位根檢驗(yàn)
Eviews有兩種單位根檢驗(yàn)方法,一種在相同根的假設(shè)下的檢驗(yàn),包括LLC、Breintung、Hadri。另一種則是在不同根下的假設(shè)前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗(yàn)結(jié)果表明所有檢驗(yàn)都拒絕原假設(shè),因此序列GDP和CZSR均為一個(gè)2階單整序列。
(二)協(xié)整檢驗(yàn)
如果基于單位根檢驗(yàn)的結(jié)果發(fā)現(xiàn)變量之間是同階單整的,那么我們可以進(jìn)行協(xié)整檢驗(yàn)。協(xié)整檢驗(yàn)是考察變量間長(zhǎng)期均衡關(guān)系的方法。所謂的協(xié)整是指若兩個(gè)或多個(gè)非平穩(wěn)的變量序列,其某個(gè)線性組合后的序列呈平穩(wěn)性。此時(shí)我們稱這些變量序列間有協(xié)整關(guān)系存在。
在最終的結(jié)果中,Pedroni方法中除了rho-Statistic、PP-Statistic項(xiàng)目外都拒絕GDP和CZSR不存在協(xié)整關(guān)系的原假設(shè),同樣Kao和Johansen檢驗(yàn)方法也都拒絕原假設(shè),因此,上述檢驗(yàn)結(jié)果表明,我國(guó)各省2000-20009年的GDP和財(cái)政收入面板數(shù)據(jù)間存在著協(xié)整關(guān)系。既然通過了協(xié)整檢驗(yàn),說明變量之間存在著長(zhǎng)期穩(wěn)定的均衡關(guān)系,其方程回歸殘差是平穩(wěn)的,因此可以在此基礎(chǔ)上直接對(duì)進(jìn)行回歸分析,此時(shí)假設(shè)方程的回歸結(jié)果是較精確的。
三、建立模型
混合模型:如果從時(shí)間上看,不同個(gè)體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數(shù)據(jù)混合在一起用普通最小二乘法(OLS)估計(jì)參數(shù)。
我們根據(jù)混合模型的回歸結(jié)果,得到財(cái)政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結(jié)構(gòu)來看,R2的值達(dá)到了0.81,有了比較好的回歸解釋力,同時(shí),GDP的回歸系數(shù)為0.103224,表明各省的財(cái)政收入平均占到了國(guó)民收入的10.3%左右。
變系數(shù)模型:顯然,在中國(guó)各省之間由于處在不同的地區(qū),因而擁有不同的區(qū)位優(yōu)勢(shì),那么各省的發(fā)展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會(huì)導(dǎo)致經(jīng)濟(jì)變量間出現(xiàn)一些關(guān)聯(lián)性的變化,此時(shí)在進(jìn)行模型回歸的時(shí)候,我們就有必要考慮變系數(shù)模型。
在回歸結(jié)果中,R2的值達(dá)到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數(shù)模型回歸結(jié)果中,GDP的回歸系數(shù)大于0.5的只有、青海、寧夏三個(gè)省份,也就是說這三個(gè)省份的財(cái)政收入占到了GDP的50%以上,他們同處于經(jīng)濟(jì)并不是很發(fā)達(dá)的西部地區(qū),由此可以看出,處在經(jīng)濟(jì)發(fā)達(dá)地區(qū)的財(cái)政收入占GDP的比重要低,而不發(fā)達(dá)地區(qū)則要高。
四、結(jié)論
通過以上的分析檢驗(yàn),我們發(fā)現(xiàn)針對(duì)于中國(guó)財(cái)政收入和GDP的面板數(shù)據(jù),我們應(yīng)建立起變系數(shù)模型,并通過模型分析,我們可以得出這樣的結(jié)論,中國(guó)各省間由于存在著地域經(jīng)濟(jì)發(fā)展水平不同、管理水平不同以及國(guó)家的相關(guān)政策等諸多不同,造成了各省之間在財(cái)政收入以及國(guó)民收入上面存在著一定的差異。而回歸結(jié)果也告訴我們,我國(guó)西部地區(qū)的財(cái)政收入占GDP的比例要明顯高于東部地區(qū),地區(qū)發(fā)展落后地區(qū)的財(cái)政收入占GDP的比例也要明顯高于東部地區(qū)。因此,這為我們改善我國(guó)落后地區(qū)的經(jīng)濟(jì)發(fā)展提供了一定的新思路,就是對(duì)一地區(qū)的稅收征收可以適當(dāng)放緩,而將GDP中以前政府占用的部分歸還于民眾和企業(yè),因?yàn)?,按照發(fā)達(dá)地區(qū)的經(jīng)驗(yàn)表明,財(cái)政收入所占比重過高,經(jīng)濟(jì)發(fā)展的活力或者就不會(huì)很高,對(duì)于進(jìn)一步刺激財(cái)政收入的增加也沒有任何幫助。因此,我們應(yīng)該適度降低財(cái)政收入占GDP的比重,從而增加經(jīng)濟(jì)活力,使西部地區(qū)以及落后地區(qū)及早的跟上東部發(fā)達(dá)地區(qū)的發(fā)展步伐,從而消除我國(guó)經(jīng)濟(jì)發(fā)展的地域不平衡。
參考文獻(xiàn):
[1]謝識(shí)予,朱洪鑫.高級(jí)計(jì)量經(jīng)濟(jì)學(xué)[M].復(fù)旦大學(xué)出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開大學(xué)出版社,2004.
一、以認(rèn)知沖突,引發(fā)學(xué)生產(chǎn)生數(shù)據(jù)收集與整理的強(qiáng)烈愿望
學(xué)生每一個(gè)學(xué)習(xí)行為的背后,都是有目的、有價(jià)值、有意義的。簡(jiǎn)言之,學(xué)生自己要真正認(rèn)識(shí)到這種學(xué)習(xí)是有用的,哪怕僅僅是因?yàn)橛腥?、好玩,才能激發(fā)學(xué)生進(jìn)行相關(guān)學(xué)習(xí)的愿望和興趣。對(duì)于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學(xué)生問一個(gè)“為什么”,問題不必明確提出,但一定要把相關(guān)信息告訴學(xué)生,引發(fā)學(xué)生強(qiáng)烈的認(rèn)知沖突,才會(huì)產(chǎn)生進(jìn)行數(shù)據(jù)收集、整理與分析的欲望,才會(huì)使他們認(rèn)識(shí)到學(xué)習(xí)數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。
以二年級(jí)上冊(cè)“統(tǒng)計(jì)”一課的學(xué)習(xí)為例,學(xué)生首次接觸“統(tǒng)計(jì)”的相關(guān)內(nèi)容。在學(xué)生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計(jì)最喜歡的動(dòng)物”,以統(tǒng)計(jì)圖形式呈現(xiàn)出喜歡四種動(dòng)物(小貓、小狗、小兔、烏龜)的學(xué)生的人數(shù),并提供了3道題目,但教材始終沒有告訴學(xué)生,“為什么我要學(xué)習(xí)這個(gè)知識(shí)”、“為什么我要進(jìn)行數(shù)據(jù)分析”。此時(shí),對(duì)這一問題的提出與引導(dǎo)學(xué)生思考,只能由教師在不動(dòng)聲色中完成。所以,教學(xué)時(shí),利用學(xué)生愛吃零食的特點(diǎn),我調(diào)整了教學(xué)思路,首先,我征得學(xué)生同意,打算用班上賣廢品的錢給學(xué)生買糖吃。此舉得到學(xué)生們的一致歡迎;其次,我要求5個(gè)小組長(zhǎng)提前去學(xué)校門口的超市,了解糖塊的種類與價(jià)格,并告知其他同學(xué);再次,我要求班委成員負(fù)責(zé)了解班上每一名同學(xué)的需求并進(jìn)行分類、計(jì)算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費(fèi);再次,將買來的糖帶入教室,上課,進(jìn)行相關(guān)的數(shù)據(jù)整理與分析;最后,完成全部教學(xué)任務(wù)后,吃糖。
當(dāng)我將此想法與實(shí)際的授課過程講給其他老師聽時(shí),有老師笑談“孩子們學(xué)習(xí)的動(dòng)力就是吃糖”。我不否認(rèn)這是學(xué)生們積極參與教學(xué)活動(dòng)的動(dòng)力之一,因?yàn)槭孪任矣懈嬖V學(xué)生全部的活動(dòng)過程與“完不成就不會(huì)有糖吃”的話。但不可否認(rèn)的是,對(duì)于二年級(jí)的學(xué)生來說,為了達(dá)成“每個(gè)同學(xué)都能吃到自己想吃的糖”這一目標(biāo),要在活動(dòng)的每一個(gè)步驟都進(jìn)行相關(guān)數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務(wù)。簡(jiǎn)言之,等于我們告訴學(xué)生,“為什么要進(jìn)行數(shù)據(jù)分析”、“只因?yàn)槲覀冃枰_(dá)成一定的目的”,并且,活動(dòng)的每一步驟的數(shù)據(jù)分析都有學(xué)生親自進(jìn)行,并明確知曉這樣做的原因——當(dāng)然不是教師的程式化的要求,這就使得學(xué)生的數(shù)據(jù)分析工作是主動(dòng)的,各成員之間是相互合作的,既使學(xué)生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強(qiáng)學(xué)生數(shù)據(jù)分析觀念的同時(shí),培養(yǎng)了學(xué)生主動(dòng)學(xué)習(xí)與合作的精神。
二、挖掘數(shù)據(jù)中蘊(yùn)藏的深層信息,體驗(yàn)數(shù)據(jù)分析的應(yīng)用價(jià)值
統(tǒng)計(jì)教學(xué)的一個(gè)重要目標(biāo),是鼓勵(lì)學(xué)生通過分析從統(tǒng)計(jì)圖表中獲取盡可能多的信息,為后續(xù)的某項(xiàng)工作或?qū)W習(xí)做出合理的決策。表現(xiàn)在教材中,數(shù)據(jù)分析觀念的首次引入即是一個(gè)簡(jiǎn)單的“最喜歡的動(dòng)物”的統(tǒng)計(jì)圖,接下來的每一個(gè)問題的答案無不需要從該統(tǒng)計(jì)圖進(jìn)行尋找。這樣的例子,在學(xué)生生活中也是有接觸的。但是,教學(xué)過程中,也存在一個(gè)常見現(xiàn)象,學(xué)生通過統(tǒng)計(jì)圖表獲取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能夠?qū)D表上的數(shù)據(jù)信息進(jìn)行更為深入的整理與分析,挖掘出更多有價(jià)值和有意義的信息來做出合理的決策。
[關(guān)鍵詞]探索性數(shù)據(jù)分析;職工平均工資;匹配變換
[中圖分類號(hào)]G819[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1005-6432(2013)46-0099-02
1引言
探索性數(shù)據(jù)分析方法是一種新型的統(tǒng)計(jì)分析手段,近年來在許多行業(yè)得到了廣泛的應(yīng)用,并取得了明顯成效。其強(qiáng)調(diào)了數(shù)據(jù)本身的價(jià)值,可以更加客觀地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到數(shù)據(jù)的穩(wěn)健耐抗模式,從而發(fā)掘出數(shù)據(jù)的隱藏信息。本文從職工平均工資的實(shí)際數(shù)據(jù)出發(fā),利用探索性數(shù)據(jù)分析中的工具,直觀地探索華東六省職工平均工資的規(guī)律,挖掘數(shù)據(jù)特征和有價(jià)值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業(yè)、事業(yè)、機(jī)關(guān)單位的職工在一定時(shí)期內(nèi)平均每人所得的貨幣工資額。它表明一定時(shí)期職工工資收入的高低程度,是反映職工工資水平的主要指標(biāo)。由于中國(guó)城市眾多,各地經(jīng)濟(jì)發(fā)展水平有較大的差異,生活水平和生活質(zhì)量也各有不同,為了縮小地理差異對(duì)研究數(shù)據(jù)的影響,得到較為準(zhǔn)確和有意義的結(jié)果,這里只選用了2010年華東地區(qū)六個(gè)省的職工平均工資運(yùn)用探索性數(shù)據(jù)分析方法做初步的描述性分析和研究,每個(gè)省選取了9個(gè)大城市。
為了更加簡(jiǎn)單直觀地對(duì)比各個(gè)省市的數(shù)據(jù),我們繪制了箱線圖,如圖1所示。對(duì)華東六省進(jìn)行對(duì)比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個(gè)別城市職工平均工資與同省其他城市相比特別大,其他幾省的數(shù)據(jù)就不存在離群值。對(duì)于四分展布,可以得到大小關(guān)系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對(duì)比各個(gè)省的中位數(shù),可以發(fā)現(xiàn)江蘇省平均職工工資水平最大,江西省最小,從經(jīng)濟(jì)上反映了地區(qū)經(jīng)濟(jì)發(fā)展差異,江蘇緊靠上海,處在華東的中心,交通系統(tǒng)發(fā)達(dá),同時(shí),長(zhǎng)三角江蘇占了大部分,其靠海的地理優(yōu)勢(shì)給它帶來了更多的經(jīng)濟(jì)發(fā)展機(jī)會(huì),導(dǎo)致了職工工資水平中位數(shù)相差如此大。
同時(shí)可以直觀地看出安徽省數(shù)據(jù)對(duì)稱性最好,除了福建省數(shù)據(jù)呈現(xiàn)左偏趨勢(shì)外,其他省都呈現(xiàn)右偏的趨勢(shì),其中江西省的數(shù)據(jù)最為嚴(yán)重,主要是受到了兩個(gè)離群值的影響,為了使其更對(duì)稱,我們運(yùn)用探索性數(shù)據(jù)分析方法中的對(duì)稱變換方法,在經(jīng)過R軟件的計(jì)算后,得到職工平均工資的對(duì)稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對(duì)稱性變換圖
進(jìn)行對(duì)稱性變換后,運(yùn)用R軟件擬合曲線,得到:
由圖3可以看出,在進(jìn)行對(duì)稱匹配變換之后,江西省的兩個(gè)離群值消失了,數(shù)據(jù)變得更加集中,趨勢(shì)也更加易于分析和研究。這樣的數(shù)據(jù)會(huì)給分析帶來便利,更加清晰和直觀地表現(xiàn)出數(shù)據(jù)的本質(zhì)特征。
圖3江西省2010年職工平均工資水平匹配
3結(jié)論
使用探索性數(shù)據(jù)分析技術(shù)具有耐抗性和穩(wěn)健性的特點(diǎn),通過箱線圖可以簡(jiǎn)單直觀地看出數(shù)據(jù)間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數(shù)據(jù)較為分散,同時(shí)數(shù)據(jù)比較對(duì)稱,而江西省的數(shù)據(jù)有著極大的右偏性,在經(jīng)過了對(duì)稱、匹配變換后,仍然與華東地區(qū)其他省的數(shù)據(jù)有較大的差異,可能是由離群值太大造成的。
參考文獻(xiàn):
[1]李世勇,胡建軍,熊燕,等2004年我國(guó)卷煙焦油量的探索性數(shù)據(jù)分析[J].煙草科技,2005(7):8-11
[關(guān)鍵詞] 網(wǎng)間結(jié)算;結(jié)算支出;業(yè)務(wù)短信;短信結(jié)算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 11. 016
[中圖分類號(hào)]F239.1[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673 - 0194(2012)11- 0026- 02
1背景
網(wǎng)間結(jié)算是各運(yùn)營(yíng)商之間永恒的話題。自各運(yùn)營(yíng)商開展全業(yè)務(wù)經(jīng)營(yíng)以來,網(wǎng)間結(jié)算的協(xié)議和收入支出結(jié)構(gòu)都發(fā)生了很大的變化,C網(wǎng)的雙向結(jié)算和規(guī)模的發(fā)展、增值短信業(yè)務(wù)的發(fā)展、固網(wǎng)的逐漸萎縮以及國(guó)家對(duì)TD業(yè)務(wù)結(jié)算上的扶持,網(wǎng)間結(jié)算支出的變化,均值得分析研究。
網(wǎng)間結(jié)算的收入與本網(wǎng)的規(guī)模間接相關(guān),網(wǎng)間結(jié)算的支出與本網(wǎng)的用戶數(shù)量、話務(wù)量以及商品、營(yíng)銷政策直接相關(guān),是公司經(jīng)營(yíng)成本的一部分,也是關(guān)注的重點(diǎn)。
網(wǎng)間結(jié)算的支出與很多環(huán)節(jié)相關(guān),如在設(shè)計(jì)各類套餐、營(yíng)銷政策、增值業(yè)務(wù)包資費(fèi)政策等環(huán)節(jié)時(shí)是否考慮網(wǎng)間結(jié)算的成本、規(guī)避風(fēng)險(xiǎn)保證公司經(jīng)營(yíng)目標(biāo)的實(shí)現(xiàn);在公司經(jīng)營(yíng)分析中是否持續(xù)關(guān)注網(wǎng)間結(jié)算的支出,防范各種異常、突發(fā)的網(wǎng)間結(jié)算損失等。
2分析思路和目標(biāo)
網(wǎng)間結(jié)算支出按業(yè)務(wù)可分為語音、短信兩大類,按通信區(qū)域可分為本地網(wǎng)和長(zhǎng)途業(yè)務(wù)兩大類。語音又可分為固網(wǎng)和移動(dòng)兩類,兩者之下還可繼續(xù)分為本地業(yè)務(wù)和長(zhǎng)途業(yè)務(wù)(省內(nèi)、省際、國(guó)際)。本地業(yè)務(wù)包括普通語音、短號(hào)、智能網(wǎng)、卡類業(yè)務(wù)等,本地普通語音業(yè)務(wù)還要細(xì)分為固話、GSM/WGSM/CDMA、TD三個(gè)小類。短信可大致分為點(diǎn)對(duì)點(diǎn)短信、彩信、業(yè)務(wù)短信等。每一類還要分為收入和支出,劃分如此多的小類是結(jié)算規(guī)則的要求和系統(tǒng)結(jié)算出賬的需要。
我們可以從一個(gè)分公司結(jié)算支出的時(shí)間和業(yè)務(wù)兩個(gè)維度進(jìn)行分析調(diào)查。在分析分公司結(jié)算支出的月度變化趨勢(shì)時(shí),也分析結(jié)算支出的業(yè)務(wù)構(gòu)成。計(jì)算出單個(gè)分公司每個(gè)用戶的平均語音、短信結(jié)算支出,可與其他分公司進(jìn)行比較,還可進(jìn)一步細(xì)化到對(duì)某一類套餐進(jìn)行分析。對(duì)支出占比較大的結(jié)算業(yè)務(wù)要分析其支出的明細(xì)清單,查清是哪些號(hào)碼造成的結(jié)算支出,查清這些號(hào)碼的來源、商品屬性、受理渠道并檢查結(jié)算系統(tǒng)的結(jié)算規(guī)則是否正確配置。
流程如下:
(1)檢查結(jié)算報(bào)表。
(2)分析結(jié)算支出的月度變化。
(3)計(jì)算每個(gè)用戶的平均語音、短信結(jié)算支出。
(4)查找高額結(jié)算用戶。
(5)檢查用戶套餐資費(fèi)、受理渠道信息。
(6)檢查營(yíng)銷或業(yè)務(wù)短信資費(fèi)政策的合理性。
根據(jù)以上思路進(jìn)行調(diào)查分析,我們可以確立重點(diǎn)和發(fā)現(xiàn)疑點(diǎn),做到有的放矢,進(jìn)行深入分析。重點(diǎn)查找是哪些業(yè)務(wù)的結(jié)算支出較高,計(jì)算該業(yè)務(wù)或套餐在結(jié)算收支相抵后帶來的價(jià)值,找出評(píng)價(jià)的標(biāo)準(zhǔn),提出管理建議。
3分析方法
結(jié)算系統(tǒng)每個(gè)月都會(huì)出網(wǎng)間結(jié)算報(bào)表,包括結(jié)算的收入和指標(biāo)。我們可以先從這些數(shù)據(jù)的分析開始。
3.1 分析網(wǎng)間結(jié)算的變化趨勢(shì)
首先分析網(wǎng)間結(jié)算總的變化趨勢(shì),再查看指標(biāo)明細(xì)項(xiàng)的變化趨勢(shì),找出結(jié)算支出變化較大的分公司。
3.2 查找平均結(jié)算金額高出平均水平的營(yíng)銷套餐
我們可以從指標(biāo)中計(jì)算出每個(gè)用戶的平均結(jié)算支出,公式如下:
(1)固話語音平均結(jié)算支出=固網(wǎng)語音(本地、省內(nèi)、省際)網(wǎng)間結(jié)算支出/當(dāng)月過網(wǎng)固網(wǎng)用戶數(shù)。
(2)固話短信平均結(jié)算支出=短信結(jié)算支出/當(dāng)月過網(wǎng)固網(wǎng)用戶數(shù)。移動(dòng)用戶的平均結(jié)算支出計(jì)算與固話類似。
(3)再調(diào)查一些營(yíng)銷方案,計(jì)算其扣除補(bǔ)貼、結(jié)算支出以及傭金后的收入,檢查是否可能有結(jié)算風(fēng)險(xiǎn)。
3.3 檢查業(yè)務(wù)短信的結(jié)算支出
我們分析短信結(jié)算支出的構(gòu)成要分析構(gòu)成是否包含了業(yè)務(wù)短信的結(jié)算支出。
先分析總體情況,再進(jìn)一步統(tǒng)計(jì)檢查結(jié)算清單,找出結(jié)算支出金額、條數(shù)較多的號(hào)碼,可到系統(tǒng)進(jìn)一步查看這些號(hào)碼。
3.4 預(yù)估以后一段時(shí)間內(nèi)的網(wǎng)間結(jié)算支出
經(jīng)過統(tǒng)計(jì)分析發(fā)現(xiàn),單個(gè)過網(wǎng)用戶的平均結(jié)算支出是比較穩(wěn)定的。而業(yè)務(wù)短信基本是采取預(yù)付費(fèi)的形式,因此可以通過業(yè)務(wù)受理情況、分析其他網(wǎng)占比(單個(gè)分公司基本穩(wěn)定)來估算它一段時(shí)間內(nèi)的網(wǎng)間結(jié)算支出。分公司一段時(shí)間的網(wǎng)間結(jié)算支出的模型如下:
分公司一段時(shí)間的網(wǎng)間結(jié)算支出≈固話語音平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+移動(dòng)語音短信平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+短信(不含業(yè)務(wù)短信)平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+預(yù)期消費(fèi)的業(yè)務(wù)短信業(yè)務(wù)受理量/資費(fèi)×他網(wǎng)占比×結(jié)算資費(fèi)。該公式的數(shù)值都可以從報(bào)表和平臺(tái)統(tǒng)計(jì)得到,有一定指導(dǎo)意義。通過這個(gè)公式我們可以預(yù)估一個(gè)分公司一段時(shí)間的網(wǎng)間結(jié)算支出。
4分析結(jié)論和建議
分析發(fā)現(xiàn),要加強(qiáng)對(duì)結(jié)算支出數(shù)據(jù)的分析、監(jiān)控,應(yīng)對(duì)結(jié)算的支出開展預(yù)估,要加強(qiáng)對(duì)業(yè)務(wù)短信的管理,維護(hù)市場(chǎng)秩序,結(jié)算支出的監(jiān)控要實(shí)現(xiàn)自動(dòng)化、智能化。
主要參考文獻(xiàn)
目前,我國(guó)有很多下崗和失業(yè)者,大量的下崗和失業(yè)者事實(shí)上就是我們這個(gè)社會(huì)的被淘汰者,他們已經(jīng)成為被甩到社會(huì)結(jié)構(gòu)之外的一個(gè)群體,且這樣一個(gè)群體的規(guī)模是驚人的。而不斷擴(kuò)大的城鄉(xiāng)差距等等一系列問題也并非只是暫時(shí)現(xiàn)象,一個(gè)斷裂的社會(huì)給我們提出了許多難題。與此同時(shí),在與國(guó)際經(jīng)濟(jì)秩序處于同一平臺(tái)的國(guó)際學(xué)術(shù)研究領(lǐng)域,這種斷裂的現(xiàn)象似乎依舊存在。打個(gè)不恰當(dāng)?shù)谋扔鳎@就好像是在種地,如果說掌握了先進(jìn)的研究方法(工具),也就是掌握了先進(jìn)的生產(chǎn)工具的話,那么,生產(chǎn)工具決定生產(chǎn)力,用鐵鍬和鐮刀,必然不如直接用播種機(jī)高效,每一種平臺(tái)的出現(xiàn)都伴隨著一種工具的誕生,換句話說,以目前的國(guó)際學(xué)術(shù)研究發(fā)展速度而論,我們目前迫切需要的是“生產(chǎn)工具的升級(jí)”。如果還一味停留在用過去那種表面的、書桌式的研究方法,那么,就目前我們掌握的“生產(chǎn)工具”而言,無疑也會(huì)被甩到國(guó)際學(xué)術(shù)研究新秩序的,不能夠繼續(xù)長(zhǎng)跑下去。最終,一種“上行”的學(xué)術(shù)研究發(fā)展體制只能是海市蜃樓。
2舊居住區(qū)更新研究過程中幾種新的分析方法的介紹
舊居住區(qū)更新在社會(huì)、經(jīng)濟(jì)、環(huán)境以及文化等方面所具有的多樣性與特殊性,使其研究過程的復(fù)雜性與矛盾性非同尋常。各個(gè)利益集團(tuán)(政府、開發(fā)商、當(dāng)?shù)鼐用?、?guī)劃師與建筑師等專業(yè)工作者)在強(qiáng)調(diào)其自身利益重要性的同時(shí),也在改造過程中尋找自身“利益最大化”,而專業(yè)研究人員由于自身的專攻方向、興趣所至以及專業(yè)訓(xùn)練等因素導(dǎo)致的差異性,使得對(duì)于舊居住區(qū)更新這一領(lǐng)域的研究往往是多學(xué)科(城市規(guī)劃、城市社會(huì)學(xué)、建筑學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)等)結(jié)合的產(chǎn)物,這也要求我們運(yùn)用多學(xué)科的研究分析方法來幫助我們更好地展開研究。正如我們所熟知的,在建筑與城市規(guī)劃研究領(lǐng)域常用的分析方法有資料法、記述法、比較法、分類法,此處不再贅言。下文將介紹的研究分析方法多是在心理學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、醫(yī)學(xué)、生物科技等領(lǐng)域開發(fā)并廣泛應(yīng)用的一些方法,同時(shí),由于其自身的合理性與實(shí)用性,逐漸也被建筑與規(guī)劃領(lǐng)域吸收借鑒并加以很好的利用與拓展。以下介紹的幾種方法是目前國(guó)外建筑研究領(lǐng)域中常用的幾種分析研究方法,均具有一定的影響力并經(jīng)過大量研究證實(shí)。這些方法之所以能夠被廣泛應(yīng)用,往往是由于對(duì)研究對(duì)象的因果關(guān)系不太明顯,或是研究對(duì)象內(nèi)部機(jī)制的作用關(guān)系復(fù)雜,而又不得不解明其中的相關(guān)關(guān)系。相對(duì)于上文提到過的舊居住區(qū)更新研究過程的復(fù)雜性與矛盾性,這些方法或許會(huì)為其調(diào)查研究提供更好的發(fā)展途徑。最重要的是,計(jì)算機(jī)的介入為這些方法的普及鋪平了道路。1)SD法———語義學(xué)解析法(SemanticDifferential,即語義分化)。SD法是C•E•奧斯顧德1957年作為一種心理測(cè)定的方法而提出的,從字面上講,SD法是指語義學(xué)的解析方法,即運(yùn)用語義學(xué)中“言語”為尺度進(jìn)行心理實(shí)驗(yàn),通過對(duì)各既定尺度的分析,定量地描述研究對(duì)象的構(gòu)造和概念。這本書一經(jīng)出版,SD法便在短短時(shí)間內(nèi)得到了普及。只是,目前SD法在心理學(xué)等相關(guān)領(lǐng)域卻慢慢被忽視了,而在建筑領(lǐng)域、室內(nèi)工程、商品開發(fā)、市場(chǎng)調(diào)查等領(lǐng)域備受青睞。在日本,運(yùn)用SD法研究建筑空間與色彩等課題已經(jīng)發(fā)展到爐火純青的地步。SD法已經(jīng)成為建筑空間環(huán)境相關(guān)量心理評(píng)定的基本方法。由于SD法的介入,使得研究人員對(duì)于建筑空間的評(píng)價(jià)由感性上升到理性,并使得定量分析成為可能。而目前運(yùn)用SD法進(jìn)行實(shí)態(tài)調(diào)查的研究項(xiàng)目在國(guó)內(nèi)建筑研究領(lǐng)域尚處于起步階段。SD法操作要點(diǎn):a.基本程序;b.評(píng)定的尺度;c.被驗(yàn)者;d.評(píng)定實(shí)驗(yàn);e.因子分析;f.因子軸的抽出。莊惟敏先生發(fā)表于《清華大學(xué)學(xué)報(bào)自然科學(xué)版》的“SD法與建筑空間環(huán)境評(píng)價(jià)”一文中對(duì)于SD法做過詳細(xì)介紹,并歸納出操作要點(diǎn),提出了評(píng)價(jià)尺度的設(shè)定原則、評(píng)價(jià)操作的程序、實(shí)態(tài)調(diào)查的多因子變量分析方法以及評(píng)價(jià)結(jié)論的意義??臻g環(huán)境評(píng)價(jià)是建筑學(xué)研究領(lǐng)域的主要內(nèi)容之一,其研究結(jié)果在舊居住區(qū)更新研究中有著重要的學(xué)術(shù)參考價(jià)值。SD法也是現(xiàn)代設(shè)計(jì)方法論中的重要手段和技術(shù)準(zhǔn)備,對(duì)建筑學(xué)傳統(tǒng)的理論體系的變革和發(fā)展有著重要意義。2)模擬法及數(shù)值解析法:以與現(xiàn)實(shí)目標(biāo)相仿的模擬空間作為研究對(duì)象,模擬生態(tài)環(huán)境、進(jìn)行實(shí)驗(yàn)和數(shù)據(jù)分析。3)多元回歸分析。在實(shí)際的研究中,我們常常要研究?jī)蓚€(gè)或兩個(gè)以上變量之間的聯(lián)系,而不只是討論一個(gè)變量的某些孤立的特征。我們常常需要知道一個(gè)變量是如何與其他變量相聯(lián)系的,這就是統(tǒng)計(jì)學(xué)家所說的“回歸”。多元回歸模型在觀察性研究中(非實(shí)驗(yàn)性數(shù)據(jù))有著特別的價(jià)值。舉例來說,例如影響人們對(duì)于舊居住區(qū)更新滿意度的因素可能有年齡、性別、教育程度、居住條件、更新方式、政府管理等等,那么,我們就可以通過回歸分析來判斷這些變量(自變量與應(yīng)變量)之間的相互聯(lián)系。4)KJ法:是從收集到的以及儲(chǔ)存的數(shù)據(jù)庫(kù)中,抽出當(dāng)前對(duì)解決問題有用的東西,將它們之間又相互聯(lián)系的內(nèi)容結(jié)合在一起,進(jìn)行整理、組合的方法。主要用于追蹤人們的思考過程。
關(guān)鍵詞:移動(dòng)通信;WAP網(wǎng)關(guān);用戶數(shù)據(jù)
1概述
目前移動(dòng)通信網(wǎng)絡(luò)飛速發(fā)展,GSM、TD-SCDMA、CDMA2000以及WCDMA各制式無線網(wǎng)絡(luò)基礎(chǔ)設(shè)施升級(jí)換代頻繁、核心網(wǎng)3G無線網(wǎng)絡(luò)與核心網(wǎng)絡(luò)與2G網(wǎng)絡(luò)互相兼容兼容性,各地運(yùn)營(yíng)商根據(jù)實(shí)際需求考慮使用4G、3G與2G三大獨(dú)立的無線、接入、核心網(wǎng)絡(luò)并存的局面。在全網(wǎng)同步引入HSDPA和HSUPA技術(shù)的同時(shí),對(duì)2G核心網(wǎng)中對(duì)原有GPRS/EDGE網(wǎng)絡(luò)升級(jí)改造。利用2G網(wǎng)絡(luò)頻率范圍在890-960MHz的穿透性強(qiáng)的優(yōu)勢(shì),不僅減輕3G、4G基站的運(yùn)維負(fù)擔(dān),還可以彌補(bǔ)4G網(wǎng)絡(luò)的覆蓋盲區(qū)。所以在移動(dòng)通信用戶數(shù)據(jù)采集時(shí)不能不考慮現(xiàn)存2G網(wǎng)絡(luò)的豐富數(shù)據(jù)參考價(jià)值。隨著ISO和安卓系統(tǒng)的智能手機(jī)的大眾化,曾經(jīng)的GPRS技術(shù)里數(shù)據(jù)經(jīng)過WAP網(wǎng)關(guān)的處理逐漸弱化,用戶終端可接入移動(dòng)網(wǎng)絡(luò)經(jīng)過GGSN網(wǎng)關(guān)連接互聯(lián)網(wǎng)并訪問其內(nèi)容,2G網(wǎng)絡(luò)GPRS數(shù)據(jù)業(yè)務(wù)和EDGE技術(shù)與WAP網(wǎng)關(guān)相連。2G時(shí)代,WAP無線協(xié)議互聯(lián)網(wǎng)無直接訪問功能,所以添加WAP網(wǎng)關(guān)是用戶上網(wǎng)。智能手機(jī)之前的Symbian系統(tǒng)處理能力不及PC主機(jī),無論是網(wǎng)速還是現(xiàn)實(shí)視頻、音頻、互動(dòng)性媒體、主題等等都與寬帶互聯(lián)網(wǎng)甚至光纖入戶的PC家用主機(jī)電腦無法匹敵,在2.5G時(shí)代,GSM通信系統(tǒng)中的配套設(shè)備模塊中的WAP網(wǎng)關(guān)只能根據(jù)MS手機(jī)終端的應(yīng)別能力進(jìn)行通信網(wǎng)與互聯(lián)網(wǎng)的交[1]。
2移動(dòng)通信網(wǎng)絡(luò)數(shù)據(jù)
移動(dòng)互聯(lián)網(wǎng)在2G/3G時(shí)代,核心網(wǎng)是兩個(gè)獨(dú)立的域,控制語音相關(guān)的叫電路域(CS域:CircuitSwitch),控制數(shù)據(jù)業(yè)務(wù)相關(guān)的叫分組域(PS域:PacketSwitch)。相應(yīng)的,與語音相關(guān)的控制都放在了電路域,比如上面的語音呼叫建立、返回振鈴、判斷并執(zhí)行呼叫轉(zhuǎn)移,業(yè)務(wù)短信等等。與數(shù)據(jù)相關(guān)的控制則放在了分組域,比如上面的與因特網(wǎng)服務(wù)器(通信網(wǎng)與因特網(wǎng)是兩張網(wǎng))建立數(shù)據(jù)連接、區(qū)分當(dāng)前流量是微信還是微博等等。自2G時(shí)代以來WAP網(wǎng)關(guān)是承載移動(dòng)數(shù)據(jù)業(yè)務(wù)的網(wǎng)元。
2.1用戶數(shù)據(jù)
移動(dòng)通信的空間自由度與互聯(lián)網(wǎng)的內(nèi)容形式豐富結(jié)合處移動(dòng)互聯(lián)網(wǎng)的新品種。目前移動(dòng)通信運(yùn)營(yíng)商3G、4G技術(shù)的發(fā)展以及Wifi覆蓋范圍的擴(kuò)大也使得網(wǎng)速越來越快,用戶體服務(wù)需求驗(yàn)越來越迫切;用戶數(shù)據(jù)分為兩種:一種是用戶注冊(cè)信息將自己的身份識(shí)別與手機(jī)號(hào)碼相關(guān)聯(lián),在信息層面上存入數(shù)據(jù)庫(kù),咋數(shù)據(jù)層面上存入HLR中為通信系統(tǒng)的呼叫、尋址、和計(jì)費(fèi)分配信道等工作提供服務(wù);另一種是指通過無線基站近乎于log日志的形式,使用戶主觀意愿被動(dòng)或不知情的前提下在系統(tǒng)存儲(chǔ)設(shè)備上記錄用戶位置更新,小區(qū)切換,小區(qū)重選等為用戶提供的移動(dòng)通信服務(wù)功能。這類數(shù)據(jù)的產(chǎn)生不由用戶的主觀意愿為選擇,是為了完成一次通信系統(tǒng)用戶漫游的一個(gè)必要手段和環(huán)節(jié),但是在數(shù)據(jù)分析挖掘研究者看來,是有著非常意義的數(shù)據(jù)內(nèi)容,通過數(shù)據(jù)的數(shù)據(jù)清洗:去重、去噪聲、去錯(cuò)誤、插值等異常處理;數(shù)據(jù)集成:統(tǒng)一單位、去掉冗余、選擇感興趣屬性列;數(shù)據(jù)變換:數(shù)值歸一化、離散化處理;數(shù)據(jù)脫敏:去隱私化,截?cái)嗯c加密;數(shù)據(jù)演繹:特征構(gòu)造,根據(jù)原有的一個(gè)或多個(gè)特征創(chuàng)建出新的特征并填充。獲得群體用戶的地理位置特征,在不同時(shí)段的移動(dòng)基站下的人流密度,繪制出人口出行交通時(shí)段的密度可視化圖等等,通過對(duì)用戶數(shù)據(jù)不斷發(fā)掘分析,才能滿足移動(dòng)互聯(lián)網(wǎng)用戶日益增長(zhǎng)的智能化需求。
2.2數(shù)據(jù)分析
在3.5G的LTE網(wǎng)絡(luò)體系架構(gòu)中,WAP/Web網(wǎng)關(guān)處在PGW后與外網(wǎng)互通,功能等同于PDSN,其余接口并沒有什么功能變化。經(jīng)過BTS(基站)、傳輸設(shè)備、BSC\RNC等至PDSN(分組數(shù)據(jù)支持節(jié)點(diǎn)),在2G網(wǎng)絡(luò)中發(fā)至WAP網(wǎng)關(guān)的數(shù)據(jù)分流發(fā)至智能設(shè)備;由設(shè)備開啟用戶TCP連接,解析主機(jī)的URL用戶請(qǐng)求、判斷、處理,經(jīng)過鑒權(quán)處理合法用戶,允許通過防火墻轉(zhuǎn)達(dá)請(qǐng)求接至互聯(lián)網(wǎng)提供鏈路連接分配IP地址提供服務(wù),如果是欠費(fèi)或非法用戶拒絕原服務(wù)請(qǐng)求。從移動(dòng)互聯(lián)網(wǎng)的智能手機(jī)應(yīng)用端的使用業(yè)務(wù)流量角度來分析,用戶通過終端經(jīng)過移動(dòng)互聯(lián)網(wǎng)接入Internet網(wǎng)絡(luò)不同的APP有不同的流量特征,例如連接應(yīng)用程序:電子郵件、即時(shí)通訊、GPS導(dǎo)航、遠(yuǎn)程訪問;商業(yè)應(yīng)用程序:移動(dòng)銀行服務(wù)、股市跟蹤與交易、文件處理及日程規(guī)劃;日常生活類應(yīng)用程序:電子商務(wù)、賬單支付、健康監(jiān)測(cè)、數(shù)字閱讀與社交;娛樂應(yīng)用程序:新聞、游戲、多媒體播放器、照片及視頻編輯器。
3研究方法
3.1數(shù)據(jù)流收集器
部署于SGSN和GGSN之間,并且不僅僅移動(dòng)電話產(chǎn)生的流量會(huì)被記錄,上網(wǎng)卡所產(chǎn)生的流量也會(huì)被記錄。流量記錄中包含了時(shí)間、手機(jī)號(hào)、服務(wù)器IP、數(shù)據(jù)傳輸大小、數(shù)據(jù)類型等信息。本課題根據(jù)這些信息建立了流量權(quán)值圖(簡(jiǎn)稱流量圖)。其中,手機(jī)號(hào)和服務(wù)器IP分別對(duì)應(yīng)流量圖中的不同節(jié)點(diǎn),手機(jī)號(hào)向服務(wù)器IP的數(shù)據(jù)傳輸代表了流量圖的邊,從服務(wù)器-IP到手機(jī)號(hào)是流量圖中對(duì)應(yīng)邊的方向,數(shù)據(jù)傳輸大小代表了流量圖中邊的權(quán)值。通過上述對(duì)應(yīng)方法,為不同類型的流量數(shù)據(jù)建立了各自的流量圖。并在流量圖的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)流量傳輸數(shù)據(jù)進(jìn)行了分析。
3.2技術(shù)路線
SGSN與無線分組控制器之間同過Gb口連接,實(shí)現(xiàn)移動(dòng)數(shù)據(jù)的管理;與歸屬位置寄存器通過Gr口連接,實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)庫(kù)的訪問控制;與GGSN通過Gn口連接,進(jìn)行IP數(shù)據(jù)包的傳輸以及協(xié)議變換。本文通過部署Gb接口(SGSN與BSS之間)的PC端截取數(shù)據(jù)流之后,用網(wǎng)絡(luò)爬蟲軟件對(duì)數(shù)據(jù)進(jìn)行初步的收集。Gb接口是傳遞轉(zhuǎn)達(dá)SGSN和BSC之問的信令和用戶數(shù)據(jù)的功能。用戶通過移動(dòng)終端將請(qǐng)求發(fā)給BTS,再通過基站子系統(tǒng)連接傳輸網(wǎng)絡(luò),Gb接口是終端入網(wǎng)的必經(jīng)接口。本文是從Gb接口攔截移動(dòng)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),并對(duì)數(shù)據(jù)盡情分類,聚類等數(shù)據(jù)挖掘方面的研究[2]。原始數(shù)據(jù)由Gb接口得到,進(jìn)行深層次的分析,不僅能夠?qū)崟r(shí)地了解當(dāng)前的網(wǎng)絡(luò)質(zhì)量,還能發(fā)現(xiàn)移動(dòng)用戶的網(wǎng)絡(luò)行為。以SGSN作為研究對(duì)象,GPRS是GPRS服務(wù)節(jié)點(diǎn)(ServiceGPRSSupportNode)是移動(dòng)通信核心網(wǎng)的重要組成部分,也是分組交換的核心部分。研宄流經(jīng)具體SGSN的網(wǎng)絡(luò)業(yè)務(wù)流量、接入用戶數(shù)以及訪問記錄數(shù)的情況,以此來表征網(wǎng)絡(luò)中具體節(jié)點(diǎn)的業(yè)務(wù)情況[3]。
4結(jié)語
當(dāng)前的三代移動(dòng)通信系統(tǒng)(2G\3G\4G)并存的移動(dòng)互聯(lián)網(wǎng)環(huán)境中,移動(dòng)互聯(lián)網(wǎng)流量中雖然WAP流量不能構(gòu)成主流的移動(dòng)用戶流量的主要組成部分,原有的WAP內(nèi)容正逐漸被WEB內(nèi)容所代替。本文所研究在移動(dòng)互聯(lián)網(wǎng)環(huán)境下,關(guān)于個(gè)人用戶數(shù)據(jù)隱私保護(hù)的數(shù)據(jù)挖掘相關(guān)問題。采取從基礎(chǔ)的移動(dòng)互聯(lián)網(wǎng)機(jī)制下的顯示存在的“混搭”網(wǎng)絡(luò)為數(shù)據(jù)研究出發(fā)點(diǎn),深入分析地研究不同代移動(dòng)通信系統(tǒng)所組成的網(wǎng)絡(luò)中產(chǎn)生的互聯(lián)網(wǎng)用戶數(shù)據(jù)。針對(duì)每個(gè)個(gè)人為基本單位內(nèi)容,采用“理論建模方法論證實(shí)驗(yàn)認(rèn)證”的研究方法。隨著移動(dòng)數(shù)據(jù)接入的蓬勃發(fā)展,WAP網(wǎng)關(guān)面臨著各種問題。但是作為數(shù)據(jù)分析方,需要的是廣而全的數(shù)據(jù),數(shù)據(jù)挖掘用戶行為不是僅僅需要少數(shù)服從多數(shù)的統(tǒng)計(jì),無論是Symbian系統(tǒng)的MS移動(dòng)終端使用GPRS技術(shù)通過WAP網(wǎng)關(guān)訪問WML語言編寫的網(wǎng)站,還是早已去電路域依靠軟交換全網(wǎng)IP化實(shí)現(xiàn)核心網(wǎng)部分的網(wǎng)關(guān)轉(zhuǎn)接傳遞,每一個(gè)bit流量都代表這一個(gè)用戶一個(gè)群體的價(jià)值與意義。所以現(xiàn)網(wǎng)并存的三代移動(dòng)通信系統(tǒng)的數(shù)據(jù)全面采集的多樣性,才能展現(xiàn)其內(nèi)在隱藏的特征,才是正確的得到數(shù)據(jù)揭示真理的第一步。
參考文獻(xiàn)
[1]王璐.移動(dòng)互聯(lián)網(wǎng)用戶行為分析[D].重慶:重慶郵電大學(xué),2013:86.
[2]趙其朋.WAP網(wǎng)關(guān)應(yīng)對(duì)移動(dòng)互聯(lián)網(wǎng)大流量的改造及演進(jìn)[J].廣州:移動(dòng)通信,2014:16.
[關(guān)鍵詞] 單核苷酸多態(tài)性;聚類分析;基因;數(shù)據(jù)挖掘
[中圖分類號(hào)] R181.2+3 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人類的基因組中存在各種形式的變異,其中,單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNPs),即單個(gè)的核苷酸變異所引發(fā)的DNA鏈序列的多態(tài)性,是這些變異中最普遍的形式。根據(jù)數(shù)據(jù)統(tǒng)計(jì),在人類含有不低于30億個(gè)含氮堿基對(duì)數(shù)量的基因組中,SNP出現(xiàn)的概率在1/1000左右[1]。如何利用這些信息,建立數(shù)字模型,探索這些基因與位點(diǎn)和疾病的關(guān)聯(lián),成為了擺在科學(xué)家面前的一個(gè)富有挑戰(zhàn)意義的課題[2]。
科學(xué)家們?cè)陂L(zhǎng)期的研究中,根據(jù)“物以類聚”的原始思想,衍生出了對(duì)復(fù)雜數(shù)據(jù)或者試驗(yàn)對(duì)象等進(jìn)行歸類的一種多元統(tǒng)計(jì)學(xué)分析方法,即現(xiàn)在歸屬于統(tǒng)計(jì)學(xué)分支的聚類分析(cluster analysis),又稱其群分析。這種統(tǒng)計(jì)方法的核心思想從誕生之日起就未更改,即在沒有任何可用來參考的或者依從的規(guī)范下(即先驗(yàn)知識(shí)準(zhǔn)備程度為零),按照被研究對(duì)象或者樣品本身的特點(diǎn)或者性狀,進(jìn)行最大程度合理的分類。通過聚類分析的計(jì)算過程,不僅可以保證在最終所分的類別情況下,同一類別中的對(duì)象或者樣品,能夠具有最大程度的相似性,而且使不同類別中的對(duì)象或者樣品,擁有最大程度的相異性。以大量相似為基礎(chǔ),對(duì)收集數(shù)據(jù)來分類,成為了聚類分析計(jì)算本身的最終目標(biāo)[3]。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析計(jì)算是通過數(shù)據(jù)建模簡(jiǎn)化原有數(shù)據(jù)復(fù)雜程度的一種方法,而從實(shí)際應(yīng)用的角度看,聚類分析計(jì)算亦是數(shù)據(jù)挖掘的主要任務(wù)之一。高維度高通量SNPs數(shù)據(jù)聚類分析,是近現(xiàn)代聚類分析中一個(gè)非?;钴S的領(lǐng)域,同時(shí)也是一個(gè)非常具有挑戰(zhàn)性的工作。
目前用于高維度SNPs數(shù)據(jù)聚類分析的方法有很多種,常用的幾大類有Logistic回歸、潛在類別分析(latent class analysis,LCA)模型、結(jié)構(gòu)方程模型分析(structural equation modeling,SEM)、以決策樹為基礎(chǔ)的分類回歸樹(classification and regression trees,CART)和隨機(jī)森林(random forest,RF)算法的分析[4]、基于貝葉斯網(wǎng)絡(luò)(Bayesian networks,BNs)模型的分析、基于神經(jīng)網(wǎng)絡(luò)(neural networks,NNs)模型的分析和支持向量機(jī)(support vector machine,SVM)的方法等,上述種類的方法各有其適用性,在聚類計(jì)算的效能方面也廣泛存在爭(zhēng)議。本文從以上幾類方法中,遴選出應(yīng)用較廣泛、理論相對(duì)成熟的潛在類別分析、分類回歸樹模型、貝葉斯網(wǎng)絡(luò)潛變量模型、BP神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)5種具體方法進(jìn)行比較,闡述其在SNPs數(shù)據(jù)聚類分析中的意義。
1 潛在類別分析
誕生于20世紀(jì)50年代的LCA方法,其基本原理是通過引入潛變量概念,建立潛在類別模型(latent class model,LCM),在保證維持各個(gè)顯變量的數(shù)據(jù)局部獨(dú)立性的基礎(chǔ)上,力圖用少數(shù)的潛變量與各個(gè)顯變量建立關(guān)系,然后以數(shù)量相對(duì)較小的潛變量進(jìn)行對(duì)象關(guān)系解釋。而爭(zhēng)取利用最少數(shù)量的且關(guān)系上互相排斥的潛變量對(duì)各個(gè)顯變量的概率分布進(jìn)行最大程度的解釋,就是潛在類別分析的基本假設(shè),這種假設(shè)的思想傾向于各種顯變量對(duì)其類別進(jìn)行解釋的潛變量都有反應(yīng)的選擇性[5]。潛在類別分析的統(tǒng)計(jì)原理建立在概率分析的基礎(chǔ)之上。一個(gè)潛在類別模型是由一個(gè)(或多個(gè))潛在變量和多個(gè)外顯變量組成的Bayes網(wǎng)[6]。
完整的LCM分析過程包括數(shù)據(jù)概率變換參數(shù)化、模型參數(shù)估計(jì)與識(shí)別、模型評(píng)價(jià)指標(biāo)選擇、分類結(jié)果解釋等[7-10]。
1.1 概率參數(shù)化
潛在類別概率和條件概率構(gòu)成了潛在類別模型概率參數(shù)化過程中的兩種參數(shù)。假設(shè)某數(shù)據(jù)集含有三個(gè)彼此之間不相互獨(dú)立的外顯變量,以A、B、C表示,而且每一個(gè)顯變量分別具有的水平數(shù)為I、J、K。按照假設(shè),若尋找到合適的潛變量X,則X需滿足一下條件:首先,要求合理解釋A、B、C的關(guān)系;第二,在潛變量的各個(gè)類別之中所有顯變量維持最大的局部獨(dú)立性,則為潛在類別分析,如果潛變量X中含有T個(gè)潛在類別的話,用數(shù)學(xué)模型表達(dá)就為:
在上式中,LCM的組合概率,用πijkABC表示,相應(yīng)的,潛在類別概率,以πtX表示,其意義可以解釋為:在觀察變量處于局部獨(dú)立的條件下,潛變量X在第t個(gè)水平的概率,即從樣本中隨機(jī)選取的觀察對(duì)象屬于潛在類別t的概率。容易證明,各個(gè)潛在類別的概率總和永遠(yuǎn)為100%即1,用公式表達(dá)為:
條件概率,用πitAX表示,其意義可以解釋成:外顯變量A的第i個(gè)水平更傾向于劃歸到第t個(gè)潛在類別的個(gè)體的概率。由于各個(gè)潛變量的各個(gè)水平處于相互獨(dú)立的狀態(tài),所以各外顯變量的條件概率總和為1,即:
1.2 參數(shù)估計(jì)與模型擬合
在潛在類別模型的參數(shù)估計(jì)過程中,最大似然法(maximum likelihood,ML)是被最廣泛使用且計(jì)算軟件中默認(rèn)的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在計(jì)算迭代過程中為最常用的方法,而其中前者更為常用。在潛在類別模型評(píng)價(jià)方面,AIC評(píng)分(akaike informationcriterion)和BIC評(píng)分(bayesian information criterion)成為使用最為廣泛的擬合評(píng)價(jià)指標(biāo)。兩者共同點(diǎn)為:其計(jì)算理論基礎(chǔ)都為似然比χ2檢驗(yàn),對(duì)于模型對(duì)應(yīng)的參數(shù)限制不一致的情況下,也可以用來橫向比較,且結(jié)果簡(jiǎn)單直觀,都是數(shù)值越小表示模型擬合越好。Lin與Dayton曾經(jīng)指出,當(dāng)研究的樣本數(shù)量級(jí)達(dá)到或者超過千位級(jí)時(shí),BIC指標(biāo)更可靠,否則AIC更佳[11]。
1.3 潛在分類
完成最優(yōu)化模型的確定之后,就可以利用模型進(jìn)行計(jì)算,將每個(gè)外顯變量的數(shù)據(jù)值分配到判定的潛在類別之中,通過這個(gè)過程,完成數(shù)據(jù)的后驗(yàn)類別分析,即潛在聚類分析。上述分類的理論依據(jù)是著名的貝葉斯理論,分類的計(jì)算公式為:
潛在類別分析雖然理論建立時(shí)間較早,但是一直依靠著自身的優(yōu)勢(shì)在聚類分析領(lǐng)域有一席之地,其計(jì)算思想中融合了結(jié)構(gòu)方程模型與對(duì)數(shù)線性模型的構(gòu)思。該算法的目的明確,即數(shù)量眾多的顯變量之間的關(guān)系,可以用最優(yōu)化的組合模式,使用最少的潛變量來解釋。結(jié)構(gòu)方程模型只能夠?qū)B續(xù)型潛變量處理的缺陷,在潛在類別模型問世后得到了相當(dāng)程度的彌補(bǔ),特別在設(shè)計(jì)思想范圍中,使得研究者以概率論為基礎(chǔ),能夠通過數(shù)據(jù)對(duì)分類結(jié)果之后所隱藏的因素做更為深刻的了解,這些都要?dú)w功于分類潛變量的引入這一有效提高分類效果的方法[12]。
但是,由于該方法的分析原理比較簡(jiǎn)單,只是脫胎于貝葉斯概率理論的概率參數(shù)化,所以使得該方法在聚類分析過程中,如果SNPS數(shù)量較少,則表現(xiàn)出不錯(cuò)的聚類效果,但如果SNPS數(shù)據(jù)維度過高,則有失水準(zhǔn)。具體表現(xiàn)在高維度高通量的SNPS數(shù)據(jù)聚類分析過程異常復(fù)雜,時(shí)間消耗過長(zhǎng),而最終得到的聚類結(jié)果也容易在解釋時(shí)發(fā)生阻礙。
2 分類回歸樹模型
CART[13]不僅可以在已經(jīng)獲得的數(shù)據(jù)庫(kù)中通過一定的規(guī)則提煉出關(guān)聯(lián),而且是對(duì)隱藏在各種指標(biāo)中的分類屬性進(jìn)行量化計(jì)算成為可能,其作為數(shù)據(jù)挖掘技術(shù)中的經(jīng)典聚類分析方法,為高通量SNPs數(shù)據(jù)的聚類分析制造了一個(gè)科學(xué)而準(zhǔn)確的平臺(tái)。分類回歸樹的基本原理為:如果對(duì)于已經(jīng)給定的待分類對(duì)象X,已知其可以進(jìn)行Y個(gè)不同屬性的分類,那么該模型將模擬把X逐級(jí)遞歸的分解為多個(gè)數(shù)據(jù)子集,并且認(rèn)為Y在子集上的分布狀態(tài),是均勻并且連續(xù)的,而分解的方法為二叉樹分類法。該方法如同自然界中的樹木一樣,數(shù)據(jù)集X由根部向葉部逐步分解移動(dòng),每一個(gè)劃分點(diǎn)即樹木分叉點(diǎn)的原因,由分支規(guī)則(splitting rules)確定,最終端的葉子表示劃分出的最終區(qū)域,而且每一個(gè)預(yù)測(cè)樣本,只能被分類到唯一的一個(gè)葉子,同時(shí)Y在該點(diǎn)的分布概率也被確定下來。CART的學(xué)習(xí)樣本集結(jié)構(gòu)如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以稱之為屬性變量,Y可以稱之為標(biāo)簽變量。但在樣本集中無論是X或是Y,其變量屬性可以容許多種形式,有序變量和離散型變量都可以存在。若Y處于有序變量的數(shù)值情況時(shí),模型被稱為回歸樹;若情況相反,稱之為分類樹。
2.1 分類回歸樹的構(gòu)建
將給定的數(shù)據(jù)集L轉(zhuǎn)化成與其對(duì)應(yīng)的最大二叉樹,這個(gè)過程稱之為構(gòu)建樹Tmax[14]。為了尋找到對(duì)應(yīng)數(shù)據(jù)集的最優(yōu)分支方法,最大雜度削減算法被運(yùn)用到構(gòu)建過程之中。在進(jìn)行分支時(shí),數(shù)據(jù)中每個(gè)值都要納入計(jì)算范圍,只有這樣才能計(jì)算出最佳的分支點(diǎn)進(jìn)行分叉。CART的構(gòu)建離不開Gini系數(shù)的使用。若數(shù)據(jù)集L中,含有記錄的類別數(shù)量為N,Gini系數(shù)的表達(dá)式就為:
其中,Pj表示T中第N個(gè)分類數(shù)據(jù)的劃分頻率。對(duì)于任意的劃分點(diǎn)T,如果該點(diǎn)中所包含的樣本量非常集中,那么該點(diǎn)的Gini(T)值越小,從分類圖上顯示為該節(jié)點(diǎn)分叉角度越鈍。欲構(gòu)建最終的Tmax,就要重復(fù)操作,將根節(jié)點(diǎn)分支為子節(jié)點(diǎn),而這種遞歸分類的計(jì)算,最好利用統(tǒng)籌學(xué)中的貪心算法。
2.2 樹的修剪
當(dāng)Tmax建造好之后,下一步需要對(duì)其進(jìn)行所謂的修剪操作,就是去掉那些可能對(duì)未知的樣本分類計(jì)算精度上,沒有任何幫助的部分,其目標(biāo)是處理掉對(duì)給定數(shù)據(jù)集中的噪音干擾的問題,以便形成最簡(jiǎn)單最容易理解的樹。通常對(duì)樹進(jìn)行修剪的方法是以下兩種,先剪枝方法(prepruning)與后剪枝(postpruning)方法,兩者都有助于提高已經(jīng)建成的樹,脫離開訓(xùn)練數(shù)據(jù)集后,能夠正確地對(duì)未知數(shù)據(jù)進(jìn)行分類的能力,而修剪方法都是通過統(tǒng)計(jì)計(jì)算,將理論上最不可信的分枝去掉。
2.3 決策樹評(píng)估
測(cè)試樣本評(píng)估法(test sample estimates)與交叉驗(yàn)證評(píng)估法(cross-validation estimates)[15]是通常被用來對(duì)CART模型進(jìn)行評(píng)估的方法,而前者的使用率更高。該評(píng)估方法的原理與多因子降維法有些類似,而且即時(shí)效率比較高,在學(xué)習(xí)數(shù)據(jù)集囊括的樣本量比較大的情況下,該方法的優(yōu)越性就更加突出,其原理可以解釋為:將原始的數(shù)據(jù)集L隨機(jī)分成兩部分,分別為測(cè)試集L2與樣本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,將測(cè)試集L2放到序列中的樹模型之中,TK為L(zhǎng)2中的每個(gè)樣本逐個(gè)分配類別,因?yàn)長(zhǎng)2中每個(gè)樣本的原始分類是事先已經(jīng)知道的,則樹TK在L2上的誤分情況可以利用公式(6)計(jì)算:
式中,Nij(2)代表L2中j類樣本劃歸至i類的數(shù)量,c(i|j)為把j類誤分到i類的代價(jià),Rts(TK)表示TK針對(duì)L2的誤分代價(jià),則最優(yōu)化樹的條件為:Rts(TK0)=minK(Rts (TK)。
作為一種經(jīng)典的通過數(shù)據(jù)集進(jìn)行訓(xùn)練并有監(jiān)督學(xué)習(xí)的多元分類統(tǒng)計(jì)模型,CART以二元分叉樹的形式給出所構(gòu)建出的分類的形式,這種方式非常容易解釋,也非常容易被研究者理解和運(yùn)用,并且這種方法與傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)聚類分析的方法構(gòu)建完全不一樣[16]。
但是CART方法對(duì)主效應(yīng)的依賴程度很高,無論是每個(gè)分支的根節(jié)點(diǎn)還是后續(xù)內(nèi)部的子節(jié)點(diǎn),其預(yù)測(cè)因子都是在主效應(yīng)的驅(qū)動(dòng)下進(jìn)行,并且每個(gè)節(jié)點(diǎn)都依賴于上一級(jí)的母節(jié)點(diǎn)分支的情況。而且CART方法對(duì)結(jié)果預(yù)測(cè)的穩(wěn)定性上也有缺陷,具體表現(xiàn)在,如果所給數(shù)據(jù)集中的樣本有小范圍的更改,那么所產(chǎn)生的蝴蝶效應(yīng)就會(huì)導(dǎo)致最終所構(gòu)建的模型與原始模型的差別很大,當(dāng)然分類結(jié)果也就難以一致。
3 貝葉斯網(wǎng)絡(luò)潛變量模型
BNs是一種概率網(wǎng)絡(luò),它用圖形的形式來對(duì)各種變量間的依賴概率聯(lián)系做描述,經(jīng)典的圖形中,每一個(gè)隨機(jī)變量利用節(jié)點(diǎn)的方式表達(dá),而變量之間的概率依存關(guān)系則利用直線表達(dá),直線的粗細(xì)表示依賴的強(qiáng)度。在BNs中,任何數(shù)據(jù),當(dāng)然也可以是高通量SNPs數(shù)據(jù),都能夠成為被分析的變量。BNs這種分析工具的提出,其原始動(dòng)力是為了分析不完整性和概率性的事件,它可以從表達(dá)不是很精準(zhǔn)的數(shù)據(jù)或信息中推理出概率結(jié)果。
網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和條件概率分布作為構(gòu)成BNs的兩大核心組件,如果再將潛變量概念引入BNs,則成為了BNs潛變量模型。被包含在BNs中的潛變量數(shù)量,決定著這個(gè)模型的復(fù)雜程度,因?yàn)橐话銇碇v,在實(shí)際工作中,研究者常常利用潛變量來進(jìn)行聚類計(jì)算,所以BNs潛變量模型也成為了一個(gè)經(jīng)典的潛結(jié)構(gòu)模型(latent structure model)或潛類模型(latent class model)。
3.1 模型參數(shù)
在滿足一定的假定條件下,才能對(duì)BNs模型進(jìn)行參數(shù)學(xué)習(xí)的過程。根據(jù)文獻(xiàn)記載,這些條件分別為:所有的樣本處于獨(dú)立狀態(tài);無論全局和局部,均處于獨(dú)立狀態(tài);變量不能為連續(xù)變量,只能是分類變量。在上述條件得到滿足的情況下,該模型可以利用數(shù)據(jù),計(jì)算出網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中各個(gè)節(jié)點(diǎn)的條件概率θ,且服務(wù)于制訂的BNs模型結(jié)構(gòu)η和數(shù)據(jù)集D。計(jì)算的方法有最大似然估計(jì)法等[17]。
3.2 模型選擇
與LCA方法類似,BNs模型也利用函數(shù)來對(duì)模型的擬合優(yōu)劣程度進(jìn)行評(píng)價(jià),衡量標(biāo)準(zhǔn)也是BIC、AIC、BICe等的評(píng)分,一般來說,分?jǐn)?shù)低的模型更加優(yōu)化。
3.3 模型優(yōu)化
在通過評(píng)分的方法來確定BNs潛變量模型后(需綜合考量BIC、AIC、BICe三者的得分),該模型下一步就轉(zhuǎn)化成了如何去搜索符合所給數(shù)據(jù)集的最優(yōu)模型的過程。由于該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),使得該模型結(jié)構(gòu)的數(shù)目的增長(zhǎng)速度非??欤c納入模型的變量數(shù)的增長(zhǎng)呈指數(shù)級(jí)別比例,能夠適應(yīng)這種數(shù)量級(jí)的搜索算法是啟發(fā)式的,其過程是比較不同的模型的評(píng)分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型進(jìn)行高通量SNPs數(shù)據(jù)聚類,其優(yōu)點(diǎn)之一就是在該模型中,所有遺傳的模式都可以被忽略,無論是對(duì)SNPs的二分類變異賦值,還是三分類變異賦值,只要納入模型中,就轉(zhuǎn)變成純粹的數(shù)學(xué)問題。正是由于這種優(yōu)勢(shì)的存在,使得該方法對(duì)原始數(shù)據(jù)的類型容許程度很高,由此擴(kuò)展了此種模型的使用范圍。BNs模型計(jì)算的過程雖然復(fù)雜,但是結(jié)果解讀起來卻是十分的簡(jiǎn)單直觀。只要將各個(gè)類別的概率直方圖呈現(xiàn)出來,那所有重要的且有意義的高維度SNPs的整體效應(yīng),就能直觀的展現(xiàn)出來。BNs模型一旦被建立起來,就可以被用來對(duì)新納入的患者進(jìn)行分類,其過程如下:輸入新加入樣本的SNPs的狀況,并且將這些狀況進(jìn)行數(shù)學(xué)化處理即賦予其數(shù)據(jù)值,并帶入模型開始運(yùn)行。模型會(huì)通過新加入樣本的SNPs的狀況,根據(jù)概率理論,將其歸入相應(yīng)類別。
但是BNs模型的理論比較抽象,公式比較復(fù)雜,如果讓醫(yī)學(xué)工作者去理解其中的數(shù)學(xué)機(jī)制,可能不太現(xiàn)實(shí),若再要求對(duì)模型進(jìn)行深刻解釋,則更困難。該模型在優(yōu)化過程中的搜索算法也有硬傷,爬山算法從出現(xiàn)開始,就一直受到一定程度的詬病,因?yàn)槠溆惺鼓P推x到局部最優(yōu)的傾向。
4 BP神經(jīng)網(wǎng)絡(luò)模型
BP(back propagation)神經(jīng)網(wǎng)絡(luò)在所有的神經(jīng)網(wǎng)絡(luò)模型系列中,是被使用最多的模型之一,其核心原理為按照誤差逆?zhèn)鞑ニ惴?,?duì)所給數(shù)據(jù)集進(jìn)行多層的正向的反饋擬合,而這些層則包括輸入層(input layer)、隱層(hide layer) 和輸出層(output layer)。
BP神經(jīng)網(wǎng)絡(luò)模型對(duì)于已經(jīng)給定的數(shù)據(jù)集的訓(xùn)練過程可以解釋為:各種數(shù)據(jù)由輸入層負(fù)責(zé)接收,并且向內(nèi)層進(jìn)行傳遞,傳遞過程中需經(jīng)過一定的中間層級(jí),信息在隱層部分進(jìn)行計(jì)算處理,處理完畢后向輸出層傳遞,輸出層的神經(jīng)元接收到后,即完成了一次完整的訓(xùn)練信息的傳播,其結(jié)果由輸出層向外面釋放。如果輸出的結(jié)果與期望值差距沒有達(dá)到要求,則進(jìn)入信息的反方向運(yùn)動(dòng)過程,將誤差信息通過輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過程中,為了使整個(gè)BP神經(jīng)網(wǎng)絡(luò)模型的誤差的平方和達(dá)到最小,就需要對(duì)各個(gè)層級(jí)的權(quán)重和反應(yīng)閾進(jìn)行相應(yīng)調(diào)整,在一定次數(shù)的迭代過程中達(dá)到符合設(shè)定的要求范圍內(nèi)[19]。
BP神經(jīng)網(wǎng)絡(luò)模型建立流程:①建立高通量SNPs足夠而可靠的數(shù)據(jù)信息樣本數(shù)據(jù)庫(kù)。②把SNPs樣本數(shù)據(jù)進(jìn)行處理,變成BP神經(jīng)網(wǎng)絡(luò)模型可以納入的形式。③建造BP神經(jīng)網(wǎng)絡(luò)初級(jí)雛形,進(jìn)行數(shù)據(jù)訓(xùn)練。首先確定神經(jīng)網(wǎng)絡(luò)所需層的數(shù)量,還有隱藏節(jié)點(diǎn)的數(shù)量,接下來完成各連接權(quán)值的初始化過程,將樣本數(shù)據(jù)代入。④開始BP神經(jīng)網(wǎng)絡(luò)的迭代過程,按照誤差逆?zhèn)鞑ニ惴?,?duì)所給數(shù)據(jù)集進(jìn)行多層的正向的反饋擬合,最終確定各個(gè)層的權(quán)重。⑤利用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)測(cè)試樣本。將樣本輸入訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò),并輸出結(jié)果[20]。
非線性問題的解決能力是BP神經(jīng)網(wǎng)絡(luò)模型區(qū)別于其他的能夠自我學(xué)習(xí)、自我訓(xùn)練的模型的特點(diǎn)之一,該模型以簡(jiǎn)單的結(jié)構(gòu)模仿神經(jīng)組織的構(gòu)成和信號(hào)傳導(dǎo)通路,根據(jù)提供的數(shù)據(jù)進(jìn)行學(xué)習(xí)和自適應(yīng),最后可以對(duì)復(fù)雜的問題求解[21]。該模型的運(yùn)行模式也很簡(jiǎn)單,一旦模型建立,則直接將數(shù)據(jù)帶入,BP神經(jīng)網(wǎng)絡(luò)就可以對(duì)諸多影響因素和結(jié)果之間的復(fù)雜關(guān)系進(jìn)行統(tǒng)計(jì),超越傳統(tǒng)聚類模型,也有能力提供更多的信息量[22]。
但是BP神經(jīng)網(wǎng)絡(luò)模型的缺陷也十分明顯,首先該種聚類方法迭代次數(shù)比較多,計(jì)算收斂的速度比較慢;標(biāo)準(zhǔn)的BP神經(jīng)網(wǎng)絡(luò)算法各個(gè)層的權(quán)重值的確定是完全隨機(jī)性的,容易形成局部最優(yōu)化;在模型建立的初始階段,各個(gè)節(jié)點(diǎn)的確定也沒有確鑿的理論支持[23]。
5 支持向量機(jī)
1995年Comes等[24]提出了一種新型機(jī)器學(xué)習(xí)方法,該方法的數(shù)學(xué)理論基礎(chǔ)雄厚,被稱之為SVM。這種方法問世之后,就以其在小樣本、高維度數(shù)據(jù)方面處理的獨(dú)特優(yōu)勢(shì),被迅速推廣到數(shù)據(jù)聚類分析領(lǐng)域的各個(gè)方面[25]。SVM的基本原理如下:利用非線性映射的方法φ(x):RnH,將待聚類數(shù)據(jù)集首先映射到高維空間H中,試圖在高維空間中尋找最優(yōu)化的一個(gè)超平面,此超平面的作用為對(duì)數(shù)據(jù)進(jìn)行分類。達(dá)到最優(yōu)超平面的要求為:對(duì)于數(shù)據(jù)來說,要求分類的間隔最大而且置信區(qū)間最窄;達(dá)到最少的數(shù)據(jù)樣本錯(cuò)分?jǐn)?shù)量,以上兩條的原則為分類風(fēng)險(xiǎn)最低。
SVM的計(jì)算流程為:
在高維空間中,如果被映射數(shù)據(jù)具有二維線性且可分時(shí),則一定存在一個(gè)分類超平面:
其中αi≥0稱為拉格朗日系數(shù),該函數(shù)對(duì)?X和b最小化,對(duì)αi最大化。將該問題轉(zhuǎn)化為其對(duì)偶形式,求得最優(yōu)分類函數(shù)為:
其中,K(x,xi) =φ(xi)?φ(xj)被稱之為核函數(shù),其作用是將原始數(shù)據(jù)集映射到高維H空間。而核函數(shù)有很多種形式,多項(xiàng)式形式、徑向基形式等等。但是如果原始數(shù)據(jù)集經(jīng)過轉(zhuǎn)換后,確實(shí)為線性不可分時(shí),方法會(huì)不可避免的產(chǎn)生錯(cuò)分點(diǎn),此時(shí)非負(fù)松弛變量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并為:
在上述條件下,求下式目標(biāo)函數(shù)的最小值:
在式(13)中,用C來作為懲罰因子,對(duì)錯(cuò)分點(diǎn)來進(jìn)行一定程度的懲罰,當(dāng)然是人工定義的,其主要作用是在限制數(shù)據(jù)集偏差和該方法的推廣范圍兩者間,維持一個(gè)平衡。
SVM模型作為一種經(jīng)典的處理小樣本的自我學(xué)習(xí)、自我組織的分類方法,雖然其基礎(chǔ)理論依然與神經(jīng)網(wǎng)絡(luò)模型類似,均為通過對(duì)給定樣本的統(tǒng)計(jì)學(xué)習(xí),建造模型,而且對(duì)非線性數(shù)據(jù)的處理能力很強(qiáng),但是很大程度上避免了陷入局部最優(yōu)化,維度過高限制,擬合過度等缺陷,擁有更廣闊的發(fā)展空間[26]。雖然該方法出現(xiàn)時(shí)間比較晚,但是研究者已經(jīng)在包括預(yù)測(cè)人口狀況[27]、嬰兒死亡率前瞻[28]、金融產(chǎn)業(yè)[29]和工業(yè)產(chǎn)業(yè)[30]前景推斷等方面進(jìn)行了有效使用,當(dāng)然也包括在高通量SNPs數(shù)據(jù)聚類,均取得了不錯(cuò)的效果。
但是SVM一樣存在短處,由于其分類過程是基于對(duì)原始數(shù)據(jù)集的再次規(guī)劃來尋找超平面,而再次規(guī)劃的計(jì)算就有n階矩陣(n為樣本個(gè)數(shù)),如果n的數(shù)量很大,則電腦的內(nèi)存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對(duì)數(shù)據(jù)集進(jìn)行二分類計(jì)算,有一定的局限性,由于在實(shí)際工作中,很多情況下分類數(shù)量要大于二,為了解決這個(gè)問題,只能去在其他方面想相應(yīng)的解決方法。
6 討論
不僅上述5種具體方法,而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優(yōu)缺點(diǎn),研究者們已經(jīng)針對(duì)上述幾類聚類方法的缺陷進(jìn)行了深入的研究,并提出了許多改進(jìn)方法,提高了在高通量SNPs數(shù)據(jù)聚類分析時(shí)的計(jì)算效能。董國(guó)君等[31]提出了將仿生學(xué)算法中的退火算法引入到神經(jīng)網(wǎng)絡(luò)模型中,能夠有效地避免該模型收斂到局部最優(yōu)的狀態(tài)。胡潔等[32]更是經(jīng)過改進(jìn),建造了一種能夠快速收斂而且全局最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型算法,將BP神經(jīng)網(wǎng)絡(luò)的計(jì)算效率大為提高。而Leo Breiman在2001年提出的隨機(jī)森林(random forest)算法,本質(zhì)上就是對(duì)分類回歸樹算法的一種組合改進(jìn),其計(jì)算原理為:利用多個(gè)樹的模型對(duì)數(shù)據(jù)進(jìn)行判別與分類,其在對(duì)數(shù)據(jù)進(jìn)行處理的同時(shí),還可以給出各個(gè)變量的重要性得分,評(píng)估變量在分類中所起的作用[33]。2012年提出了混合潛變量模型(structural equation mixture modeling,SEMM),本質(zhì)上是一種結(jié)構(gòu)方程模型衍生出的改進(jìn)版,其設(shè)計(jì)思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素,將潛變量分析與結(jié)構(gòu)方程進(jìn)行協(xié)調(diào)組合,創(chuàng)造出的一種新型SNPs分析方法。這種新的方法,將結(jié)構(gòu)方程的缺點(diǎn)――只能分析連續(xù)潛變量和潛在類別分析的缺點(diǎn)――只能分析分類潛變量,進(jìn)行有效的補(bǔ)充,而且把一種全新的探索式的思路引入了高維數(shù)據(jù)分析的領(lǐng)域。在實(shí)際進(jìn)行聚類分析時(shí),也可以將幾種方法結(jié)合使用,分別在計(jì)算的不同階段利用效能最高的方法,做到優(yōu)勢(shì)互補(bǔ)?,F(xiàn)已經(jīng)出現(xiàn)基于神經(jīng)網(wǎng)絡(luò)算法和蟻群算法進(jìn)行結(jié)合使用的報(bào)道。
盡管用于高通量SNPs數(shù)據(jù)聚類分析的方法有多種,但目前沒有任何一種方法可以適用于所有的情況。因此,研究者們依舊沒有停下尋找更為合適的方法的腳步。不可否認(rèn),在基因組相關(guān)研究中,SNPs數(shù)據(jù)的分析對(duì)于研究復(fù)雜性疾病和遺傳因素的聯(lián)系是一項(xiàng)挑戰(zhàn),但也是機(jī)遇。如果能正確合理地運(yùn)用各種復(fù)雜的統(tǒng)計(jì)學(xué)方法,就可以提高聚類分析的效能,提示研究者們未來應(yīng)在尋找更適用的高通量SNPs數(shù)據(jù)聚類分析方法方面付出更多努力。
[參考文獻(xiàn)]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 馬靖,張韶凱,張巖波.基于貝葉斯網(wǎng)潛類模型的高維SNPs分析[J].生物信息學(xué),2012,10(2):120-124.
[3] 張家寶.聚類分析在醫(yī)院設(shè)備管理中應(yīng)用研究[J].中國(guó)農(nóng)村衛(wèi)生事業(yè)管理,2014,34(5):510-513.
[4] 袁芳,劉盼盼,徐進(jìn),等.基因-基因(環(huán)境)交互作用分析方法的比較[J].寧波大學(xué)學(xué)報(bào):理工版,2012,25(4):115-119.
[5] 張潔婷,焦璨,張敏強(qiáng).潛在類別分析技術(shù)在心理學(xué)研究中的應(yīng)用[J].心理科學(xué)進(jìn)展,2011,18(12):1991-1998.
[6] 曾憲華,肖琳,張巖波.潛在類別分析原理及實(shí)例分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潛在類別模型的原理與技術(shù)[M].北京:教育科學(xué)出版社,2011.
[10] 張巖波.潛變量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(1):7-10.
[13] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2013.
[14] 王立柱,趙大宇.用分類與回歸樹算法進(jìn)行人才識(shí)別[J].沈陽師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,23(1):44-47.
[15] 溫小霓, 蔡汝駿.分類與回歸樹及其應(yīng)用研究[J].統(tǒng)計(jì)與決策,2010,(23):14-16
[16] 符保龍,陳如云.分類回歸樹在高校計(jì)算機(jī)聯(lián)考數(shù)據(jù)分析中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 張凡,齊平,倪春梅.基于POS的BP神經(jīng)網(wǎng)絡(luò)在腮腺炎發(fā)病率預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2014,41(11):1924-1927.
[20] 張晶.BP神經(jīng)網(wǎng)絡(luò)在圖書館信息處理中的應(yīng)用研究[J].圖書情報(bào),2014,(9):132-133.
[21] 徐學(xué)琴,孫寧,徐玉芳.基于BP神經(jīng)網(wǎng)絡(luò)的河南省甲乙類法定報(bào)告?zhèn)魅静☆A(yù)測(cè)研究[J].中華疾病控制雜志,2014,18(6) :561-563.
[22] 馬曉梅,隋美麗,段廣才,等.手足口病重癥化危險(xiǎn)因素BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)分析[J].中國(guó)公共衛(wèi)生,2014,30(6):758-761.
[23] 任方,馬尚才.基于條件對(duì)數(shù)似然的BP神經(jīng)網(wǎng)絡(luò)多類分類器[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2011,26(1):32-42.
[26] 解合川,任欽,曾海燕,等.支持向量機(jī)在傳染病發(fā)病率預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2012,40(22):4105-4112.
[27] 劉崇林.人口時(shí)間序列的支持向量機(jī)預(yù)測(cè)模型[J].寧夏大學(xué)學(xué)報(bào):自然科學(xué)版,2013,27(4):308-310.
[28] 張俊輝,潘曉平,潘驚萍,等.基于支持向量回歸的5歲以下兒童死亡率預(yù)測(cè)模型[J].現(xiàn)代預(yù)防醫(yī)學(xué),2014,36(24):4601-4603,4605.
[29] 陳詩(shī)一.非參數(shù)支持向量回歸和分類理論及其在金融市場(chǎng)預(yù)測(cè)中的應(yīng)用[M].北京:北京大學(xué)出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董國(guó)君,哈力木拉提.基于隨機(jī)退火的神經(jīng)網(wǎng)絡(luò)算法及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,46(19):39-42.
[32] 胡潔,曾祥金.一種快速且全局收斂的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[J].系統(tǒng)科學(xué)與數(shù)學(xué),2014,30(5):604-610.