【為什麼我們挑選這篇文章】大數據盛行的時代下,我們的行為幾乎能被預測,而將此運用於犯罪學上,才發現犯罪年復一年的發生相同的事件。
文中將講述透過大數據的預測性分析,降低犯罪的發生率,期望台灣警政系統也能結合犯罪數據分析,不讓能提前防範的事件不斷上演。(本文出處:轉自大數據文摘,bigdatadigest。責任編輯:張瑋倫)
(編者按:洛杉磯警局與加州大學洛杉磯分校合作,採集分析了 80 年來 1300 萬起犯罪案件,用於進行犯罪行為的大型研究,通過演算法預測成功將相關區域的犯罪率降低了 36 個百分點。)
可見,演算法不僅僅可以幫助運營人從用戶數據挖掘中獲得靈感,同樣,如果不是簡單地分析以往的犯罪規律,而是採用預測式警務的做法,分析人員就可以利用之前犯罪行為表現出來的規律,全神貫注地分析下一個可能發生犯罪行為的地點並重點干預。
10 年前,在梳理 2.45 億顧客每週生成的海量數據時,沃爾瑪公司的數據挖掘演算法偶然發現了一條奇怪的訊息:在發布惡劣天氣預警後,除了管道膠帶、啤酒及瓶裝水等應急用品以外,草莓醬餡餅需求量的增長幅度最大。
為了驗證這一發現,在 2004 年颶風「弗朗西斯」即將襲來的消息發布後,沃爾瑪超市的管理者下令用卡車裝載家樂氏快餐,運送至可能遭受颶風襲擊的地區。結果,這些快餐很快就被搶購一空。通過這個案例,沃爾瑪的管理者對消費者的消費習慣及「公式」的威力有了非常清楚的認識。
認識到這個發現具有重要價值的並不僅僅是沃爾瑪的管理層。當時,心理學家考林·麥庫與洛杉磯警察局長查理·貝克正準備合寫一篇論文,並向法律實施方面的雜誌《警察局長》投稿。
他們以沃爾瑪的這個發現為契機,對警務工作進行了再思考,認為其要由反應式向預測式轉型。2009 年,他們的這篇題為《預測式警務:沃爾瑪及亞馬遜對打擊經濟衰退期犯罪行為的啟示》的論文一經發表,就立刻引起了美國法律實施專業人士的關注與思考。
麥庫與貝克所謂的「預測式警務」,是指由於計算機科學的發展,犯罪數據的收集與分析工作有可能做到「準實時」,因此在將來可用於提高預測、預防和響應犯罪行為的效率。借用 Quantcast 的廣告詞來形容,這意味著警察可以「提前了解、提前行動」。
目前,與預測式警務聯繫最緊密的人當屬洛杉磯警察局的肖恩·馬林諾夫斯基警官。他被指派協助威廉·布拉頓局長的工作,先是當他的助手,後來成為他的參謀長。從此,馬林諾夫斯基時來運轉。
在來到洛杉磯之前,布拉頓在紐約市工作。他只用了幾年時間,就將紐約市的犯罪率降低到之前的一半,在警界名聲顯赫。布拉頓的工作方法很有效率,但也明顯不循常規。在到紐約市警察局之前,他還擔任過紐約交通警察部門的領導者。
在此期間,他首先對逃票行為予以打擊,把紐約市地鐵系統從一個犯罪案件頻發的暴力之地變成了一個遵紀守法、安寧整潔、秩序井然的場所。換句話說,在重大犯罪率創歷史最高紀錄的時候,布拉頓首先關注的是讓人們掏錢買車票。
他的理由十分簡單。2009 年,他在回憶錄中說,逃票是導致更嚴重犯罪行為的根源。布拉頓指出:
「合法乘客會認為他們身處一個不講法律、沒有秩序的場所。他們看到人們不買票就能乘車,便開始懷疑遵紀守法是否明智。久而久之,整個社會就會陷入一片混亂。」
通過制止並懲處違法行為,甚至連最輕微的犯罪行為也不放過,就會讓那些製造麻煩的人明白,最好還是掏錢買票,並且把武器(搜查時通常會被發現)留在家中。因此,犯罪率開始急劇下降。
來到洛杉磯之後,布拉頓希望繼續實施某些先發製人的手段。馬林諾夫斯基在布萊頓的手下工作了 5 年,親眼見證了布拉頓單憑意志力就使一個暮氣沉沉的部門發生了種種良性的變化。他說:
「如果我們所處的機構官僚主義盛行,我們就會對遇到的各種阻力習以為常,而我們的創造力卻會受到限制。布拉頓告訴我不要受到官僚主義的影響,他還教導我要有遠大的志向,要有所作為。」
在工作中,布拉頓最迫切期待的是不斷出現一些可以帶來革命性變化的「奇思妙想」。他認為,預測性分析可以幫助他實現這個願望。布拉頓發現,犯罪率與數據分析的速度之間存在某種聯繫。
1990 年,警察局一年只能完成一次犯罪數據的收集與研究工作,而同一年,美國大多數城市的犯罪率正在急劇攀升。到 1995 年年底,警察局可以做到每月研究一次犯罪數據,而同期的犯罪率卻有所下降。現在,他們可以隨時查看犯罪率情況,因此佈拉頓希望通過預測可能發生犯罪行為的地點,大幅度降低犯罪率。
既然 Quantcast 和谷歌等公司可以從用戶數據挖掘中獲得靈感,同樣,如果不是簡單地分析以往的犯罪規律,而是採用預測式警務的做法,分析人員就可以利用之前犯罪行為表現出來的規律,全神貫注地分析下一個可能發生犯罪行為的地點。用亞馬遜的話說:
「既然你敢偷手提包,難道你就不敢搶酒莊嗎?」
用演算法預測並制止犯罪行為
眾所周知,在某個具體區域內,犯罪地點並不是隨機分佈的,而是集中於某些小範圍的「熱點地區」 。比如,西雅圖歷時 14 年收集的犯罪數據表明,有一半的犯罪行為都集中在佔該市 4.5% 的街道上。明尼蘇達州明尼阿波利斯市的情況也差不多,半數報警電話都來自佔該市 3.3% 的街道。
28 年間,波士頓市多達 66% 的街道搶劫案都高度集中於佔該市 8% 的街道。了解這些熱點地區以及這些地區可能發生哪些類型的犯罪行為,對城市的警力部署具有非常重要的參考價值。
例如,假設在我們當地的白鹿酒吧門口,每週六晚上都有人因實施人身侵害行為而被捕。如果我們可以證明這個假設是正確的,那麼不難預測以後的周六晚上在同一地點還會發生類似的行為。因此,派一名警官到那裡執勤,就可以預防此類惡性事件再次發生。
在發現了上述特徵之後,布拉頓局長請肖恩·馬林諾夫斯基協助他做這件事。在接受布拉頓的建議之後,馬林諾夫斯基每個週五下午都會開車去加州大學洛杉磯分校,與該校數學系與計算機科學系的人碰頭。
洛杉磯警察局同意提供犯罪統計數據集(該數據集非常龐大,收集了 80 年來約 1 300 萬起犯罪案件的相關數據),用於進行犯罪行為的大型研究。馬林諾夫斯基非常享受與加州大學洛杉磯分校的研究人員一起合作的這段經歷。
10 年前,他在查處酒駕任務中與警察的第一次合作使他對警務工作產生了興趣,而在這次與計算機科學家的合作中,他們梳理數據、尋找規律,並試圖建立某些公式的研究工作,再一次吸引了他。馬林諾夫斯基回憶說:
「我非常喜歡那段經歷。」
當時,一位數學家兼計算機科學家的研究讓他產生了濃厚的興趣。這位二十四五歲的年輕人名叫喬治·莫勒,當時正在研究一個用於預測地震危害的演算法。在剛聽到莫勒的研究領域時,馬林諾夫斯基以為這與他們當時的研究關係不大,但後來他發現自己錯了。
地震會導致餘震,而犯罪行為也有同樣的特點。在發生入室盜竊或汽車失竊案之後,短時間內同一地點發生類似犯罪行為的可能性會增至之前的 4~12 倍。這種傳染作用叫作「鄰近重複」(nearrepeat )效應。莫勒解釋說:
「搶劫犯常常會在一周後再次潛入同一住戶或鄰近住戶的家中作案。」
加州大學洛杉磯分校的研究小組借鑒了莫勒地震研究的某些成功做法,在人類學家傑夫·布蘭汀漢姆與犯罪學家喬治·蒂塔的幫助下,建立了一個犯罪預測演算法。他們把洛杉磯市分成單位面積約為 0.15 平方公里的一個個「方塊區」,然後按照犯罪行為發生的可能性為這些方塊區排序。
2011 年 11 月,他們利用該演算法開展了一次為期三個月的隨機研究。在當天的「巡邏待命通知」中,馬林諾夫斯基一開始就明確宣布:
「今天是一個歷史性的日子。」
他所在的富特希爾區有拉圖那峽谷、湖景露台、帕克伊馬、影子山、太陽谷、桑蘭以及圖洪加 7 個主要的巡邏區,被分成共計 5200 個方塊區。
在當天早晨點名時,富特希爾區的每個巡邏警察都收到一份任務地圖,每張地圖上都清楚地標示出一個或多個方塊區,表明這些地區是犯罪發生「可能性高」的區域。圖上還附有犯罪類型的統計學預測。馬林諾夫斯基告訴他們:
「只要你們有時間,就深入這些方塊區巡邏,找出那些可能會採取犯罪行為的人或預示著可能會發生犯罪案件的狀況,並採取強製或預防措施,避免犯罪案件發生。」
這次實驗一直持續到第二年的 2 月。次月,他們對實驗結果進行了評估,並就是否推廣這項技術形成了結論。分析顯示,這項實驗取得了非常顯著的成果。實驗期間,富特希爾區的犯罪率下降了 36 個百分點。
在利用演算法為巡邏隊下達指令的那些天裡,演算法預測犯罪行為的準確程度是分析人員的兩倍。喬治·莫勒說:
「造成這個結果的原因之一是,人腦無法準確地為全市 20 個熱點地區排序。也許人腦可以找出排在前兩位的熱點地區,但是排完前 6 位或前 7 位之後,剩下的只能胡亂猜測了。」
這項技術在推廣之初並非一帆風順,其中大部分阻力來自馬林諾夫斯基手下的那些警察。他承認:
「的確,有的警察認為自己不需要計算機來告訴他們哪裡有可能會發生犯罪行為。很多傢伙都抵制這種做法,即使告訴他們計算機的預測結果,他們也會說:『我早就知道範納伊斯與格倫奧克斯的交界處是一個麻煩之地。』
於是我問他們:『這個地方一直讓我們頭疼,對嗎?那你們在這里工作多久了?』
他們說:『我們在這個地方已經工作 10 年了。』
我接著說:『既然 10 年前你們就知道這個事實,為什麼這個問題至今沒有解決呢?別廢話了,趕緊去那裡把這個問題解決掉。』」
在富特希爾區的研究結束之後,警務演算法被推廣到洛杉磯的所有轄區。美國其他城市的警察局現在也採用了其他類似的演算法。馬林諾夫斯基說,他仍然覺得自己要為手下的警員負責,但在部署警力方面卻不再事事躬親,而是習慣於逐漸放手。他指出:
「在管理時必須為演算法留一點兒空間,讓其發揮作用。」
與此同時,布拉頓已經從洛杉磯警察局退休了。在 2011 年英格蘭發生暴亂之後,卡梅倫邀請他到英國就任倫敦首都警察局局長。但是,由於布拉頓不是英國公民,這項提議最終沒有獲得通過。後來,他被邀請擔任英國暴力管控方面的顧問,布拉頓欣然接受了。
加州大學洛杉磯分校的研究小組在完成了他們的演算法之後,還籌集了幾百萬美元的風險基金,成立了一家名叫「 PredPol 」的私營公司。2012 年 12 月, PredPol 登陸英國,在肯特郡的梅德韋市進行了為期 4 個月、營業額達 12.5 萬英鎊的試營業。
在這次試營業期間,由於採用了這種演算法,該市街道暴力案件的發生率下降了 6 個百分點。目前,大曼徹斯特、西約克郡以及英國中部地區已經採用了類似的做法,而且效果也很樂觀。
儘管有的地方議員擔心預測式分析可能會導致農村地區的警力不足,也有人擔心這會導致失業率上升,但其他議員認為這種創新性軟體能夠提高資源的利用效率。
馬林諾夫斯基認為,預測式警務的任務不僅僅是將犯罪分子繩之以法。
「我們的目的是讓警員在合適的時間出現在合適的地點。這樣,那些準備幹壞事的傢伙一出現,就會看到有警察在場,受到震懾後不敢再作案」
最後,馬林諾夫斯基以超市的情況做出了類比:
「我們就像沃爾瑪超市裡的迎賓員,目的是讓人們知道有人正在看著他們。」
犯罪統計學和道德統計學
將統計學知識應用於犯罪學似乎是一個創新之舉,但實際上,這種做法可以追溯至19 世紀的法國,以及安德烈–米歇爾·蓋里和阿道夫·凱特萊這兩個人。
蓋里與凱特萊都是半路出家的傑出統計學家。蓋里之前從事的是法律方面的工作,而凱特萊則從事天文學研究,兩人都受到了奧古斯特·孔德的深遠影響。1817~1823 年,孔德完成了一篇題為「社會重組所必需的科學工作計劃」的文章。
這篇文章指出,在判斷如何管理社會時,最理想的方法是沿用自然科學的方法來研究這個社會。孔德認為,艾薩克·牛頓通過研究成功地表述了作用力對物體的影響,同樣,社會科學家也可以通過研究發現「社會物理學」的定律,用於預測人類的行為。
孔德的這個觀點引起了蓋里與凱特萊的極大興趣。這兩個人有一個共同特點,他們都對犯罪學等領域感興趣。蓋里受僱於法國司法部,在一個叫作「道德統計」的新領域就職,當時他只有 26 歲。而凱特萊則一心想著如何將天文學的數學工具應用到犯罪數據的處理上。他認為:
我們之所以可以建立道德統計學並由此產生有指導性的、有意義的成果,就是基於這樣一個基本事實:在對象非常多時,人們的自由選擇權就會消失不見,人們也會喪失理智。
蓋里與凱特萊所處的年代可以被稱作大數據的第一個「黃金時代」,生活在這樣一個時代,讓他們受益匪淺。從 1825 年起,法國司法部下令建立全國犯罪案件集中報告製度,每三個月收集一次各地區的犯罪數據,其中包括提交至法國所有法院的全部刑事案件;還要將犯罪行為按照指控罪名、被告的性別及職業、法院最終判決結果等進行分類。
國家集中管理的數據集還包括個人財富(根據繳稅情況)、企業經營水平(根據獲批的專利數量)、軍隊中有讀寫能力的人員比例、全國范圍內的移民及年齡分佈等統計數據,甚至還包括巴黎賣淫者的詳細名單(按出生年份與出生地排序)。
19 世紀 20 年代末 30 年代初,蓋里與凱特萊利用他們可以獲取的數據,各自開展了獨立研究。他們很快就發現了一個現象:每年的犯罪行為特點沒有任何變化。這個現像對於社會改革而言意義重大,因為改革者們之前關注的是如何拯救那些罪犯,而不是把他們看作更嚴重的社會問題的表徵。
凱特萊指出,「犯罪行為正在準確無誤地進行自我複制」,而且這種行為的精度達到令人吃驚的程度。他的意思是,通過槍支、刀劍、棍棒、石頭、火、勒死、溺亡、拳打腳踢以及各種利器實施的謀殺案比例,幾乎年年都保持在同一水平上。凱特萊明確指出:
「我們事先就知道有多少人的雙手會沾上別人的鮮血,有多少人會造假,有多少人會鋃鐺入獄,而且可以達到與預測出生及死亡人口差不多的精度。 」
蓋里也驚訝地發現了「犯罪行為自我複製的穩定性、一致性」,並從中看到有大量事實可以證明孔德的社會物理學理論是正確的。從這些沒有經過篩選的數據噪聲中,他洞察到有某種信號若隱若現。
關於這兩位學者的研究,有不少非常有意思的趣聞。例如,凱特萊發現,在上吊自殺與老夫少妻的婚姻(妻子 20 多歲而丈夫 60 多歲)之間存在高於平常水平的相關性。蓋里也不甘示弱,他同樣把研究的目光投向了自殺(並根據自殺的動機與手段進行了細分)。他的結論是:年輕男性喜歡用手槍自殺,而年長的男性傾向於用上吊的方式來結束自己的生命。
但是,其他的關係就沒這麼簡單了。之前,人們普遍認為貧窮是導致犯罪的最大原因,這種觀點意味著法國富裕地區的犯罪率肯定比貧困地區低。結果,蓋里與凱特萊證明了這種觀點未必正確。
儘管法國幾個最富裕地區的暴力犯罪率低於較貧窮的地區,但這些地區的財物犯罪率卻高得多。根據這個觀察結果,蓋里指出,貧窮本身並不是導致財物犯罪的原因。他認為,富裕地區可以盜竊的財物比較多,因此犯罪機會才是罪魁禍首。
根據這個觀點,凱特萊提出了「相對貧窮」的概念,並指出同一地區貧富差別較大是導致財物犯罪與暴力犯罪的關鍵原因。凱特萊認為,相對貧窮會激起嫉妒之心,誘使人們犯罪。
尤其當經濟狀況發生變化時,有人會因此陷入貧困,其他人卻可以保持(甚至增加)他們的財富,相對貧窮特別容易誘發犯罪。凱特萊發現,只要貧窮地區的人的基本需求能夠得到滿足,這些地區的犯罪率就會低於富裕地區。
1832 年,蓋里出版了他的研究成果,並將這本薄薄的小冊子命名為「論法國的道德統計」。三年後,凱特萊也出版了自己的著作《論人及其才能的發展》。
這兩部著作出版後便引起了轟動。一度晦澀難懂的學術研究竟然激發了公眾的無窮想像,這樣的例子確實不可多得。兩個人的作品被翻譯成多種語言,人們紛紛發表評論。
《威斯特敏斯特評論》(約翰·穆勒與傑里米·邊沁這兩位功利主義哲學家創辦的英語雜誌)用大量篇幅讚揚蓋里的這本書具有「顯著的影響力與重要性」。
查爾斯·達爾文閱讀了凱特萊的著作,陀思妥耶夫斯基通讀了兩遍,身為社會改革家的弗洛倫斯·南丁格爾則在凱特萊研究成果的基礎上提出了自己的統計方法。後來,她熱情洋溢地稱讚凱特萊的研究成果「為我們帶來了實現道德進步的準則」。
蓋里的開創性成果,顯示了 1829 年法國的犯罪率水平。左上圖表示暴力犯罪的情況,右上圖表示財物犯罪的情況,位於下方的圖表示教育水平。在每幅圖中,某一區域的顏色越深,表明該區域的犯罪率越高或者教育水平越低。
總的來說,蓋里與凱特萊的研究表明,人類不再把自己看作一種自由意志的自決生物,可以隨心所欲、自行其是,而是認識到人類的行為要受到生物及文化因素的決定性影響。
換言之,我們的行為具有可預測性。
◎ TechOrange 正在招募 網路廣告業務經理 / AE! 如果你具一年以上網路廣告業務經驗,對開創媒體新商業模式超有興趣與想法 歡迎你提供履歷自傳寄至 jobs@fusionmedium.com 來信主旨請寫明:【應徵】網路廣告業務經理 / AE
(本文經原作者大數據文摘授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈分析1300萬起案件洛杉磯警局如何用算法預測犯罪〉。)