地理科学进展  2018 , 37 (6): 761-771 https://doi.org/10.18306/dlkxjz.2018.06.003



柳林123, 刘文娟1, 廖薇薇1, 余洪杰1, 姜超1, 林荣平1, 纪佳楷1, 张政1

1. 中山大学地理科学与规划学院综合地理信息研究中心,广州 510275
2. 广州大学地理科学学院公共安全地理信息分析中心,广州 510006
3. 辛辛那提大学地理系,美国辛辛那提 OH45221-0131

Comparison of random forest algorithm and space-time kernel density mapping for crime hotspot prediction

LIU Lin123, LIU Wenjuan1, LIAO Weiwei1, YU Hongjie1, JIANG Chao1, LIN Rongping1, JI Jiakai1, ZHANG Zheng1

1. Center of Integrated Geographic Information Analysis, School of Geography and Planning, Sun Yat-Sen University, Guangzhou 510275, China
2. Center of Geographic Information Analysis for Public Security, School of Geographic Sciences, Guangzhou University, Guangzhou 510006, China
3. Department of Geography, University of Cincinnati, Cincinnati OH45221-0131, Ohio, USA

国家自然科学重点基金项目(41531178);广东省自然科学基金研究团队项目(2014A030312010);国家自然科学基金项目(41171140);广东省科技计划项目(2015A020217003)


柳林(1965-),男,湖南湘潭人,博士,教授,主要研究方向为地理信息科学、犯罪时空分析与模拟等,E-mail: lin.liu@uc.edu




关键词: 时空核密度 ; 随机森林算法 ; 犯罪热点预测 ; 犯罪高发区识别


Crime prediction is of great significance for the formulation of police tactics and the implementation of crime prevention and control in different time periods. Machine learning and density mapping are two common approaches for crime hotspot prediction. However, there exists few published work that systematically compares the predicted results of these two approaches. This study aimed to fill the gap. With crime patterns uncovered from 2013 to May 2016, we predicted hot-spot distribution of theft crimes in the period of first two weeks of June, July, and August in 2016 by random forest algorithm and traditional space-time kernel density method and compared the two sets of predictions. The research area was divided into grid cells of 50 m×50 m. Each cell was predicted as either hot-spot or non-hot-spot area in the next predicting period. Then we overlaid the forecast results and location of real cases to evaluate the accuracy of the two methods. The results show that both the hit rate of area and cases of the random forest classification hot-spot prediction method are higher than that of the space-time kernel density within different periods. Both methods can effectively identify high-crime areas of crime hot spots in prediction. In a relatively short period of time and small area, the random forest classification hotspot prediction method is more effective than the space-time kernel density method. However, in a relatively long term and large area, the space-time kernel density crime risk estimation method yields better result in identifying high crime areas.

Keywords: space-time kernel density ; random forest algorithm ; crime hotspot prediction ; high crime areas identification


1 引言


国外在犯罪预测方面,以美国的实证研究最有代表性,涉及治安状况、热点时序、作案地居住地、作案类型、特定人群等多个方面。目前中国的犯罪预测研究以国家治安形势预测(梁晓军, 2001)、区域犯罪趋势预测(王发曾, 1992)等宏观趋势理论探讨居多,有关犯罪热点预测的实证研究还较少(陈鹏等, 2011; 刘大千等, 2012; 阎耀军等, 2013; 李卫红等, 2017)。犯罪热点预测以日常活动理论(Cohen et al, 1979; Clarke et al, 2004)、环境犯罪学(Ratcliffe, 2004; Brantingham, 2008)为背景,认为犯罪的发生离不开时间和空间。研究发现,犯罪案件的发生在空间上不是随机均匀分布,而是呈现出一定的集聚和离散特征(Ratcliffe, 2004; Bowers et al, 2005; Grubesic et al, 2008)。对此,Weisburd(2015)总结了犯罪空间集聚规律,认为在地理空间单元上,大部分犯罪案件集聚在小部分区域,这表明犯罪案件在空间上的分布存在热点和冷点区域(Brantingham et al, 1999; Groff et al, 2002),从而使得一定程度上预测犯罪高发的时间和地点成为 可能。

传统的犯罪风险估算方法通常从犯罪案件历史分布中探测出犯罪热点区域,并假设这种规律将会持续到下一个时间周期(Gorr et al, 2003)。如地形风险模型(Risk Terrain Modeling, RTM)(Caplan et al, 2011),考虑到犯罪地的邻近性和犯罪要素的聚集性,采用犯罪相关环境因素的数据和犯罪历史数据等进行犯罪预测,并且对于长周期稳定的犯罪热点预测比较有效。常用的核密度估计方法利用犯罪案件的空间集聚规律进行犯罪风险制图,被公认为能有效地识别热点区域(Hirschfield et al, 2001; Chainey et al, 2002; Clarke et al, 2005; Chainey et al, 2008; Chainey et al, 2013)。Bowers等(2004)发明的犯罪风险地图(ProMap)本质上也是采用了考虑时间关联性的核密度方法。国内有研究发现,基于时间临近性的核密度方法对未来一年的犯罪热点预测效果比一般的核密度估计效果更好(徐冲等, 2016)。时空核密度方法能较好的可视化犯罪热点的形成,但挖掘数据信息的能力不强。

近年来,利用大数据和机器学习、深度学习的方法进行犯罪预测研究已成为热点,不少研究结合人口经济统计数据、土地利用数据、手机数据等和犯罪历史数据进行了不同时间周期的犯罪预测实证研究(李卫红等, 2017; Kianmehr et al, 2008; Bogomolov et al, 2014; Rummens et al, 2017),采用的方法有随机森林、支持向量机、神经网络、贝叶斯模型等多种算法。在各种机器学习算法中,随机森林算法已被证明在多个领域具有较强非线性关系数据处理能力和较高的预测准确率(Genuer et al, 2010; Kandaswamy et al, 2011; Rodriguez et al, 2012)。随机森林的方法虽然学习效率较高,但对于犯罪热点形成原理的解释尚不足。


2 研究区域和数据

2.1 研究区域

研究区(图1)隶属于中国东南沿海特大城市ZG市HT区。HT区位于ZG市老城区东部,辖内各种交通资源高度聚集,经济持续平稳较快发展。作为全市的中心城区,人口结构复杂,流动性大,社会经济活动繁杂多样。2015年行政区域总面积约137.38 km2,辖有21条行政街。全区户籍人口84.46万人,常住人口154.57万人,2015年全年地区生产总值3438.65亿元,比上年增长8.8%,总量连续9年位居全市首位。同时,该区警务信息化水平较高,数据记录准确全面,可靠性高。

图1   研究区

Fig.1   The study area

为了减弱边缘效应,研究区以HT区4个派出所(QJ、ZJ、HC、CB)管辖区向外600 m的缓冲区为边界。基本现状数据分别来源于ZG市公安局2013-2016年110接警数据和P-GIS(警务地理信息系统)数据库。110接处警数据记录了每起案件的案件类型,案发时间、地点坐标及接警单位等信息。经自动匹配和人工校正后将110接警数据落到地理空间上,并剔除不在研究区内的案件点。其中公共盗窃警情相比于其他,案件量多,影响范围广,社会潜在危害影响大。

2.2 数据概况


图2   2013-2016年公共盗窃案件分月统计图

Fig.2   Monthly counts of theft from 2013 to 2016

图3   2013-2016年公共盗窃案件分日统计图

Fig.3   Daily counts of theft from 2013 to 2016

另外统计发现,若以50 m×50 m的网格单元划分研究区,各年全部案件都集聚在7%~8%的网格中。进而对2013-2016年公共盗窃案件按年进行热点分析(图4),发现4年间研究区内公共盗窃案件高发区主要集中在3个部分,热点范围有发生变化,空间位置几乎无太大转移。2013年、2014年、2015年与2016年的犯罪热点高发前20%的区域重叠度分别高达为0.91,0.88,0.89,说明研究区内公共盗窃犯罪热点空间重叠度非常高,犯罪热点在年时间周期上相当稳定,变化很小。

图4   2013-2016年公共盗窃案件热点分布图

Fig.4   Hotspot distribution of theft from 2013 to 2016

3 研究方法

3.1 基于时空邻近性的核密度方法

地理学第一定律认为事物在空间上的分布相互联系,且邻近事物之间的联系更紧密,存在集聚、随机、规则分布。基于此原理,核密度(Kernel Density)方法对事物之间的空间联系进行量化计算来反映其分布规律,搜索半径用来划定事物之间的邻近阈值,选取特定的空间衰减函数来描述某事件点与搜索半径覆盖范围内事件点的局部空间关联,表示事物的空间联系紧密度与邻近距离的关系。基于时空邻近性考虑的核密度进一步认为,近期发生的事件相对发生越久远的事件对空间位置的影响更显著,因此加入时间远近大小作为犯罪风险估算的权重。这种方法充分考虑了事物的时空邻近关系与集聚特征形成的联系,从而能根据历史案件累积的空间分布集聚规律来定量估算风险大小,进而较好地识别整体上稳定存在的犯罪高发热点区域。缺点是时空核密度估算热点的高低受历史事件点邻近程度影响,与重复发生的事件点的时空位置可能错位。

3.2 随机森林分类算法

随机森林是由Leo Breiman于2001年提出的一种利用多棵树对样本进行训练并预测的分类算法(Breiman, 2001)。其基本原理是在决策树的基础上,综合多个决策的结果。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样本可以通过每一棵树的分类结果经投票统计后选择最可能的分类。假设有N个样本,每个样本有M个特征,具体实现步骤如下:

(1) 原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;

(2) 设有M个变量,则在每一棵树的每个节点处随机抽取m个变量(m<<M),然后在m中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;

(3) 每棵树最大限度地生长, 不做任何修剪;

(4) 将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。


3.3 评价指标


4 预测实验及对比

4.1 预测实验

基于时空邻近性的核密度进行犯罪风险估算在以往的核密度方法的基础上加上了事件点时间关联的计算,因此将2013-2016 年5月的公共盗窃7773起案件点的时间和位置作为输入,采用在ArcGIS10.0 软件中的核密度基础上进行二次开发的工具实现时空邻近相似性核密度犯罪风险估算。本文参照文献徐冲等(2013)选取Gaussian函数作为距离衰减函数及反时间距离权重计算公式构建模型进行实验。其中有两个重要参数需要注意,距离搜索半径参考文献(徐冲等, 2013; 徐冲等, 2016)设为150 m,输出密度风险图的栅格单元大小设为50 m×50 m。以2016 年6、7、8月发生的公共盗窃案件点作为验证数据。

随机森林分类算法直接预测每一个空间单元是否为热点。与时空核密度保持一致,将研究区划分为50 m×50 m的网格,则研究区含网格数共计14720个,每一个单元网格格的犯罪热点预测可以看作一个二分类问题,在下一个预测时间期内预测为热点或者非热点。选择每一个单元中2013年、2014年、2015年与预测目标时间同期的时间段,临近时间内均向前推算若干与预测目标时段长度相同的时间段的历史案件数据建立随机森林预测模型,建立决策树300棵,随机抽取变量数设为4。经过多次计算发现,选取4个临近步长时段,已能达到较好的预测效果。并且对4个临近时段内犯罪案件的发生地以150 m为搜索半径作核密度分析,取每个网格的临近4个时间段的极差标准化核密度值。以每个网格中各时段的犯罪案件量及案件密度为样本,用前一期的犯罪案件作为训练标准设置热点和非热点分类标签,预测这一期是否为犯罪热点。


表1   不同周期案件量及有案件发生网格情况

Tab.1   Count of grids where crimes occurred and total crime numbers in different time periods



表2   2016年6月份犯罪热点分类预测实验说明

Tab.2   Explanation of crime hotspot classification prediction for June, 2016



4.2 预测结果


图5   时空核密度与随机森林预测热点对比图

Fig.5   Comparison of hotspot prediction results of space-time kernel density and random forest methods

4.3 对比分析


图6   各时间周期预测正确热点网格占比例

Fig.6   The hit area ratio in different time periods


图7   各时间周期预测正确热点区域内案件量比例

Fig.7   The hit case ratio in different time periods


图8   各时间周期预测正确热点区域案件密度

Fig.8   Case density of the hit areas in different time periods

5 讨论与结论

国内外有不少学者采用核密度、机器学习等方法进行犯罪热点预测,并采用不同指标对预测效果进行评估,本文2种方法的预测结果可与其他方法间接对比评价。尽管研究区和研究数据不同,与Bowers等(2004)经典的风险地图预测精度相比,其预测的未来一周发生的案件量为70起,栅格单元大小同样为50 m×50 m,共计10816个网格,在风险值前20%的区域预测的案件量命中率为64%。本文实验中2周案件量与之相差无几,而时空核密度方法风险值前20%的区域的案件量命中率达到75%。与Rummens等(2017)的文章中利用人口统计、社会经济、土地利用等数据,采用逻辑回归、神经网络及综合2种方法的预测结果相比,在125 m ×125 m的网格单元尺度下1个月周期内,神经网络方法预测前20%的区域案件量命中率最高,为70.48%;同样以1个月为周期本文中随机森林方法以50 m ×50 m进行预测案件量命中率为76.83%,高于该值。Bogomolov等(2014)也提到采用了逻辑回归、支持向量机、神经网络、决策树等其他机器学习的方法进行犯罪热点分类预测,其中随机森林算法效果最好。上述预测结果对比,在一定程度上表明了时空核密度和随机森林是2种比较有代表性的犯罪预测方法。



The authors have declared that no competing interests exist.


