地理科学进展  2017 , 36 (9): 1158-1166 https://doi.org/10.18306/dlkxjz.2017.09.012



郭思慧123, 文聪聪34, 何云123, 裴韬12*

1. 中国科学院地理科学与资源研究所,北京 100101
2. 中国科学院资源与环境信息系统国家重点实验室,北京 100101
3. 中国科学院大学,北京 100049
4. 中国科学院遥感与数字地球研究所,北京 100094

Relationship between travel behavior and income level of urban residents:A case study in Shanghai Municipality

GUO Sihui123, WEN Congcong34, HE Yun123, PEI Tao12*

1. Institute of Geographic Sciences and Nature Resources Research, CAS, Beijing 100101, China
2. State Key Laboratory of Resources and Environmental Information System, CAS, Beijing 100101, China
3. University of Chinese Academy of Sciences, Beijing 100049, China
4. Institute of Remote Sensing and Digital Earth, CAS, Beijing 100094, China

关键词: 出行活动 ; 移动性指标 ; 收入水平 ; 主成分分析 ; K-Means均值聚类 ; 上海市


The relationship between income and travel behavior characteristics of urban residents is of great concern in urban geography. Income level of residents is an important indicator measuring regional social development, thus understanding this relationship is of great significance for city planning. Before the Big Data Age, due to the lack of residents' travel behavior information, it was difficult to study this relationship. However, along with the innovation of information technology, the use of ubiquitous sensors, such as mobile phones, has produced a large amount of human activity information, enabling the research on the relationship between residents' travel behaviors and income levels. In this study, based on the activity trajectory data in Shanghai Municipality from 27 December 2015 to 6 January 2016, we extracted a series of residents' mobility indicator data to measure mobility characteristics and conducted principal components analyses to extract the major components. We adopted the K-Means clustering method to classify residents into mobility groups and analyzed the feature of each group. Furthermore, the distribution of workplaces is shown to verify the difference in income levels between different mobility groups. Our results show that: (1) diversity of places to travel to and range of travel are two major components measuring residents' travel behavior; (2) residents who have smaller travel range and go to fewer places have higher average salary; (3) between the mobility groups, difference in income levels relate to industrial setup. These results may be useful for city planners to make efficient economic policies.

Keywords: travel behavior ; mobility indicator ; income level ; principal component analysis ; K-Means clustering ; Shanghai Municipality


1 引言

居民的出行活动与居民收入的关系是城市地理学研究的重要内容。传统获取居民出行活动信息的方式主要基于问卷调查(张文尝等, 2007; 丁威等, 2008; 周素红等, 2010; 陆锡明等, 2011),不仅成本高、获取效率低,且有效问卷的样本量小,给居民出行活动研究增加了难度。随着信息技术的革新,与居民经济活动有关的行为数据被无处不在的传感器实时记录,通过分析这些来源于社会经济系统的大数据,以较低的调查成本实时高效地了解居民微观经济属性成为可能(高见等, 2016)。例如,Soto等(2011)利用手机数据中抽取的移动模式(移动半径、移动熵等)、通话模式(通话量、短信条数等)和社交网络模式(通话联系人比例、短信联系人比例等)特征,来预测居民的个体经济水平,预测精度超过80%;Smith-Clarke等(2014)对2个发展中国家的实证研究发现,手机用户集群行为中的固有模式(如通话次数、通话网络等)特征与普查数据中的贫困指数显著相关;Blumenstock等(2015)结合卢旺达手机网络数据提取居民通话模式特征(如通话次数、通话时长)、通话联系网络特征及移动模式特征(移动范围、出行地点)来预测居民的社会经济水平(收入水平、住房情况、受教育程度等),并通过预测的居民社会经济水平重建了整个国家的财富分布状况,结果与政府普查数据高度一致。这些研究都表明,居民的社会经济活动与居民收入状况之间存在一定的关系。然而,上述研究所涉及的社会经济活动含义较广,通话模式、社交模式等都包含在内,城市居民的出行活动模式与收入水平间的关系实际未能得到充分反映。为研究居民活动与其收入水平是否存在、以及存在何种关系,本文基于上海市居民的时空轨迹数据,从居民出行活动特征的角度出发,根据居民出行活动特征的差异对上海市居民进行聚类,研究各类居民工作地的空间分异,探寻居民出行活动特征与收入水平的关系。通过上述研究,一方面可为决策者针对不同经济水平的居民实施有效的经济决策提供参考,另一方面可为利用居民出行活动特征推断居民收入水平研究提供理论依据。

2 研究区域与方法

2.1 研究区域


图1   上海市区域图

Fig. 1   Administrative division of Shanghai Municipality

2.2 数据及方法

2.2.1 数据来源


表1   研究数据说明

Tab.1   Data used in the research



表2   居民时空轨迹数据示例

Tab.2   Sample data of residents' activity trajectories



表3   各区县月平均工资

Tab.3   Average monthly salary in the districts of Shanghai Municipality



2.2.2 研究方法

为分析居民出行活动特征与居民收入水平的关系,一方面需要用定量化指标刻画居民的出行活动特征,另一方面需要辅助数据反映居民收入水平。结合本文使用的数据,对居民出行活动特征的刻画,通过从居民时空轨迹数据中提取一系列移动性指标来实现;居民收入水平取自居民工作单位所在行政区的月平均工资。由于居民出行活动特征是在个体层次上利用每一位居民的一系列移动性指标加以表达,而居民的收入水平状况则是在区域尺度上利用宏观统计平均值表示,因此无法直接通过传统的相关性分析方法来探究二者的相关关系。为此,本文考虑从居民出行活动特征的角度出发,根据居民出行活动特征的差异对居民进行聚类,通过分析各类别居民的收入水平变化,验证居民出行活动特征与居民收入水平的关系,方法流程如图2所示。本文主要处理步骤为:①针对居民时空轨迹,一方面通过到访频度法(Kang et al, 2010; Yuan et al, 2012; Calabrese et al, 2013)识别居民工作地;另一方面根据出行轨迹特征提取出行活动特征指标;②对出行活动特征指标进行主成分分析,从中选取刻画居民出行活动特征的主要成分;③对主成分进行K-Means聚类,得到具有不同移动性特征的各类别居民;④以各类居民为研究对象,分别求取其平均移动性指标和月平均工资,探讨各类居民月平均工资随居民出行活动特征的变化规律。

图2   研究方法框架图

Fig.2   Flowchart of the research method

(1) 居民工作地识别及移动性指标提取


考虑到节假日(元旦)对居民出行活动的影响,将居民轨迹分为节假日和工作日2大类,采用相同的方法对2类轨迹分别提取移动性指标。由于人类出行规律的复杂性与多样性,刻画人们移动行为的指标尚未统一,但有关人们移动模式的研究主要关注出行地点的多样性及出行范围大小两方面的特征(Brockmann et al, 2006; González et al, 2008)。因此,本文选取的7个移动性指标(地点个数、移动熵、空间多样性、回旋半径、最远距离、平均出行距离、职住距离)也围绕居民到访地点及出行范围两方面特征展开。其中,地点个数(Soto et al, 2011; Frias-Martinez et al, 2013)、移动熵(Yuan et al, 2012)、空间多样性(Eagle et al, 2010)用来描述人们到访地点的多样性,例如,移动熵或空间多样性指标越大,表明居民到访不同地点的概率越均一,即居民访问不同地点的随机性较大,没有明显到访频繁的场所(Song et al, 2010)。回旋半径(Giannotti et al, 2011; Blumenstock et al, 2015)、最远距离、平均出行距离(Frias-martinez et al, 2013)、职住距离(Yuan et al, 2012)用于反映人们出行范围的大小。各项指标具体说明如下:

1) 地点个数:指研究时段内用户经过的所有不同地点个数。例如,假设用户X在研究时段内共有2条轨迹记录,分别为1月4日与1月6日的轨迹。若用户在1月4日的轨迹数据中,只有上午9点和下午15点2个时刻下有坐标记录(2个坐标不同,分别记为A点、B点),其他时刻都为空值;在1月6日的轨迹数据中,只有上午6点与上午8点有坐标记录(2个坐标相同,但不同于AB,记为C点),其他时刻都为空值,则该用户在研究时段内的地点个数为3(ABC点)。

2) 移动熵:计算公式为:

Entropya=-i=1Npailog2pai(1)其中: Entropya为用户 a的移动熵; pai为用户 a经过第 i个地点的频率; N为用户 a的地点个数。仍以用户X为例,若 N=3, pX1=1/4(A点出现的频率), pX2=1/4(B点出现的频率), pX3=2/4(C点出现的频率)。移动熵刻画了个体出行地点的异质性(González et al, 2008),移动熵越大,表示个体出行到不同地点的倾向性越不明显。

3) 空间多样性:计算公式为:

D(a)=En tr opyalogN(2)其中: D(a)为用户 a的空间多样性; EntropyaN与移动熵中的变量意义相同。空间多样性越大表示用户出行到不同地点的概率越均一(Eagle et al, 2010),即没有明显到访率更高的地点。

4) 回旋半径:计算公式为:


其中: Radiusa为用户 a回旋半径; rai为用户 a在第 i个地点的坐标; rag为用户 a经过的所有地点的坐标中心; N同前。

5) 最远距离:用户轨迹中相隔最远的2个轨迹点之间的欧氏距离。

6) 平均出行距离:用户平均每天出行的距离大小。

7) 职住距离:用户工作地与居住地之间的欧氏距离。

8) 此外,由于本文使用的移动轨迹是通过手机信令数据转换而得,而手机信令数据记录的用户坐标连续性不一致,导致有些用户有较完善的轨迹点坐标记录(每天24小时的所处的位置都有坐标记录),而有些用户的轨迹点坐标记录则存在某些时刻缺失,因此增设“地点频次”指标来描述居民的平均签到次数(平均每天有坐标记录的次数)。仍以用户X为例,该用户共有2天轨迹记录,第1天有坐标记录的次数为2(上午9点和下午15点),第2天有坐标记录的次数也为2(上午6点与上午8点),则该用户的地点频次为 2+22=2次,即平均每天有2次坐标记录。综上,共8个指标用于刻画居民出行活动特征,其中7个为描述移动性特征的指标,1个为衡量签到次数的指标。

(2) 主成分提取及K-Means聚类

本文旨在从居民的出行活动角度出发,对不同出行活动特征的居民类别进行分析,因此利用移动性指标大小对居民进行聚类。考虑到移动性指标间可能存在一定的相关性,在聚类之前,首先对8个指标进行主成分变换,提取主要影响成分。为确定主成分个数,利用碎石图显示特征值随主成分个数的变化,根据Kaiser-Guttman准则(Cliff, 1988; Kaiser, 1991),选取特征值大于1的值为主成分。在此基础上针对提取的主成分对居民进行K-Means值聚类,根据Calnski-Harabasz指标(Caliński et al, 1974)确定聚类个数,利用R软件中的cascadeKM包进行聚类,得到不同出行活动特征的居民类别。

(3) 各类别居民的平均移动性指标和平均工资计算



其中: Ck为第 k个类别居民的平均工资; n16为上海市行政区县的个数; pki为第 k个类别中工作地属于第 i个行政区内的居民比例; si为第 i个行政区的月平均工资。

3 结果分析

3.1 居民出行活动特征的主要成分

对8个指标采用方差极大旋转(Rencher, 1992)提取主成分,每个成分仅由几个主要指标解释(即每个成分只有少数几个很大的荷载,其他都是很小的荷载)。根据Kaiser-Guttman准则(Cliff, 1988; Kaiser, 1991)选择特征值大于1的成分为主成分,节假日与工作日的主成分个数都为3,各主成分与指标间的相关系数如表4所示。

表4   方差极大旋转的主成分分析表

Tab.4   Principal component analysis by maximum variance rotation




(1) 节假日中3个主成分的方差解释度分别为34.2%、32%、16.5%,其中成分1主要由移动熵、地点个数及空间多样性3个移动性指标来解释,且与这3个指标都成正相关,说明成分1主要刻画居民到访不同地点的多样性,居民出行地点多样性越高,成分1值越大;成分2主要解释与居民出行范围大小有关的4个指标(如回旋半径、最远距离、平均出行距离及职住距离),出行范围越大,成分2值越大;成分3与地点频次成正相关、与移动熵成负相关,说明如果居民平均每天记录的签到次数很多,且存在频繁签到的地点(到访其中几个地点的频率明显高于其他地点),则成分3的值较大。

(2) 工作日中成分1主要由地点个数、移动熵和平均出行距离3个移动性指标来解释,且与3个指标都成正相关,说明如果居民出行距离大,到访地点个数多,且没有频繁到访的地点,则成分1的值较大;成分2与节假日下的解释一致,居民出行范围越大,成分2值越大;成分3与地点频次成负相关、与空间多样性成正相关,说明如果居民平均每天记录的签到次数很少,且不存在到访概率高的地点(每个地点签到的频率都相当),则成分3的值较大。


3.2 各类别移动性指标与收入水平关系


表5   非节假日平均移动性指标与各类别月平均工资水平关系

Tab.5   Average mobility indicator values and average monthly salary of each clustering group during weekdays



表6   节假日平均移动性指标与各类别月平均工资水平关系

Tab.6   Average mobility indicator values and average monthly salary of each clustering group during holidays



3.3 工作地空间分析

各类别居民的工作地分布如图3(工作日)、图4所示(节假日)。工作日背景下,不同类别居民的工作地分布呈现“中心—外围”的圈层结构,且平均移动性指标越小的类别越趋于分布在中心,平均移动性指标越大的类别越趋于分散在市郊周边。这种圈层结构的空间分布与上海市城市发展的总体规划(《上海市城市总体规划(1999年-2020年)》)的空间功能具有一致性:从中心内层到近郊直至远郊村镇,分别以现代服务业、第二产业、第一产业为发展重点,因此从城中心到远郊的工作人员工资水平出现递减规律。①中心城区类别:如第3类、第10类,其移动性特征为:到访不同地点的个数少(小于10个),移动熵和空间多样性指标小(表明居民会频繁到访某些地点),职住距离较短(5 km以内),平均移动范围最小(最远出行距离小于15 km);其工作地特征为:主要分布在上海的中央商务区(如外滩)和主要公共活动中心(如豫园、人民广场等),这些地区是上海市一、二级商业中心集中之地(丁亮等, 2017),以发展金融、商贸信息等现代服务业为主,因此工作地在中心城区的第3、10类居民的月平均工资水平较高。②近郊区类别:第4、9、1、5类居民,其移动性特征表现为:到访不同地点的个数居中(5~15个),职住距离在5~10 km之间,平均出行距离在25 km以内;其工作地特征为:主要分布在地铁线路可达的区域范围内,以现代制造业为主,因此这几类居民的月平均工资水平处于中等。③远郊区类别:如第7、8、6、2类居民,其移动性特征表现为:到访不同地点的个数最多(15个以上),职住距离大于10 km,平均出行距离高于25 km;其工作地特征为:主要分布在上海市远郊区的村镇,这些地区以发展现代都市农业及旅游业为主,其居民的月平均工资水平相对较低。

图3   工作日聚类结果工作地空间分布图

Fig.3   Spatial distribution of workplaces of the clustering groups during weekdays

图4   节假日聚类结果工作地空间分布图

Fig.4   Spatial distribution of workplaces of the clustering groups during holidays



4 结论




The authors have declared that no competing interests exist.


Information and communication technologies (ICTs), such as mobile phones and the Internet, are increasingly pervasive in modern society. These technologies provide new resources for spatio-temporal data mining and geographic knowledge discovery. Since the development of ICTs also impacts physical movement of individuals in societies, much of the existing research has focused on examining the correlation between ICT and human mobility. In this paper, we aim to provide a deeper understanding of how usage of mobile phones correlates with individual travel behavior by exploring the correlation between mobile phone call frequencies and three indicators of travel behavior: (1) radius, (2) eccentricity, and (3) entropy. The methodology is applied to a large dataset from Harbin city in China. The statistical analysis indicates a significant correlation between mobile phone usage and all of the three indicators. In addition, we examine and demonstrate how explanatory factors, such as age, gender, social temporal orders and characteristics of the built environment, impact the relationship between mobile phone usage and individual activity behavior.
