研究论文

基于手机信令数据的非就业活动目的识别——以上海市为例

  • 殷振轩 , 1 ,
  • 王德 , 1, * ,
  • 翟宝昕 2 ,
  • 张天然 3 ,
  • 晏龙旭 1
展开
  • 1.同济大学建筑与城市规划学院,上海 200092
  • 2.西北大学城市与环境学院,西安 710127
  • 3.上海市城市规划设计研究院,上海 200040
*王德(1963—),男,教授、博士生导师,主要从事城市规划方法论、空间与行为、城市大数据、城市模型领域的教学与研究。E-mail:

殷振轩(1990—),男,博士生,主要从事时空行为、城市大数据研究。E-mail:

收稿日期: 2024-06-04

  修回日期: 2024-11-19

  网络出版日期: 2025-03-24

基金资助

国家自然科学基金项目(52378069)

Inferring non-work activity purposes from mobile phone signaling data: Insights from Shanghai

  • YIN Zhenxuan , 1 ,
  • WANG De , 1, * ,
  • ZHAI Baoxin 2 ,
  • ZHANG Tianran 3 ,
  • YAN Longxu 1
Expand
  • 1. College of Architecture and Urban Planning, Tongji University, Shanghai 200092, China
  • 2. College of Urban and Environmental Sciences, Northwest University, Xi'an 710127, China
  • 3. Shanghai Urban Planning & Design Research Institute, Shanghai 200040, China

Received date: 2024-06-04

  Revised date: 2024-11-19

  Online published: 2025-03-24

Supported by

National Natural Science Foundation of China(52378069)

摘要

手机信令数据在时空行为研究中得到了广泛应用,但由于缺乏活动目的的语义信息,限制了其在城市规划中的应用潜力。为了解决这一问题,论文提出一种改进方法,用于推断手机信令数据中非就业活动目的。该方法融合了居民交通出行调查数据和活动地到访频率等多源数据,并采用多项logit模型探究活动目的与个体属性信息、活动时间特征和活动地空间属性之间的关联规律。此外,论文创新性地引入了反映长周期行为模式的到访地频率变量。实证结果表明,加入到访频率后,模型拟合优度从0.265提高至0.442,整体预测准确率从58.0%升至69.2%。这种方法在保持模型解释性的同时,提升了非就业活动识别的准确率,为深入理解居民时空行为需求提供了新的途径。研究成果可以为公共设施规划、交通需求预测和商业布局优化等领域提供有力的数据支持和决策参考。

本文引用格式

殷振轩 , 王德 , 翟宝昕 , 张天然 , 晏龙旭 . 基于手机信令数据的非就业活动目的识别——以上海市为例[J]. 地理科学进展, 2025 , 44(3) : 583 -593 . DOI: 10.18306/dlkxjz.2025.03.011

Abstract

Mobile phone signaling data have been widely used in spatiotemporal behavior research, but their potential application in urban planning is limited due to the lack of information on activity purposes. To address this issue, this study proposed a method to infer the purposes of non-work activities from mobile phone signaling data. The method integrates multisource data, and employs a multinomial logit model to explore the relationship between activity purposes and individual attributes, temporal characteristics, and spatial properties of activities. The key innovation lies in the introduction of a location visit frequency variable that reflects long-term behavioral patterns. Empirical results show that incorporating visit frequency significantly improves the model's goodness of fit from 0.265 to 0.442, and increases the overall prediction accuracy from 58.0% to 69.2%. While maintaining interpretability, this method substantially enhances the accuracy of non-work activity identification, providing new insights into residents' spatiotemporal behavior patterns. The findings offer valuable data support and decision-making references for public facility planning, traffic demand forecasting, and business spatial layout optimization.

准确把握居民的出行需求,对于城市规划和交通管理至关重要[1]。出行需求不仅揭示了居民的时空行为模式,更预示了对城市公共服务设施和基础设施的潜在需求。深入分析出行目的有助于规划师和决策者预测并满足居民在居住、工作、教育、休闲等方面的时空间需求,从而推动更高效、可持续的城市发展[2]
传统的出行需求研究主要依赖两类数据源:一是由政府机构定期开展的大规模居民交通出行调查,二是学者针对特定研究需求进行的小规模问卷调查。交通出行调查数据以其样本量大、信息丰富而备受青睐,为城市规划和交通管理提供了可靠的决策支持[3]。然而,其也存在一定的局限性:高昂的调查成本和低频率的调查周期限制了其时效性;调查内容的固定性有时难以适应多变的研究需求;由于数据仅包括一日出行信息,难以捕捉到长期时空行为规律;且隐私保护法规使得数据获取过程充满挑战。相比之下,问卷调查在灵活性上有明显优势,可以根据需求随时开展,并且调查内容的设计可以更好地反映研究目标。但是,其样本量偏少,限制了研究结论的适用性。
近年来,随着技术的发展,手机信令数据凭借超大样本量、丰富的时空信息等优势,在时空行为研究中得到了广泛应用[4-5]。与交通调查数据相比,手机信令数据获取更便利,且不受传统调查周期的限制,可以支持任意时间段的研究和分析。更重要的是,手机信令数据能够持续、完整地追踪个体的活动轨迹,揭示出行行为的长期模式[6]。然而,手机信令数据本身并不直接提供活动目的的语义信息,特别是缺乏家外非就业活动的目的信息,这在一定程度上限制了其在城市规划、公共服务设施配置等领域的应用潜力[7]。因此,如何充分挖掘手机信令数据在时空维度上的独特优势,精准有效地识别居民的家外非就业活动目的,成为当前亟待解决的问题。
目前,用于推断活动目的的方法可分为三类:基于规则的方法、基于概率的方法和基于机器学习的方法[8],每种方法都有其优势与不足。基于规则的方法通过分析活动的时空特征,基于一系列预设的启发式规则来识别活动目的[9-10]。这种方法易于理解和实现,但具有较强的主观性,仅适用于时空特征明显的活动目的识别,识别精度有限。识别手机信令数据的居住和就业活动主要采用这种方法。基于概率的方法采用数学统计方法计算活动属于某一目的的概率,如离散选择模型[7]、重力模型[11]、贝叶斯模型[12-13]、活动模式概率[14]等,精度相对较高,但是需要一定量的训练数据,也不能处理过于复杂的分类任务。基于机器学习的方法,主要包括监督学习,如决策树[15]、支持向量机[15]、神经网络[16]、随机森林[17]等,以及基于活动时空特征相似性聚类[18]的无监督学习。基于机器学习的方法具有较高的识别精度,但结果解释性较差,计算复杂,难以在手机信令数据平台上实施。除了识别方法,学者还探讨了影响活动目的识别的关键因素。既有研究在识别活动目的时,主要考虑4个方面影响因素:一是活动地点的空间属性,包括兴趣点(POI)类型占比[14-15,19],土地利用状况[10],距CBD、居住地的距离[7,15],人口和就业密度[7],公交和地铁站点数量[7]等;二是活动的时间特征,包括持续时间[10,15]、开始时间[7,10,15],活动日期[7]等;三是居住地的社会经济属性[7];四是其他因素,包括活动模式[10,14,19]和天气情况[7]等。
尽管上述研究在活动目的识别领域取得了长足进展,但主要针对GPS、地铁刷卡等数据源,在推断手机信令数据的活动目的方面仍存在显著不足。现有研究主要聚焦于推断手机信令数据中个体的居住地和工作地,而针对非就业活动的研究则相对匮乏。这主要源于居住和工作活动的高度规律性使其易于识别,而非就业活动则因其多样性和复杂性,面临识别准确率偏低的挑战。赵鹏军等[17]的研究表明,在综合考虑出发时刻、出行时间和活动地空间属性等因素的情况下,就业活动的识别准确率可达91.27%,而家外非就业活动的识别准确率仅为59.21%。这其中一个重要原因是,现有方法未能充分挖掘手机信令数据所蕴含的全部信息,特别是未能利用其独特的时间维度优势。手机信令数据不仅能够记录个体在不同地点的活动,还可以揭示其在某一活动地点的长期到访规律。然而,当前研究主要聚焦手机信令数据提供的空间位置信息,忽视了长期行为模式的重要性。事实上,不同目的活动在发生频率上往往存在显著差异。例如,日常生活活动和休闲、娱乐活动通常具有较高的频率,可能每周发生多次;而就医活动的频率则相对较低,可能每月甚至每年才发生一次。这种频率上的差异为区分不同类型的活动目的提供了重要线索。Alsger等[13]发现将频率特征纳入模型可显著提高刷卡数据活动目的识别的准确性。这一发现对于提高多样化的非就业活动目的识别准确性具有更大的意义。
除了方法本身的局限性,应用识别手机信令数据中非就业活动目的的方法还受到严重制约。准确推断活动目的通常需要运用个体数据,但日益严格的隐私保护政策使得获取和使用个体级别数据变得极为困难。虽然中国联通公司开发的数据平台提供了手机信令数据服务,并成为了获取此类数据的主要渠道,但其使用仍受严格限制。具体而言,该平台允许基于个体数据进行运算,却只能输出群体统计结果,研究者无法直接接触或导出原始个体数据。更为关键的是,平台未开放复杂算法的使用接口,仅支持简单运算。这些数据获取和使用上的严格限制,大大增加了非就业活动目的识别研究的难度,同时制约了相关方法的发展和应用。
基于此,本文尝试提出一种改进方法,用以识别手机信令数据中家外非就业活动的目的。该方法旨在既能准确识别非就业活动目的,又能适应手机信令数据平台对数据使用和算法复杂度的严格限制。具体而言,本文在融合多源数据的基础上,采用多项logit模型探究活动目的与个体属性信息、活动时间特征和活动地空间属性之间的关联规律,并纳入到访地频率,以充分运用手机信令数据的丰富信息提高识别精度。研究有望拓展手机信令数据在时空行为研究的应用前景,并为基于大数据的城市规划和管理决策提供有力支撑。

1 研究设计

不同目的的活动在时空分布上呈现显著差异。例如,就业活动多发生于工作日早高峰时段的办公商务区,而休闲娱乐活动则更频繁地出现在工作日傍晚或周末的商业娱乐设施周边;日常生活活动通常具有较高的频率,而就医活动则相对较少发生。究其原因,活动发生的时空特征与该活动的目的高度相关,不同目的的活动遵循着独特的时空间规律。此外,不同社会经济属性人群在参与各类活动时也表现出不同的偏好。例如,青年群体更倾向于进行远距离的休闲娱乐活动,而老年群体更多地在居住地周边从事日常生活类活动。基于以上事实,可以推断,活动发生的时间、空间,以及参与人群的社会经济属性都与活动目的密切相关,基于三类因素构建的分类模型能够较为准确地识别活动的具体目的。特别地,引入活动频率这一时间特征,有望进一步提高模型对非就业活动的识别精度。
本文的研究设计包括4个主要步骤,如图1所示。首先,从各数据中筛选出家外非就业活动。家外非就业活动指不在居住地和不在工作地进行的活动,涵盖购物、休闲娱乐、就医等多种类型。对于手机信令数据,本文基于由中国联通公司利用时空行为特征推断的居住地和工作地位置来筛选家外非就业活动记录。对于交通调查数据,则基于其明确的活动目的信息进行筛选。其次,基于手机信令数据的特性,通过融合居民交通出行调查数据、活动地到访频率数据等多源数据,构造一个包含活动目的且与手机信令数据高度类似的新数据集,用于模型校核。这一融合得到的新数据集,既保留了居民交通出行调查数据在样本代表性、社会经济属性以及活动时空信息记录等方面的优势,又补充了长周期活动规律特性,使其与手机信令数据更加相似。基于该数据集训练的模型,能够充分利用手机信令数据所包含的丰富信息,从而更准确地推断家外非就业活动目的。具体的数据融合方法将在数据准备部分详细说明。再次,借鉴Diao等[7]的研究,本文采用多项logit模型提取活动目的和活动参与者社会经济属性、活动发生时间及活动发生空间之间的内在关系。选择该模型主要基于以下考虑:多项logit模型是一种离散选择模型,可以有效处理因变量为多分类变量的问题,这与识别多种非就业活动目的的需求相符;同时,模型形式相对简单,便于后续在联通手机信令数据平台进行大规模计算和应用,这一特性在平台对算法严格限制的情况下尤为重要;此外,相较于某些复杂的机器学习模型,多项logit模型具有更强的解释性,有助于深入理解各种因素对活动目的识别的影响机制。综上所述,多项logit模型能够在模型性能、计算效率和结果可解释性之间取得良好的平衡,不仅满足了识别非就业活动目的的研究需求,同时也符合数据平台的技术约束。模型的数学表达式如下:
P n h g i = e x p α i + β i V n + γ i T n h + δ i L n g j C e x p α j + β j V n + γ j T n h + δ j L n g
式中:Pnhg(i)表示个体n在时间h、地点g进行的活动是i的概率;V是参与者社会属性特征变量;T是活动时间特征变量;L是活动空间特征变量,C是活动目的类型的集合;αβγδ是模型待标定的参数。最后,将校准后的模型应用于中国联通公司数据平台上筛选后的手机信令数据,推断每条家外非就业记录所对应的具体活动目的。
图1 识别方法示意图

Fig.1 Identification process flowchart

2 研究数据与数据预处理

2.1 研究数据

本文主要使用的数据集包含手机信令数据、居民交通出行调查数据、活动地到访频率数据、建筑数据,以及兴趣点(POI)数据等(表1)。
表1 数据说明

Tab.1 Data description

数据名称 数据来源 具体信息
手机信令数据 中国联通公司 用户社会经济属性;用户时空行为数据
居民交通出行调查数据 文献[20] 家庭基本情况;家庭成员社会经济属性;一日出行信息
活动地到访频率数据 文献[21] 用户社会经济属性;各类活动的活动地点及到访频率
建筑数据 文献[22] 建筑轮廓;建筑高度
POI数据 高德地图 各类POI空间分布
手机信令数据来源于中国联通公司。主要包含两类信息:一是时空行为数据,记录了用户每日出行起讫位置及其时间,并含有根据每个用户一个月内时空行为特征推断的居住地和工作地位置;二是用户的社会经济属性数据,记录了用户的性别和年龄等信息。本文采用的数据为2020年11月上海市域范围内用户的相关信息。
居民交通出行调查数据以家庭为单位,主要包括三部分内容:一是家庭的基本情况,包含家庭住址、家庭人数、拥有车辆数等;二是家庭成员信息,包含年龄、性别、职业、就业(就学)地等;三是每位家庭成员的一日出行信息,包含在调查日24 h内的每一次出行的时间、地点、目的、方式等。本文使用了与文献[20]相同的数据,包含上海市中心区(杨浦区)和郊区(松江区)的居民出行信息。
活动地到访频率数据来源于翟宝昕等[21]于2020年在上海市开展的问卷调查。调查内容包括被调查者的社会经济属性信息和各类活动目的的活动地点及其到访频率等。
建筑数据是来自晏龙旭等[22]基于深度学习和2019年高精度卫星影像识别的上海市建筑数据,包括建筑轮廓以及建筑高度等信息。
土地利用数据和POI数据分别来自第二次全国土地调查和2020年高德地图数据。

2.2 数据预处理

本文的因变量选取基于居民交通出行调查中出行目的的分类,从5类家外非就业类活动目的中筛选出了4类,分别是:① 文化、体育、娱乐等休闲活动;② 业务活动;③ 就医活动;④ 日常生活活动,如购物、散步、加油、邮寄、取款等日常事务。由于接送活动的停留时间较短,手机信令数据难以记录该类活动,因此未纳入本次研究的因变量范畴。
自变量的选取主要基于两条标准:一是前人研究中已证实与出行目的相关的重要变量,二是手机信令数据能够提供的特征信息。据此,本文纳入了个体属性、活动的时间特征以及活动地点的空间属性三类变量(表2)。
表2 特征变量

Tab.2 Characteristic variables

类别 变量 变量取值
个体属性 年龄 1=20~34岁;2=35~49岁;
3=50~64岁;4=65岁及以上
性别 1=男性;2=女性
时间属性 日期 1=工作日;2=休息日
开始时间 1=6:00~9:00;2=9:00~18:00;
3=18:00~22:00;4=22:00~6:00
持续时间 连续变量
到访频率 连续变量
空间属性 活动地距家距离 连续变量
活动地距城市中心距离 连续变量
是否有医院 0=没有;1=有
A类用地内建筑面积 连续变量
B类用地内建筑面积 连续变量
G类用地面积 连续变量
在个体属性方面,研究表明,具有不同社会经济属性的个体往往呈现出不同的活动模式[23]。基于手机信令数据中可获得的个体信息,本文纳入了年龄和性别两个变量。年龄被划分为青年(20~34岁)、壮年(35~49岁)、中年(50~64岁)和老年(65岁及以上)4个类别,以刻画不同生命周期阶段居民的活动特征差异。性别分为男性和女性,以捕捉性别差异对活动参与的影响。这些个体属性变量预期会对不同类型活动的参与倾向产生影响,从而有助于活动目的的识别。
在时间特征方面,本文选取了活动日期、活动开始时间、活动持续时间和活动地到访频率4个变量。这些变量的选取基于已有研究中发现的活动时间规律性[7,13],同时充分利用了手机信令数据包含的各类时间信息,有望通过捕捉不同活动的时间利用模式,为活动目的识别提供重要线索。其中,将活动日期分为工作日和休息日,以区分不同日期类型下居民参与活动的差异。考虑到一天内不同时段居民活动的节律性变化,将活动开始时间划分为早间(6:00~9:00)、日间(9:00~18:00)、晚间(18:00~22:00)和夜间(22:00~次日6:00)4个时段。活动持续时间变量则用于刻画不同目的活动开展时长的差异。此外,本文创新性地引入了活动地到访频率变量,以反映居民活动参与的长周期时间规律性。对于手机信令数据,活动地到访频率可以直接通过统计个体在特点地点的平均每周到访次数获得。然而,传统的交通出行调查数据不包含这种长期行为信息。为此,本文通过问卷调查获取了到访频率信息。调查要求被访者回答不同活动目的常去地点,以及到访这些地点的频率。频率测度采用开放式回答方式,被访者可以自由表述其到访频率,如每周2次、每年1次等。在数据处理时,将这些频率描述统一转换为每周到访的次数。考虑到相同属性人群具有相似活动模式的特性,参考相关文献[12,24],本文按照活动参与者的年龄、性别和活动目的分组,采用分层随机抽样的方法将问卷获得的频率信息融入居民交通出行调查数据中。这样能在保持交通出行调查数据原有优势的同时,补充长期行为模式信息,从而使其更接近手机信令数据的特性。
在空间属性方面,研究发现建成环境要素对行为有显著影响[7,25]。本文纳入了活动地离家距离、活动地离城市中心距离、活动地周边是否有医院、活动地周边公共管理与服务(A类)用地内建筑面积、活动地周边商业服务设施(B类)用地内建筑面积以及活动地周边绿地与广场(G类)用地面积6个变量。这些空间属性变量预计会通过反映不同类型活动对场所选择的偏好,对活动目的识别产生重要影响。在量化活动地周边建成环境要素时,考虑到手机信令数据的空间误差,本文采用500 m×500 m的栅格对研究区域进行划分,将活动地匹配至相应栅格,以活动地所在栅格中心为圆心,1 km为半径的圆形区域视为该活动地的周边区域,并统计该范围内的空间要素。

3 模型结果分析

本文采用多项logit回归模型对样本数据集进行拟合分析。模型以休闲类活动为基准类别,拟合结果显示,该模型在1%显著性水平下通过了似然比检验,表明可以拒绝所有参数均为0的原假设,即引入的解释变量能够有效区分不同目的的活动参与行为。模型的McFadden's R2达到0.442,说明模型对因变量的解释力较强,拟合效果良好。基于模型的估计结果计算样本的活动目的概率,结果显示模型的整体预测准确率达到了69.2%。该非就业活动识别准确率略低于Zhao等[26]使用基于机器学习方法达到的71.39%,但高于Alsger等[13]的46%和Kusakabe等[12]的58.9%的非就业活动识别准确率。这些比较表明该模型具有较高的预测精度,可以用于识别非就业活动的目的。
本文的一大创新点在于纳入到访地频率这一反映活动长周期时间规律性的变量。对比包含该变量的改进模型与不含该变量的基准模型(表3),结果表明:首先,加入到访地频率后,改进模型的拟合优度指标McFadden's R2显著提升,表明模型拟合效果显著改善;其次,改进模型的AIC和BIC值均明显减小,说明加入到访地频率后模型的过度拟合风险更低,泛化能力更强;最后,改进模型的整体预测准确率由58.0%大幅提升至69.2%,充分验证了到访地频率这一活动的长周期时间规律性特征对于提升模型预测性能的作用。
表3 拟合优度度量指标

Tab.3 Goodness indicators of fit metrics

评价指标 基准模型 改进模型
McFadden's R2 0.265 0.442
AIC 2.158 1.672
BIC -6679.947 -7339.962
表4显示了改进模型的参数标定结果。估计结果表明,个体属性、时间特征和空间属性在识别活动目的中起着重要的作用。
表4 以休闲类活动为效用基础项的活动目的识别模型估计结果

Tab.4 Estimation results of model parameters based on "leisure" activity

类别 业务 就医 日常生活
系数 Z 系数 Z 系数 Z
个体属性
年龄(壮年:35~49岁) 0.866** 2.93 -0.302 -0.75 0.581* 1.97
年龄(中年:50~64岁) -0.277 -0.98 0.640* 2.19 0.385 1.36
年龄(老年:65岁及以上) -1.978** -4.15 1.381** 4.30 0.158 0.52
性别(女) -1.129** -4.64 0.303 1.46 0.166 0.96
时间属性
日期(休息日) -1.072** -4.33 -0.871** -3.79 -0.005 -0.03
开始时间(日间:9:00~18:00) 0.026 0.10 -0.627** -2.73 -0.793** -4.03
开始时间(晚间:18:00~22:00) -0.894 -1.84 -4.217** -4.70 -1.367** -4.48
开始时间(夜间:22:00~6:00) 6.798** 7.53 -10.398** -13.53 0.107 0.10
持续时间 -0.057 -1.24 -0.202** -4.79 -0.625** -5.95
到访频率 -10.593** -12.48 -5.225** -8.58 -0.038 -0.89
空间属性
活动地距家距离 0.037* 2.00 0.009 0.47 -0.030 -1.13
活动地距城市中心距离 0.015 1.39 -0.004 -0.39 0.009 1.11
是否有医院(有) -0.638 -1.43 1.586* 2.01 0.999* 2.28
A类用地建筑面积 -1.535** -2.87 1.179** 2.90 -0.667 -1.62
B类用地建筑面积 0.278 1.39 -0.527* -2.46 -0.436 -1.54
G类用地面积 -1.340* -2.29 -2.426** -4.07 -1.359** -3.22
常数项 3.875** 6.16 0.807 0.90 1.051 1.88

注:表中将青年(20~34岁)、男性、工作日、早间(6:00~9:00)和活动地周边无医院,分别设置为年龄、性别、活动日期、活动开始时间和活动地周边是否有医院的参照水平;**、*分别表示P<0.01和P<0.05。

从个体属性来看,年龄和性别对参与的活动目的具有显著影响。年龄的影响呈现明显的阶段性特征。与青年人群相比,壮年人群更多从事业务活动和日常生活活动。随着年龄的进一步增加,特别是老年人群,由于身体机能的自然衰退和家庭生命周期的转变,更可能进行就医活动,同时减少了业务类活动的参与概率。在性别方面,相比于休闲类活动,男女在参与业务类活动方面有显著差异,而在就医和日常生活活动的参与程度上则未表现出显著的差异。女性参与业务类活动的倾向明显低于男性,这一现象可能反映了传统性别角色分工在现代社会中的影响。
就活动的时间特征而言,活动日期、开始时间、持续时间和活动地到访频率对活动目的的识别均产生显著影响。关于活动日期的结果表明,在休息日进行业务活动和就医活动的概率明显低于工作日,凸显了活动日期作为重要时间约束对这两类活动的制约作用。相比之下,日常生活活动在工作日和休息日与休闲类活动并无显著差异。同时,三类活动休息日的系数均为负值也表明人们在休息日开展的活动更可能是休闲类活动。在开始时间方面,就医活动在日间、晚间和夜间,以及日常生活活动在日间和晚间的变量系数均呈现显著的负值。这表明,相较于休闲类活动,这些活动在上述时段的发生概率均明显低于早间。值得注意的是,随着时间推移,这些系数的绝对值呈现递增趋势,意味着开展就医和日常生活活动的可能性逐渐降低,这与医疗机构等的运营时间吻合。关于活动持续时间,日常生活活动和就医活动的系数均为显著负值,这表明相对于休闲类活动,这两类活动的持续时间相对较短,反映了活动的固有特性。因此,活动时长越长,其被识别为休闲类活动的可能性越大,而被归类为日常生活活动或就医活动的可能性降低。到访频率的系数揭示了活动目的与到访频率之间的关联。业务活动和就医活动的系数均呈现显著负值,其中业务活动系数的绝对值更大,而日常生活活动的系数不具统计显著性。这表明,随着到访频率的增加,活动被识别为休闲类或日常生活活动的概率提高。相比之下,高频率到访降低了被判定为就医活动的可能性,被识别为业务活动的概率更是显著降低。这可能是源于人们的行为模式和活动特性。居民倾向于在熟悉和舒适的环境中进行休闲和日常活动,这种偏好导致了更高的到访频率。而就医活动通常是基于特定需求发生,其频率受健康状况制约,业务活动则可能涉及多个不同地点,其多样性和灵活性使得对单一地点的访问频率较低。
从活动地点的空间属性看,活动地离家距离、活动地周边是否有医院、活动地周边A类用地内建筑面积、活动地周边B类用地内建筑面积以及活动地周边G类用地面积对参与的活动目的具有显著影响。活动地点离家距离对业务活动具有显著正向影响。离家距离越远,该活动被识别为业务活动的可能性越高,这可能源于业务活动地点的强约束性,居民不得不在离家较远的地方开展业务活动,同时也反映了业务活动特有的空间分布特征。医院的存在对就医活动的影响尤为显著。在医院附近,开展就医活动的概率大幅提高。同时,这一变量对日常生活活动也有正向影响,可能反映了医院周边往往配套有多样化的生活服务设施。此外,不同用地性质也会影响居民参与活动的目的。公共管理与服务类用地内建筑面积增加会提高就医活动发生的概率,但降低业务活动的概率;商业服务设施用地内建筑面积增加则会降低就医活动的发生概率;绿地与广场用地面积增加显著降低了业务、就医和日常生活活动的发生概率,相对增加休闲类活动的概率。

4 模型应用

为了展示本文所构建的非就业活动目的识别模型在实际应用中的效果,笔者推断了上海市2020年11月12—18日一周的手机信令数据中家外非就业活动的类型。首先对数据进行预处理,筛选出在上海市域范围内稳定出现的274.3万常住手机用户,并基于时空阈值提取他们在非居住地和非就业地发生的、持续时间超过45 min的、活动开始时间晚于凌晨1:00的生活活动,共计1223.0万条,作为研究对象。经过计算,从中识别出698.1万条文化、体育、娱乐等休闲活动,占比57.1%;177.5万条业务活动,占比14.5%;32.9万条就医活动,占比2.7%;以及314.6万条日常生活活动,占比25.7%。
图2展示了4类非就业活动在上海市一周内的空间分布。从总体上看,不同类型的生活活动在空间分布上具有差异。文化、体育、娱乐等休闲活动主要集中于城市的商业生活中心,如南京东路、淮海中路、世纪大道、徐家汇、静安寺、中山公园、五角场等,这些区域承载了上海市商业、游憩等功能。业务类活动主要分布在地铁2号线两侧的城市核心商务区和重要交通枢纽处,包括陆家嘴、南京东路、南京西路、虹桥商务区、徐家汇、曹杨路、长寿路、浦东机场等。就医活动则高度集聚在浦西的内环周边,与医疗资源的空间分布高度相关。日常生活活动的空间分布相对分散,在内环内中心区域呈现低值,而在内环外的人口集聚区形成了多个高值区。
图2 4类活动空间分布核密度

注:本图基于国家地理信息公共服务平台(天地图)下载的审图号GS(2024)0650号的标准地图绘制,底图无修改。

Fig.2 Kernel density map of four types of activities

图3展示了4类非就业活动在典型工作日和典型休息日的开始时间分布情况。可以发现,4类活动在一日不同时段和不同日期间的开始时间分布均存在显著的差异。在工作日,文化、体育、娱乐等休闲活动的开始时间主要集中在9:00以后,并在18:00左右达到一个显著的峰值,并且傍晚开始的活动量显著多于日间,表明在工作结束后,居民倾向于参与此类活动;业务活动的高峰期则集中在9:00~15:00之间,与就业时间吻合;就医活动的开始时间分布呈现出两个高峰,分别在8:00和13:00,这与医疗机构的工作时间和人们就医的习惯密切相关;与此同时,日常生活活动在早晨较为集中,随后逐渐减少。在休息日,4类活动的开始时间分布则趋于均衡。文化、体育和娱乐等休闲活动在日间明显增多,反映人民在休息日有更多自由时间来安排这些活动;就医活动显著减少,这可能是受医疗机构的服务时间影响;业务活动和日常生活活动开始时间在休息日的分布形态与工作日的相似,但总量和时段间的差异均有所减少。
图3 家外非就业活动时间分布

Fig.3 Starting time distribution of non-work activities

5 结论与讨论

本文针对手机信令数据缺乏家外非就业活动目的信息的问题,提出了一种改进的识别方法。通过构建多项logit模型,本文利用个体属性信息、活动时间特征和活动地空间属性识别了居民的非就业活动目的。研究中的一个重要贡献是在模型中纳入了反映行为长周期时间规律的到访地频率,进一步挖掘了手机信令数据的优势,提高了识别活动目的的准确性。研究结果表明,本文所提出的方法在推断居民非就业出行目的上具有很强的预测能力。特别是,在纳入到访地频率后,模型的拟合优度和整体预测准确率分别从0.265和58.0%提升至0.442和69.2%。这种方法在保持模型解释性的同时,提升了非就业活动识别的准确率,为深入理解居民时空行为需求提供了新的途径。
同时,研究结果在城市规划和管理实践中具有重要的应用价值。首先,该方法能够精准把握出行需求,为优化城市规划和设施运维管理贡献力量。通过应用这一方法,研究者能从手机信令数据中更准确地识别“多少人在何时何地产生何种类型的需求”。基于这些多维度的信息,规划师可以更精准地优化公共设施的位置、规模和开放时间,从而提高设施利用效率并增强居民获得感。此外,通过深入理解城市空间的动态利用情况,能够营造功能设置更加复合、调整更加灵活的城市空间,以适应不同时段、不同人群的多元化需求。其次,本方法提供了一个高效的出行需求分析和决策支持工具。与传统的交通出行调查相比,通过识别手机信令数据中的活动目的,研究者能够获得更及时的出行需求分析结果,无需依赖失去时效性的调查数据。还能支持灵活开展特殊时间点前后的比较分析,深入探讨城市活动模式的动态变化。在强大计算能力的支持下,更是可以对城市活动进行空间和时间上的持续监测和可视化,为城市管理者提供近乎实时的决策支持。总的来说,本文提出的方法为城市规划和管理提供了一个强大工具。使用识别了活动目的的手机信令数据,能够以更低的成本、更高的频率、更大的灵活性来监测和分析城市活动模式。这不仅提高了城市管理的效率和精度,还为建设更加智能、宜居的城市提供了重要的数据基础。
然而,本文的研究仍存在一些局限性。首先,当前活动目的的分类相对简化,可能未能充分满足城市规划与管理多样化需求。为解决这一问题,未来研究应根据具体城市规划与管理需求,考虑更加细致和针对性的活动目的分类体系,以期在实际应用中更有效地辅助决策。其次,手机信令数据可能存在数据代表性问题。尽管覆盖范围广,但可能对某些特定群体(如老年人群)的代表性不足。在进行城市规划与管理的应用时,可能导致对这些群体的需求估计不准确,需要基于普查数据对样本进行校准,以确保结果能够反映全部人群的活动模式。最后,本文使用的多源数据在时间上存在一定差异,可能引入些许误差。然而,这种时间差异对研究结果的影响可能有限,主要基于以下两点:一是城市建成环境和居民出行行为模式在一定时期内相对稳定,使不同时间点数据融合具有合理性;二是本文参考相关研究,采用了基于相同属性人群具有相似活动模式特性的方法来融合交通出行调查数据和到访频率数据,并运用常用的空间匹配方法关联空间位置与建成环境数据,使数据融合的方法具有一定可靠性。尽管如此,未来研究仍应致力于获取时间上更为一致的多源数据,以进一步提升模型准确性。需要强调的是,本文的重点在于构建识别活动目的的新方法,而上述局限性并不影响所提出方法的创新性和有效性。未来研究可以在获得更高质量数据的基础上,应用本文提出的方法,开展更加精确的研究。
[1]
张文佳, 柴彦威. 基于家庭的城市居民出行需求理论与验证模型[J]. 地理学报, 2008, 63(12): 1246-1256.

[Zhang Wenjia, Chai Yanwei. Theories and confirmed model of urban resident's travel demand: Considering intra-household interaction. Acta Geographica Sinica, 2008, 63(12): 1246-1256.]

DOI

[2]
卢银桃. 基于日常服务设施步行者使用特征的社区可步行性评价研究: 以上海市江浦路街道为例[J]. 城市规划学刊, 2013(5): 113-118.

[Lu Yintao. Walkability evaluation based on people's use of facilities by walking. Urban Planning Forum, 2013(5): 113-118.]

[3]
陈小鸿, 陈先龙, 李彩霞, 等. 基于手机信令数据的居民出行调查扩样模型[J]. 同济大学学报(自然科学版), 2021, 49(1): 86-96.

[Chen Xiaohong, Chen Xianlong, Li Caixia, et al. Sample expansion model of household travel survey using cellphone data. Journal of Tongji University (Natural Science), 2021, 49(1): 86-96.]

[4]
吴杭彬, 陈茜茜, 靳慧玲, 等. 基于手机导航轨迹数据的城市大规模人群出行模式分析[J]. 同济大学学报(自然科学版), 2023, 51(7): 1002-1009.

[Wu Hangbin, Chen Qianqian, Jin Huiling, et al. Analysis of urban mass crowd traveling patterns based on mobile phone navigation trajectory data. Journal of Tongji University (Natural Science), 2023, 51(7): 1002-1009.]

[5]
王德, 王灿, 谢栋灿, 等. 基于手机信令数据的上海市不同等级商业中心商圈的比较: 以南京东路、五角场、鞍山路为例[J]. 城市规划学刊, 2015(3): 50-60.

[Wang De, Wang Can, Xie Dongcan, et al. Comparison of retail trade areas of retail centers with different hierarchical levels: A case study of East Nanjing Road, Wujiaochang, Anshan Road in Shanghai. Urban Planning Forum, 2015(3): 50-60.]

[6]
王德, 谢栋灿, 王灿, 等. 个体时空行为的规律性与可预测性研究: 以上海市居民工作日活动为例[J]. 地理科学进展, 2021, 40(3): 433-440.

DOI

[Wang De, Xie Dongcan, Wang Can, et al. Regularity and predictability of individual spatiotemporal behavior: A case study of residents working day activities in Shanghai. Progress in Geography, 2021, 40(3): 433-440.]

[7]
Diao M, Zhu Y, Ferreira J, et al. Inferring individual daily activities from mobile phone traces: A Boston example[J]. Environment and Planning B: Planning and Design, 2016, 43(5): 920-940.

[8]
崔梦妍. 基于共享单车数据的出行目的推断及其时空特征分析研究[D]. 西安: 长安大学, 2023.

[Cui Mengyan. Travel purpose inference and spatio-temporal characteristics analysis based on bike-sharing data. Xi'an, China: Chang'an University, 2023.]

[9]
Wolf J, Guensler R, Bachman W. Elimination of the travel diary: Experiment to derive trip purpose from global positioning system travel data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2001, 1768(1): 125-134.

[10]
Yin M G, Sheehan M, Feygin S, et al. A generative model of urban activities from cellular data[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(6): 1682-1696.

[11]
Li S Y, Zhuang C G, Tan Z Z, et al. Inferring the trip purposes and uncovering spatio-temporal activity patterns from dockless shared bike dataset in Shenzhen, China[J]. Journal of Transport Geography, 2021, 91: 102974. doi: 10.1016/j.jtrangeo.2021.102974.

[12]
Kusakabe T, Asakura Y. Behavioural data mining of transit smart card data: A data fusion approach[J]. Transportation Research Part C: Emerging Technologies, 2014, 46: 179-191.

[13]
Alsger A, Tavassoli A, Mesbah M, et al. Public transport trip purpose inference using smart card fare data[J]. Transportation Research Part C: Emerging Technologies, 2018, 87: 123-137.

[14]
Yin L, Lin N, Zhao Z Y. Mining daily activity chains from large-scale mobile phone location data[J]. Cities, 2021, 109: 103013. doi: 10.1016/j.cities.2020.103013.

[15]
Sun H D, Chen Y Y, Wang Y, et al. Trip purpose inference for tourists by machine learning approaches based on mobile signaling data[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(2): 923-937.

[16]
Xiao G N, Juan Z C, Zhang C Q. Detecting trip purposes from smartphone-based travel surveys with artificial neural networks and particle swarm optimization[J]. Transportation Research Part C: Emerging Technologies, 2016, 71: 447-463.

[17]
赵鹏军, 曹毓书. 基于多源地理大数据与机器学习的地铁乘客出行目的识别方法[J]. 地球信息科学学报, 2020, 22(9): 1753-1765.

DOI

[Zhao Pengjun, Cao Yushu. Identifying metro trip purpose using multi-source geographic big data and machine learning approach. Journal of Geo-information Science, 2020, 22(9): 1753-1765.]

[18]
Widhalm P, Yang Y X, Ulm M, et al. Discovering urban activity patterns in cell phone data[J]. Transportation, 2015, 42(4): 597-623.

[19]
Tu W, Cao J Z, Yue Y, et al. Coupling mobile phone and social media data: A new approach to understanding urban functions and diurnal patterns[J]. International Journal of Geographical Information Science, 2017, 31(12): 2331-2358.

[20]
王德, 韩滨鹂, 张天然, 等. 手机信令数据的出行测度准确性分析: 基于与居民出行调查数据的比较[J]. 地理科学进展, 2024, 43(5): 854-869.

DOI

[Wang De, Han Binli, Zhang Tianran, et al. Accuracy analysis of mobile signaling data in measuring travel indices: Based on the comparison with household travel survey. Progress in Geography, 2024, 43(5): 854-869.]

DOI

[21]
翟宝昕, 朱玮. 家庭生活圈使用模式及其差异特征研究: 以上海市为例[J]. 人文地理, 2024, 39(2): 64-71,123.

[Zhai Baoxin, Zhu Wei. The use modes of household life circle and its difference characteristics: A case study of Shanghai. Human Geography, 2024, 39(2): 64-71, 123.]

[22]
晏龙旭, 涂鸿昌, 王德, 等. 基于深度学习的建筑识别技术在城市体检中的应用[J]. 上海城市规划, 2022(1): 39-46.

[Yan Longxu, Tu Hongchang, Wang De, et al. Exploring city examination using deep learning-based building detection. Shanghai Urban Planning Review, 2022(1): 39-46.]

[23]
陈博文, 周素红, 姜超. 活动视角下建成环境对广州居民通勤效率的影响[J]. 城市规划学刊, 2016(4): 67-74.

[Chen Bowen, Zhou Suhong, Jiang Chao. The impacts of built environment on residents' commuting efficiency based on activities in Guangzhou. Urban Planning Forum, 2016(4): 67-74.]

[24]
Hörl S, Balac M. Synthetic population and travel demand for Paris and Île-de-France based on open and publicly available data[J]. Transportation Research Part C: Emerging Technologies, 2021, 130: 103291. doi: 10.1016/j.trc.2021.103291.

[25]
冯建喜, 杨振山. 南京市城市老年人出行行为的影响因素[J]. 地理科学进展, 2015, 34(12): 1598-1608.

DOI

[Feng Jianxi, Yang Zhenshan. Factors influencing travel behavior of urban elderly people in Nanjing. Progress in Geography, 2015, 34(12): 1598-1608.]

DOI

[26]
Zhao D, Zhou W, Wang W, et al. Trip purpose prediction using travel survey data with POI information via gradient boosting decision trees[J]. IET Intelligent Transport Systems, 2024, 18(2): 269-289.

文章导航

/