Articles

Non-linear relationships between the built environment and walking to school: Applying extreme gradient boosting method

  • LIU Jixiang , 1 ,
  • XIAO Longzhu , 2, * ,
  • ZHOU Jiangping 1 ,
  • GUO Yuanyuan 3 ,
  • YANG Linchuan 4
Expand
  • 1. Faculty of Architecture, The University of Hong Kong, Hong Kong 999077, China
  • 2. College of Engineering, City University of Hong Kong, Hong Kong 999077, China
  • 3. School of Architecture, Tianjin University, Tianjin 300072, China
  • 4. School of Architecture, Southwest Jiaotong University, Chengdu 611756, China

Received date: 2021-02-07

  Request revised date: 2021-05-25

  Online published: 2022-04-28

Supported by

Major Program of the National Social Science Fund of China(20ZDA036)

Key Program of the Center on Child Protection and Development (Sichuan)(ETBH2021-ZD001)

Copyright

Copyright reserved © 2022

Abstract

Walking is not only a primitive and convenient transport mode but also an important integrant of physical activity, which is beneficial for the promotion of public health, alleviation of traffic congestion, and mitigation of transportation-induced pollution. In modern China, cities are expanding rapidly, people are enjoying a dramatic improvement in living standards, and the pace of life is accelerating. As a result, urban people, including adolescents, tend to travel in motorized modes increasingly more and walk less. The prevalence of physical inactivity among adolescents has brought about a series of health issues, such as deterioration of physical fitness, obesity, and some non-communicable diseases (for example, diabetes and hypertension). Travel to school is among the most important routine travels for adolescents. Promoting adolescents' propensity of walking to school can effectively help them integrate physical activity into daily life and thus enhance their overall physical activity level. Hence, scholars from diverse disciplines (for example, geography, urban planning, and public health) have been drawn to examine the relationships between the built environment and walking to school. However, the current research is insufficient in the following two aspects. First, the existing research is mainly based on the Western context, whereas few studies have been conducted in China. Second, the majority of existing studies assumed a linear or generalized linear (for example, log-linear) relationship between the built environment and walking to school, and no studies, to the best of our knowledge, have examined the non-linear relationships between them. Therefore, this study, taking Xiamen, China as the case and employing its large-scale travel behavior survey dataset in 2015, explored the non-linear effects of the built environment on adolescents' propensity of walking to school. We applied a state-of-the-art machine learning method, namely extreme gradient boosting method (XGBoost), to fit the model, and interpreted the model with relative importance and partial dependence plots. The results show that: 1) Distance from home to school is the most important factor influencing walking to school, with the relative importance of 39.99%. 2) The built environment, which is characterized by the 5Ds (density, diversity, design, destination accessibility, and distance to transit) model, is an important contributor, and relative contributions of the built environment variables at home and school collectively contributed 36.28% of the model's explanatory power, only second to distance to school, much higher than that of sociodemographic variables (23.73%). Distance to city center and population density around both home and school contribute a great deal. 3) All the built environment variables at both ends of school trips and the key sociodemographic variables have non-linear effects on adolescents' propensity of walking to school, and there exist obvious threshold effects. This study can inform decision makers with nuanced policy insights for promoting adolescents' behavior of walking to school.

Cite this article

LIU Jixiang , XIAO Longzhu , ZHOU Jiangping , GUO Yuanyuan , YANG Linchuan . Non-linear relationships between the built environment and walking to school: Applying extreme gradient boosting method[J]. PROGRESS IN GEOGRAPHY, 2022 , 41(2) : 251 -263 . DOI: 10.18306/dlkxjz.2022.02.006

步行是一种原始、便捷的交通方式,对于提升经济活力、减轻交通拥堵和污染排放、促进社会交往和社会公平均有着重要的积极意义[1]。同时,步行还是体力活动的重要组成部分[2],可以有效防止或减轻肥胖、II型糖尿病、心脑血管疾病和心理疾病等多种慢性非传染病[3,4]。青少年正处于身体发育、生活习惯养成的关键时期,提升其步行水平不仅有益于其现阶段身心健康和身体发育,更有助于培养其长期的健康行为习惯。然而,由于城市日益蔓延、生活水平逐渐提高、生活节奏日渐加快,包括青少年在内的城市居民日常出行机动化水平快速提高,日常体力活动水平持续下降。据世界卫生组织(WHO)报告,全球范围内,青少年中85%的女孩和78%的男孩未能达到WHO建议的每天1 h体力活动的标准[5]。在中国,青少年体力活动不足的比例更高达80%~89%[6]。体力活动的缺乏为青少年健康带来了一系列不利影响。例如,青少年体能素质(如肺活量、速度、力量等)持续下降[7],青少年肥胖现象日益严重。2010—2019年,青少年肥胖率增长2倍,肥胖人数达到5300万[8]。另外,高血压等慢性非传染病在青少年群体中也开始呈上升趋势[9]
通学出行是青少年日常最重要的出行行为之一。提高青少年步行通学比例,可以帮助青少年将体力活动融入日常行为中,从而提升其整体体力活动水平。因此,如何通过对建成环境的干预,提高青少年步行通学倾向,引起了地理学、城市规划、公共健康等多个领域学者的关注,取得了较为丰硕的研究成果[10]。研究建成环境对出行行为的影响,准确地刻画建成环境是关键。Ewing等[11]用“5Ds”模型描绘建成环境,即密度(density)、多样性(diversity)、设计(design)、目的地可达性(destination accessibility)和公交站点距离(distance to transit),为后续众多“建成环境—出行行为”研究奠定了基础。例如,Moran等[12]发现居住密度可以显著促进青少年步行;Ito等[13]基于美国麻省105所学校通学数据,揭示出土地利用混合度与步行通学概率的显著正相关关系。道路交叉口密度、街道绿视率和交通协管员(国外常见的帮助青少年过马路的交通指挥人员)也被证实与青少年步行通学显著正相关[14,15,16]。同时,研究发现,学校位置可以显著影响青少年步行通学比例[17],而公交站点密度与步行通学呈显著负相关[1]。除了上述建成环境变量,通学距离或通学时间也被证实对步行通学倾向有着显著的影响[1,18]。另外,也有研究关注社区安全性[19]、青少年或家长安全感[20,21],以及青少年或家长对步行的态度[22,23]等因素对步行通学的影响。
然而,一方面,上述已有研究绝大多数以西方发达国家城市为案例,而很少研究关注中国城市建成环境对青少年步行通学行为的影响。中国城市建成环境、人们出行习惯与西方国家大相迥异,西方的研究结论未必完全适用于中国[24]。另一方面,目前关于建成环境对出行行为的影响,存在两方面争议。第一,有学者质疑,建成环境真的重要吗?例如,Stevens[25]提出,建成环境对交通出行行为是不重要的,试图通过干预建成环境来改变交通出行行为将很可能非常低效。Ewing 等[26]和Handy[27]表达了相反的观点。他们认为,即使单个建成环境变量对交通出行行为的影响看起来“较小”,多个建成环境变量的加总作用也是很大的。目前开始有研究采用机器学习的方法探讨建成环境的相对重要性,证实了上述观点[28,29]。例如,Cheng等[30]基于随机森林考察建成环境对于交通出行方式选择的影响,发现建成环境变量的加总相对重要性占所有影响因素的比例高达50%,远高于其他影响因素,如社会经济属性(31.7%)等。类似地,Kim等[31]基于随机森林的研究发现,虽然不同年龄的人群间存在差异,韩国首尔居民的交通出行方式选择受建成环境因素(包括人口密度、工作岗位密度、土地利用混合度等)的重要影响;Parsa等[32]利用极限梯度提升模型研究了交通安全事故的影响因素,发现距中央商务区(CBD)的距离和居住密度等建成环境变量有着显著的重要性。第二,现有绝大部分研究均假设建成环境与出行行为(包括步行通学)之间为线性关系或广义线性关系(如对数线性)。近年来,越来越多研究开始探索建成环境和多种类型的出行行为之间的非线性关系,包括老年人步行[33]、驾车距离[34]、步行距离[35]、出行满意度[36]等。这些研究成功动摇了以往研究关于建成环境和出行行为间的线性(或广义线性)假设。然而,目前还没有研究探讨建成环境和步行通学之间的非线性关系。
因此,本文以厦门岛为案例,采用当前最先进的机器学习方法之一——极限梯度提升模型(Extreme Gradient Boosting, XGBoost),探究建成环境与6~18岁青少年步行通学倾向间的非线性关系。一方面,能弥补上述研究不足,并回应相关研究争议;另一方面,本文结论也能为青少年步行友好城市的相关政策制定提供支持。

1 研究区域、方法与数据

1.1 研究区域

本文以厦门岛为案例地。厦门岛是中国福建省厦门经济特区的中心城区,也是厦门人口最稠密、经济最发达和城市化水平最高的区域。截至2018年,厦门岛面积达158 km2,常住人口约205万(占厦门全市人口约49.8%)。作为中国最知名的旅游目的地之一,厦门岛因其优美的自然和人文景观、舒适的气候、优良的生态环境和宜人的居住条件,素有“鹭岛”“海上花园”等别称和美誉。如图1所示,厦门岛四面环海,包括思明区和湖里区,与厦门市其他四区(海沧区、集美区、同安区和翔安区)隔海相望。厦门岛上集中布置了众多重要的公共服务设施和基础设施,如厦门国际机场、厦门火车站、厦门市政府等,而厦门传统的市中心(中山路步行街)也位于厦门岛内。出于交通统计分析和管理的目的,厦门全市被分为171个交通分析单元(traffic analysis zone, TAZ),其中厦门岛占80个。近年来,厦门市,尤其是厦门岛内,着力提升步行环境,建设了多项步行基础设施,如全长22.2 km的厦门健康步道、五缘湾步行系统、环筼筜湖步行系统、东屏山步行系统、环岛慢行系统等。在2017年一项覆盖中国主要36个城市的步行友好性评比中,厦门高居第一[37]。因此,选择厦门岛为案例地研究建成环境与步行行为的关系,具有充分的代表性和丰富的借鉴意义。
图1 研究区域:厦门岛

Fig.1 The study area: Xiamen Island

1.2 数据

本文主要采用3种类型的数据,即交通行为数据、社会经济属性数据和建成环境数据。
交通行为数据和社会经济属性数据主要抽取自厦门市2015年居民交通出行调查数据集。厦门市居民出行调查为一项长期调查。此项调查采用分层抽样法,基于厦门市居民性别、年龄、家庭构成以及空间分布,随机选择受访者(6周岁以上),以交通日志的形式记录其受访日24 h内所有出行的详细信息,包括出发/到达时间、出发/到达TAZ、出行目的和主要交通方式等,同时也记录受访者个人和家庭的社会经济属性特征,如性别、年龄、受教育程度、职业、家庭规模、住房信息以及交通资源信息(小汽车、交通卡)等。2015年厦门居民出行调查共发放调查问卷超过12万份,回收有效问卷93812份,抽样比例高达3.05%。本文抽取出行起始点和终点均位于厦门岛内、6周岁以上18周岁以下且“出行目的”为“上学”的样本作为研究样本。数据清洗后,共选取6231条出行记录进行进一步分析。
建成环境数据主要来源于厦门大学,主要涵盖厦门市土地利用、城市设计和交通基础设施等方面特征。本文采用ArcGIS 10.6,以TAZ为空间分析单元,对建成环境数据进行加工和处理。

1.3 变量

本文因变量为二元分类变量(0, 1),1表示该受访者上学所采用的交通方式为步行,否则为0。
自变量包括3种:社会经济属性变量、出行特征变量和建成环境变量。社会经济属性变量包括年龄、性别、住房面积、住房性质、家庭规模、户口和(所在家庭)是否拥有小汽车等。出行特征表示出行自身属性,通常表征出行所受阻抗或成本等,本文选取出行距离,即青少年通学的真实距离作为出行特征的代表。建成环境变量主要基于“5Ds”模型构建,包括人口密度、容积率、土地利用混合度、道路交叉口密度、公交密度和离市中心的距离。
表1所示为自变量描述性统计分析,包括变量的定义或计算方法及其均值、标准差(连续变量)或百分比(分类变量)。可以发现,本文所选研究对象青少年的平均年龄约11岁,其平均通学距离约1.24 km。另外,值得注意的是,本文采用一种改良的熵值法(adapted entropy method)计算土地利用混合度[38]
表1 自变量描述性统计

Tab.1 Descriptive statistics of independent variables

变量 定义/描述 均值(标准差)或百分比
社会经济属性
年龄 受访者年龄(岁) 11.09 (8.32)
性别 1=女,0=男 0=48.0%, 1=52.0%
住房面积 家庭住房面积(m2) 79.77 (46.37)
住房性质 分类变量(1=自有, 2=单位住房, 3=租住) 1=81.3%, 2=4.5%, 3=14.2%
家庭规模 家庭成员数量(人) 4.85 (3.22)
户口 1=有厦门户口,2=无厦门户口 0=9.8%, 1=90.2%
拥有小汽车 1=所在家庭拥有至少1辆小汽车,0=无 0=83.7%, 1=16.3%
父/母以步行通勤 1=父母亲至少一人以步行为通勤方式,0=无 0=81.17%, 1=18.83%
有人接送 1=有长辈接送,0=无 0=70.11%, 1=29.89%
出行特征
通学距离 受访者通学实际距离(km) 1.24 (1.68)
建成环境
人口密度 人口数量/TAZ面积(人/km2) 13194.87 (10325.10)
容积率 总建筑面积/TAZ面积 0.88 (0.56)
土地利用混合度 14种主要的土地利用类型(包括居住、工业、教育、行政办公、休闲娱乐、公共开放空间等)的数量及比例,采用改良版的熵值法计算 0.58 (0.16)
交叉口密度 道路交叉口数量/ TAZ面积(个/km2) 82.88 (64.35)
公交密度 公交线路数量/ TAZ面积(条/km2) 69.44 (62.78)
离市中心距离 从TAZ中心到CBD(即中山路)的路网距离(km) 8.78 (4.07)

1.4 方法——极限梯度提升模型

本文采用极限梯度提升模型(XGBoost)进行建模分析。XGBoost由Chen 等[39]最先提出,为目前最先进的机器学习算法之一,可用于构建回归和分类模型。XGBoost实质为实现梯度提升决策树(gradient boosting decision tree, GBDT)的一种高效框架,通过分布式计算大幅提升GBDT的运算效率。通常来说,XGBoost比其他GBDT算法框架快10倍以上[39]。通过引入Lasso正则项(L1)和Ridge正则项来控制模型的复杂度,XGBoost有利于防止模型过拟合,提高模型的一般性或泛化能力(generalizability)。同时,XGBoost通过对损失函数(loss function)进行二阶泰勒展开,可以同时使用一阶和二阶导数,从而增加了XGBoost的适用性。另外,XGBoost具有支持多种类型的基分类器,以及每轮迭代时支持对数据进行采样等优点。作为一种集成树模型(ensemble-tree based model),XGBoost首先迭代地生成众多决策树,然后将所有树的结果合并生成最终模型。每棵单独的决策树都建立在对某种指定的损失函数最小化的基础上,且每次建立单独决策树时都会给上一棵树中被错误估计的个案更高的权重。
XGBoost方法具有诸多优势,包括:① 极高的预测准确度,尤其相对于传统统计模型而言,预测能力优越;② 对数据类型(连续变量和分类变量等)和数据分布没有限制;③ 可以更好地处理缺失值和异常值;④ 不预设自变量和因变量之间的关系类型(如线性),因此可以更好地探测可能存在的非线性关系;⑤ 具有较好的可解析性(interpretability)。这些优势使XGBoost成为近些年最热门的机器学习方法之一。然而,XGBoost方法同样具有一些劣势。例如,类似于其他机器学习方法,XGBoost方法不能进行显著性检验,也不能给出自变量的系数及其置信区间。不过XGBoost可以给出自变量的相对重要性——可以反映自变量对因变量影响的幅度(magnitude);同时,常用的部分依赖图(partial dependence plot)可以将自变量与因变量之间的关系进行可视化。这些均可以很好地弥补上述劣势。另外,本文所用建成环境变量在TAZ水平上计算,因此存在嵌套结构,而XGBoost方法并不能处理这种多层嵌套结构。不过,嵌套结构仅仅影响自变量的显著性水平和自变量系数[40],而这并不是本文研究的重点。
本文采用R4.0.2中“XGBoost”包进行建模分析。

2 结果与分析

2.1 模型性能表现及不同模型对比

机器学习模型的表现通常包括3个方面,即准确率、一般性(generalizability)和过拟合(overfitting)。准确率为最直观的模型表现,反映模型的预测能力。一般性是指基于某特定数据集拟合得来的模型能否推广到其他数据集。过拟合是指某个模型由于过于精确地匹配特定数据集,而导致其不能良好地拟合其他数据集的现象。以上3个方面,准确率和一般性是建模过程中应该提高的,而过拟合则需要尽力避免。本文采用以下方法和步骤着力提升模型表现。
第一,随机选取研究样本的80%作为训练集(training set)进行建模,将剩余的20%样本作为验证集(validation set)以验证所建模型。第二,采用了5折交叉检验法(5-fold cross validation procedure),即将训练集随机平均分为5份,然后建立5个模型,每个模型以其中4份作为训练集,以剩下的1份作为验证集,依此进行迭代。第三,建模的另一个关键在于选择合适的参数。通常来说,较为关键的参数包括学习率(learning rate/eta,控制学习速度,对是否过拟合有重要影响)、最大树深(max_depth,决定每棵树的复杂程度,从而影响过拟合)、叶子节点权重(lambda和alpha,防止过拟合)等。本文采用“超参数网格搜索法(hyper-parameter grid search)”进行参数调节,网格搜索法实际为“遍历法或穷举搜索法”,亦即将所有列举的参数组合循环进行训练,直至找出最优参数组合。首先设置最大回合数10000,并设置早停法规则(early_stopping_rounds=500),然后设置各重要参数的可能取值。具体而言,设置学习率可能值为(0.1, 0.01, 0.05, 0.001),最大树深可能取值为(4, 5, 6, 7, 8, 9, 10),min_child_weight(决定最小叶子节点样本权重和,用于防止过拟合)可能取值为(1, 2, 3, 4),lambda和alpha可能取值为(0.05, 0.1, 0.2, 1)。遍历搜索所有参数组合,得到实现最佳模型性能的最优参数为:学习率0.001,最大树深10,min_child_weight为4,lambda为0.1,alpha为0.2,最大回合数为10000等。
最终,如表2所示,XGBoost模型预测准确率达到82.88%,表现优秀。鉴于训练误差和测试误差差值很小,可以推断,模型具有较好的一般性,不存在明显的过拟合现象。为验证XGBoost模型的性能,本文同时建立了多个常用的机器学习模型,包括梯度提升决策树(GBDT)、随机森林(random forest, RF)、LightGBM(基于LightGBM框架的集成决策树模型)和Adaboost模型,以及传统的Logistic模型与之进行对比,各模型的性能表现如表2所示。对比可以发现,XGBoost准确率和AUC值均优于其他机器学习模型,仅随机森林(RF)模型的准确率与XGBoost差别不大,而传统Logistic模型预测准确率明显低于XGBoost模型。这表明,XGBoost模型具有一定的优越性。
表2 模型表现

Tab.2 Model performance

模型 操作平台 最佳迭代数 训练误差 测试误差 预测准确率/% AUC值
XGBoost R, “XGBoost” 9931 0.1258 0.1713 82.88 0.892
GBDT R, “caret” 6554 0.2188 0.2149 78.51 0.816
RF R, “randomForest” 500 0.1561 0.1789 82.11 0.848
LightGBM Python, “lightGBM” 19821 0.1610 0.1937 80.63 0.803
Adaboost R, “adabag” 500 0.1686 0.1923 80.77 0.798
Logistic R, “glm” 0.2243 0.2396 76.04 0.743

2.2 变量相对重要性:自变量对预测结果的贡献

相对重要性(relative importance)是GBDT等机器学习方法最常用的解析方法之一。在构建决策树的过程中,每个自变量均有一定概率被选择用来分割数据(即将数据空间一分为二),而相对重要性本质上是指某个变量在迭代地构建决策树的过程中被选择的次数占所有自变量被选择的总次数的比例[41]。相对重要性通常以百分比表示,所有自变量相对重要性之和为1(即100%)。相对重要性可以准确地表示某个自变量对于预测因变量的贡献大小。
表3展示了自变量相对重要性及排名。首先,在3类自变量中,出行特征相对重要性最高,接近4成。而建成环境(出发地和目的地加总)的相对重要性同样高达36.28%,仅略低于出行特征,远高于社会经济属性。这回应了引言中关于建成环境对交通行为影响“幅度”的争议。本文结果表明,建成环境对青少年步行通学行为的影响并不“小”。这也证实了Ewing等[26]和Handy[27]的观点,亦即单个建成环境变量或许作用较小,但建成环境变量的复合影响(combined effects)可能很大。另外,家(起点)附近建成环境的相对重要性大于学校(终点)附近建成环境。
表3 自变量相对重要性

Tab.3 Relative importance of independent variables

变量 相对重要性/% 排名
出行特征
通学距离 39.99 1
社会经济属性
住房面积 7.84 2
年龄 7.13 3
有人接送 2.52 15
家庭规模 1.42 17
性别 1.14 18
拥有小汽车 1.13 19
父/母以步行通勤 0.97 20
户口 0.81 21
住房性质 0.38 22
小计 23.73
出发地(家)建成环境
土地利用混合度 3.67 4
离市中心距离 3.59 5
道路交叉口密度 3.50 6
容积率 3.28 8
公交站点密度 2.90 9
人口密度 2.88 10
小计 19.82
目的地(校)建成环境
道路交叉口密度 3.45 7
离市中心距离 2.82 11
公交站点密度 2.70 12
容积率 2.69 13
土地利用混合度 2.56 14
人口密度 2.24 16
小计 16.46
其次,关于单个自变量,可以发现,通学距离的相对重要性遥遥领先。这与本文预期相符。步行作为速度较为缓慢、体能消耗较大的交通方式,对距离有着较高的敏感性。如Su等[42]研究表明,步行通常有一个衰减效应,当步行所需时长超过5~6 min后,步行倾向可能大幅下降。社会经济属性中,相对重要性较高的变量包括住房面积和年龄,分别位列第二、三位。住房面积是受访者家庭经济状况、社会阶层的重要体现(住房面积越大,价格或租金往往越高,表明家庭购买力越高,相应社会经济水平可能越高),因此可以间接地影响青少年步行通学倾向。而年龄决定着青少年身体发育状况、家长的放心程度、就读学校等级(幼儿园、小学或中学)等,这些都会影响青少年的步行行为。有人接送也具有较高的重要性。是否有家人接送,对儿童步行通学的安全性以及儿童和家长的安全感方面具有重要影响。而其他社会经济属性变量相对重要性均较低,排名靠后。
再次,关于建成环境变量,排名靠前(前10名)的变量包括受访者家所在TAZ的土地利用混合度、离市中心距离、道路交叉口密度和容积率,以及学校所在TAZ的道路交叉口密度、离市中心距离和公交密度。可以发现,无论家还是学校附近的道路交叉口密度和离市中心距离相对重要性均较高。道路交叉口密度可能影响到青少年(尤其是幼年儿童)步行的安全性,因此可能存在重要影响。而市中心汇集了较多的教育资源,从而离市中心的距离也通过影响家和学校的距离而影响青少年步行通学的倾向。土地利用混合度可能影响学校分布的密度,从而影响学校的可达性,或者影响上学途中的活动类型数量(如买早餐),从而影响青少年步行倾向。容积率和公交密度都可能影响小汽车流量以及行人数量而影响步行安全性和步行氛围,因而都对青少年步行通学倾向具有较重要的影响。

2.3 部分依赖图:关键自变量与步行通学的非线性关系

部分依赖图同样是GBDT等机器学习方法最常用的解析方法之一。通过将因变量与自变量之间的关系可视化,部分依赖图可以直观地表示出自变量对因变量的边际作用(marginal effects)。图2图3为本文关键的自变量的部分依赖图,图中Y轴表示青少年步行通学的log-odds值(即选择步行的概率与不选择步行的概率的比值的自然对数值),下文将简称为步行倾向;X轴表示某自变量的取值。
图2 通学距离和年龄与步行通学倾向的非线性关系

Fig.2 Non-linear relationships between home-school distance, age, and propensity of walking to school

图3 建成环境变量与步行通学倾向非线性关系

Fig.3 Non-linear relationships between built environment variables and propensity of walking to school

图2表示通学距离、年龄与青少年步行通学倾向的非线性关系。两者均与步行倾向呈负相关,且存在明显的非线性关系和阈值效应。具体而言,随着距离增加,步行倾向急剧下降,直到约4 km达到最低值,之后几乎保持水平不再变化。这符合预期,也呼应了过去研究的结论[42]。步行更适合于短程出行,随着距离的增大,步行的效率、安全性(尤其对于青少年)都会降低,因此步行倾向显著下降。而达到一定距离后,绝大多数青少年选择其他交通方式(如自行车或公共交通)出行,步行倾向此时趋向于0,不再继续降低。关于年龄,在6~12岁之间,青少年步行倾向发生轻微浮动,变化很小,而12~18岁,步行倾向急剧下降。通常,6~12岁为小学阶段,而12~18岁为中学阶段。中国城市小学的数量往往远远超过中学,例如,厦门市2020年拥有小学296所、中学120所[43]。这决定了小学分布密度更高,离家更近,而中学分布更稀疏,离家更远。小学生比中学生更有可能选择步行通学。
图3表示受访青少年家和学校所在TAZ建成环境变量与其步行通学倾向的非线性关系。可以发现,所有建成环境变量均与步行倾向存在明显的非线性关系和阈值效应。总的来说,学校附近建成环境与步行倾向的关系比与家附近建成环境更为复杂。具体分析如下:
家附近土地利用混合度与青少年步行通学倾向大致呈正相关性,与既有研究一致[13]。当土地利用混合度在0~0.65区间内时,步行倾向在较小的范围内浮动,在0.65之后开始急剧增加,直至土地利用混合度达到0.8左右。土地利用混合度越高,可能意味着越靠近市中心,从而可能拥有更高的学校可达性,同时高土地利用混合度也为青少年通学途中提供了更多可能的活动类型,从而提高其步行倾向。而两者关系明显的阈值效应的原因可能在于,作为一种数量很少的土地利用功能,中小学更倾向于布置在高土地利用混合度的区域。学校附近土地利用混合度与步行倾向表现出复杂的近似“V”型:0~0.65区间内,浮动下降;而0.65以上,剧烈上升。不过值得注意的是,从Y轴可以看出,步行倾向受学校附近土地利用混合度影响与家附近相比幅度很小,前者log-odds变化值仅为后者约1/4,这也与表2揭示的相对重要性排名相符。
家、学校附近道路交叉口密度均与步行通学倾向呈负相关关系。两种关系的线型较为相似,不同之处在于:前者在0~80个/km2区间内急剧下降,随后几乎保持水平不变;而后者急剧下降的拐点在50个/km2左右,之后先小幅度上升,随后保持恒定。在当今小汽车逐渐普及的时代,道路交叉口密度越大,意味着步行需要穿越越多的马路,这对于青少年,尤其是幼年儿童而言,存在一定危险性,因此会降低其步行通学倾向。早在美国建筑师佩里(Clarence Perry)提出的居住区规划理论概念“邻里单元(neighborhood unit)”中就提出了“确保孩子步行上学不需要跨越城市干道”的规划理念。这一理念与本文揭示的步行通学与道路交叉口密度的关系可谓互相佐证。这种负相关关系与西方研究结论截然不同[14,15],原因可能在于,西方国家在青少年上学必经之路上通常设置有多名交通协管员,帮助青少年步行通过马路,大大提高了安全性,而类似的协管员在中国较为少见。
家、学校离市中心的距离均与步行通学倾向呈负相关性。当家离市中心在0~7.5 km区间时,步行倾向缓慢下降,随后急剧降低,直至10 km左右开始保持水平不变。而当学校离市中心5 km以内时,步行倾向保持较高水平,5~10 km内缓慢下降,随后急剧下滑,直至12.5 km,之后保持恒定。家、学校离市中心的距离与步行倾向整体的负相关关系符合预期,因为市中心附近学校分布较密集,因而可达性更高,更便于步行。而2种关系中明显的阈值效应,例如“家—市中心”0~7.5 km区间和“学校—市中心”0~10 km区间内变化的小幅度,则表明步行倾向并非取决于家或学校两者中任何一个的单独区位,而是由两者区位共同决定。
家、学校附近容积率与步行通学倾向的关系呈现截然不同的形态。虽然存在一定扰动,但家附近容积率与步行倾向基本呈正相关关系,尤其在容积率0.6~2.0的区间内,步行倾向一路曲折上升,随后保持水平不变。而学校附近容积率却与步行倾向整体呈负相关关系,容积率0.5~1.5区间内,步行倾向几乎直线下降,之后开始小幅度攀升,直到容积率约2.0以后开始保持水平恒定。出现这种明显差异的原因可能在于,容积率较高的区域更不适合小汽车交通,因而车流量更小,行人量更大,从而步行安全性更高,步行氛围更好,从这样的区域出发的青少年更倾向于选择步行。而对于学校而言,当其附近容积率较低时,能更方便地提供室外活动空间,如游乐场、运动场、草坪等,这些空间都可能吸引青少年步行前往。
家、学校附近公交密度与步行通学的关系同样呈现较大差异。家附近公交密度从0增加到220 条/km2,步行倾向显著提升,之后保持水平不变。而学校附近在公交密度0~120条/km2区间内,两者呈近似倒“V”型关系,在公交密度50条/km2左右达到峰值,之后经历轻微浮动后保持恒定。与容积率类似,公交密度越大,越少人小汽车出行,因而步行的安全性更高,同时因为乘坐公交车出行(首尾)必然伴随着一定的步行,从而区域内会形成良好的步行氛围,这些都有利于青少年选择步行通学。而学校附近公交密度超过一定阈值后,步行倾向开始下降的原因可能在于,当学校的公交可达性提高到一定程度,更多学生开始转为乘坐公交车上学。西方研究发现的公交密度与步行通学之间的负相关关系[1]可能源自于公交车对于步行的替代效应,而在中国公交密度业已非常高的情境下,这种替代效应很可能不再重要。
除了一些轻微扰动外,家附近人口密度基本上与步行通学倾向呈直线正相关关系。学校附近人口密度与步行倾向也大致呈正相关关系,但当人口密度在0~22000人/km2区间时,步行倾向缓慢降低,随后在22000~30000人/km2区间才开始急剧上升,最后保持水平恒定。人口密度越高,所在区域可能越靠近市中心,学校分布密度越大,通学距离可能越短,因此提高步行通学倾向。同时,众多研究表明,人口密度越高,人们越少行驶小汽车,越多选择步行、自行车或公共交通,这对步行安全性和步行氛围都有提升作用,从而促进青少年步行通学。而学校附近人口密度0~22000人/km2区间段的负向关系与预期和既有研究相悖[12],不过需要注意的是,这段区间内,步行倾向降低的幅度极小,因此实际上可以当作是一段浮动。

3 结论与讨论

本文以厦门岛为案例地,探究主要基于5Ds模型刻画的建成环境与6~18岁青少年步行通学倾向之间的非线性关系。主要结论如下:
首先,通学距离是影响青少年是否选择步行通学最重要的因素,且通学距离和步行通学倾向之间呈明显的负相关关系。这个发现与本文预期以及不少既有研究相符。步行作为一种效率较低、体能消耗度较高的交通方式,对距离敏感度很高,比较适合短程出行。因此,为了提高青少年步行通学倾向,提升其体力活动水平,促进其养成健康积极的生活习惯,需要格外注意中小学校的科学选址布局,着力缩短青少年通学距离。
第二,建成环境对青少年步行通学倾向有着重要的作用。家和学校附近建成环境的相对重要性合计高达36.28%,仅略低于通学距离,远高于社会经济属性的加总相对重要性(23.73%)。这一方面回应了关于建成环境对于交通出行行为影响幅度的质疑,证实了Ewing等[26]和Handy[27]的观点,证明了交通研究和实践领域关注建成环境的意义和必要性。同时,另一方面,这也提醒城市和交通规划人员,在利用其专业知识,对建成环境进行干预时,要时刻谨记可能带来的对交通行为等方面的影响,谨慎决策。另外,本文还发现,在建成环境变量中,家和学校附近道路交叉口密度及其离市中心的距离、家附近土地利用混合度对步行通学倾向影响较大,排名靠前。这些为规划实践者进行城市建成环境干预时提供了可优先选择的对象,对这些对象进行干预,可能更为有效。
第三,所有关键变量均对青少年步行通学倾向具有非线性的影响,具有明显的阈值效应,同时,家和学校附近建成环境变量对步行通学倾向的影响的形式(pattern,包括线型、阈值等)存在异同。具体而言,家和学校离市中心距离对步行通学倾向的影响形式非常相似,而家和学校附近道路交叉口密度同样如此。然而,其他变量,如土地利用混合度、容积率、公交密度和人口密度对步行通学倾向的影响形式,在家和学校之间存在较大差异。这些结果可以为规划实践者进行建成环境干预提供具体详实的参考,帮助他们选择最有效的建成环境区间“发力”,从而使相关政策发挥最大功效。
本文利用当前最先进的机器学习方法之一——极限梯度提升模型,探究了建成环境对青少年步行通学倾向的相对重要性,并细致地揭示了家和学校附近建成环境变量与步行通学倾向间的非线性关系,回应了目前“建成环境—交通行为”领域关于建成环境对交通行为影响的幅度和形式两方面的争议,同时可为城市和交通规划实践提供有益借鉴。然而,本文亦存在一些不足之处。例如,受数据来源所限,部分常用变量在分析中没有考虑,如家庭收入、社区安全性、青少年安全感和青少年及其家长对建成环境、安全和步行的态度等,今后的研究应该扩充数据源,将这些变量纳入分析。另外,机器学习领域发展迅速,新算法和框架不断涌现。例如,LightGBM框架因其基于Histogram的算法、单边梯度采样(gradient-based one-side sampling)、互斥特征捆绑(exclusive feature bundling)以及限制深度的leaf-wise的叶子生长等策略,对包括XGBoost在内的GBDT模型框架进行了优化,在不损失准确率的基础上,实现了更快的训练速度和更低的内存损耗,可以快速处理海量数据。目前LightGBM在交通出行领域已经逐渐得到应用,取得了良好的效果[44]。将来可多尝试基于LightGBM等算法进行建模,亦可进行多种模型的对比研究。
[1]
Zhu X M, Lee C. Correlates of walking to school and implications for public policies: Survey results from parents of elementary school children in Austin, Texas[J]. Journal of Public Health Policy, 2009, 30(S1):S177-S202.

DOI

[2]
姜玉培, 甄峰, 王文文, 等. 城市建成环境对居民身体活动的影响研究进展与启示[J]. 地理科学进展, 2019, 38(3):357-369.

DOI

[ Jiang Yupei, Zhen Feng, Wang Wenwen, et al. Influence of urban built environment on residents' physical activity: Review and implications. Progress in Geography, 2019, 38(3):357-369. ]

[3]
Lee I-M, Buchner D M. The importance of walking to public health[J]. Medicine and Science in Sports and Exercise, 2008, 40(S7):S512-S518.

DOI

[4]
王依茹, 王琛, 曾金迪. 个体与环境交互作用下中国成人超重肥胖情况变化趋势及影响因素研究[J]. 地理科学进展, 2020, 39(1):100-110.

DOI

[ Wang Yiru, Wang Chen, Zeng Jindi. Study on the trend and influencing factors of overweight and obesity in Chinese adults under interactions of individual and environment. Progress in Geography, 2020, 39(1):100-110. ]

[5]
Guthold R, Stevens G A, Riley L M, et al. Global trends in insufficient physical activity among adolescents: A pooled analysis of 298 population-based surveys with 1.6 million participants[J]. The Lancet Child & Adolescent Health, 2020, 4(1):23-35.

[6]
Dong Y, Lau P W, Dong B, et al. Trends in physical fitness, growth, and nutritional status of Chinese children and adolescents: A retrospective analysis of 1.5 million students from six successive national surveys between 1985 and 2014[J]. The Lancet Child & Adolescent Health, 2019, 3(12):871-880.

[7]
梁璇. 中日青少年体质健康数字“差”的背后 [N/OL]. 中国青年报, 2017-06-26(8) [2021-01-01]. http://zqb.cyol.com/html/2017-06/26/nw.D110000zgqnb_20170626_1-08.htm.

[ Liang Xuan. Behind the gap of physical fitness between Chinese and Japanese adolescents. China Youth Daily, 2017-06-26(8) [2021-01-01]. http://zqb.cyol.com/html/2017-06/26/nw.D110000zgqnb_20170626_1-08.htm.

[8]
王敬东. 中国儿童肥胖筛查共识发布, 明确儿童体重超标与严重超标标准 [EB/OL]. 央视网, 2019-09-23 [2021-01-01]. http://news.cctv.com/2019/09/22/ARTIYm98cMCfYj5bNPmK2K0A190922.shtml.

[ Wang Jingdong. The consensus on childhood obesity screening in China has been released to clarify the criteria for overweight and severely overweight children. CCTV.com, 2019-09-23 [2021-01-01]. http://news.cctv.com/2019/09/22/ARTIYm98cMCfYj5bNPmK2K0A190922.shtml.

[9]
马淑婧, 羊柳, 赵敏, 等. 1991—2015年中国儿童青少年血压水平及高血压检出率的变化趋势[J]. 中华流行病学杂志, 2020, 41(2):178-183.

[ Ma Shujing, Yang Liu, Zhao Min, et al. Changing trends in the levels of blood pressure and prevalence of hypertension among Chinese children and adolescents from 1991 to 2015. Chinese Journal of Epidemiology, 2020, 41(2):178-183. ]

[10]
刘吉祥, 周江评, 肖龙珠, 等. 建成环境对步行通勤通学的影响: 以中国香港为例[J]. 地理科学进展, 2019, 38(6):807-817.

DOI

[ Liu Jixiang, Zhou Jiangping, Xiao Longzhu, et al. Effects of the built environment on pedestrian communing to work and school: The Hong Kong case, China. Progress in Geography, 2019, 38(6):807-817. ]

[11]
Ewing R, Cervero R. Travel and the built environment: A meta-analysis[J]. Journal of the American Planning Association, 2010, 76(3):265-294.

DOI

[12]
Moran M R, Plaut P, Baron-Epel O. Do children walk where they bike? Exploring built environment correlates of children's walking and bicycling[J]. Journal of Transport and Land Use, 2015, 9(2). doi: 10.5198/jtlu.2015.556.

DOI

[13]
Ito K, Reardon T G, Arcaya M C, et al. Built environment and walking to school: Findings from a student travel behavior survey in Massachusetts[J]. Transportation Research Record: Journal of the Transportation Research Board, 2017, 2666(1):78-84.

[14]
Rothman L, To T, Buliung R, et al. Influence of social and built environment features on children walking to school: An observational study[J]. Preventive Medicine, 2014, 60:10-15.

DOI PMID

[15]
Giles-Corti B, Wood G, Pikora T, et al. School site and the potential to walk to school: The impact of street connectivity and traffic exposure in school neighborhoods[J]. Health & Place, 2011, 17(2):545-550.

[16]
Yang Y Y, Lu Y, Yang L C, et al. Urban greenery, active school transport, and body weight among Hong Kong children[J]. Travel Behaviour and Society, 2020, 20:104-113.

DOI

[17]
Committee on Environmental Health, Tester J M. The built environment: Designing communities to promote physical activity in children[J]. Pediatrics, 2009, 123(6):1591-1598.

DOI PMID

[18]
McDonald N C. Children's mode choice for the school trip: The role of distance and school location in walking to school[J]. Transportation, 2008, 35(1):23-35.

DOI

[19]
Rothman L, Macarthur C, To T, et al. Motor vehicle-pedestrian collisions and walking to school: The role of the built environment[J]. Pediatrics, 2014, 133(5):776-784.

DOI PMID

[20]
Mehdizadeh M, Nordfjaern T, Mamdoohi A R, et al. The role of parental risk judgements, transport safety attitudes, transport priorities and accident experiences on pupils' walking to school[J]. Accident Analysis & Prevention, 2017, 102:60-71.

DOI

[21]
Rossen L M, Pollack K M, Curriero F C, et al. Neighborhood incivilities, perceived neighborhood safety, and walking to school among urban-dwelling children[J]. Journal of Physical Activity and Health, 2011, 8(2):262-271.

DOI

[22]
Yu C-Y, Zhu X M. Impacts of residential self-selection and built environments on children's walking-to-school behaviors[J]. Environment and Behavior, 2015, 47(3):268-287.

DOI

[23]
Yu C-Y, Zhu X M. From attitude to action: What shapes attitude toward walking to/from school and how does it influence actual behaviors?[J]. Preventive Medicine, 2016, 90:72-78.

DOI

[24]
Liu J X, Xiao L Z, Yang L C, et al. A tale of two social groups in Xiamen, China: Trip frequency of migrants and locals and its determinants[J]. Travel Behaviour and Society, 2020, 20:213-224.

DOI

[25]
Stevens M R. Does compact development make people drive less?[J]. Journal of the American Planning Association, 2017, 83(1):7-18.

DOI

[26]
Ewing R, Cervero R. "Does compact development make people drive less?" The answer is yes[J]. Journal of the American Planning Association, 2017, 83(1):19-25.

DOI

[27]
Handy S. Thoughts on the meaning of Mark Stevens's meta-analysis[J]. Journal of the American Planning Association, 2017, 83(1):26-28.

DOI

[28]
Ding C, Cao X Y, Wang Y P. Synergistic effects of the built environment and commuting programs on commute mode choice[J]. Transportation Research Part A: Policy and Practice, 2018, 118:104-118.

DOI

[29]
Yang L C, Ao Y B, Ke J T, et al. To walk or not to walk? Examining non-linear effects of streetscape greenery on walking propensity of older adults[J]. Journal of Transport Geography, 2021, 94:103099. doi: 10.1016/j.jtrangeo.2021.103099.

DOI

[30]
Cheng L, Chen X W, De Vos J, et al. Applying a random forest method approach to model travel mode choice behavior[J]. Travel Behaviour and Society, 2019, 14:1-10.

DOI

[31]
Kim K, Kwon K, Horner M W. Examining the effects of the built environment on travel mode choice across different age groups in Seoul using a random forest method[J]. Transportation Research Record: Journal of the Transportation Research Board, 2021, 2675(8):670-683.

[32]
Parsa A B, Movahedi A, Taghipour H, et al. Toward safer highways, application of XGBoost and SHAP for real-time accident detection and feature analysis[J]. Accident Analysis & Prevention, 2020, 136:105405. doi: 10.1016/j.aap.2019.105405.

DOI

[33]
Cheng L, De Vos J, Zhao P J, et al. Examining non-linear built environment effects on elderly's walking: A random forest approach[J]. Transportation Research Part D: Transport and Environment, 2020, 88:102552. doi: 10.1016/j.trd.2020.102552.

DOI

[34]
Ding C, Cao X Y, Næss P. Applying gradient boosting decision trees to examine non-linear effects of the built environment on driving distance in Oslo[J]. Transportation Research Part A: Policy and Practice, 2018, 110:107-117.

DOI

[35]
Tao T, Wang J Y, Cao X Y. Exploring the non-linear associations between spatial attributes and walking distance to transit[J]. Journal of Transport Geography, 2020, 82:102560. doi: 10.1016/j.jtrangeo.2019.102560.

DOI

[36]
Wu X Y, Cao X Y, Ding C. Exploring rider satisfaction with arterial BRT: An application of impact asymmetry analysis[J]. Travel Behaviour and Society, 2020, 19:82-89.

DOI

[37]
自然资源保护协会, 清华大学建筑学院. 中国城市步行友好性评价: 基于街道功能促进步行的研究[R]. 北京, 2017.

[Natural Resources Defense Council, School of Architecture of Tsinghua University. Appraisal of walking friendliness of Chinese cities. Beijing, China. 2017. ]

[38]
Song Y, Merlin L, Rodriguez D. Comparing measures of urban land use mix[J]. Computers, Environment and Urban Systems, 2013, 42:1-13.

DOI

[39]
Chen T Q, Guestrin C. XGBoost: A scalable tree boosting system[C/OL]// KDD '16: Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. San Francisco, USA: Association for Computing Machinery, 2016:785-794. doi: 10.1145/2939672.2939785.

DOI

[40]
Hox J. Multilevel modeling: When and why. Classification, data analysis, and data highways[M]. Berlin, Germany: Springer. 1998: 147-154.

[41]
Friedman J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5):1189-1232.

DOI

[42]
Su S L, Pi J H, Xie H, et al. Community deprivation, walkability, and public health: Highlighting the social inequalities in land use planning for health promotion[J]. Land Use Policy, 2017, 67:315-326.

DOI

[43]
厦门市统计局. 2020厦门经济特区年鉴[M]. 厦门: 厦门市统计局, 2020.

[Xiamen Burear of Statistics. Statistic yearbook of Xiamen Special Economic Zone in 2020. Xiamen, China: Xiamen Burear of Statistics, 2020.]

[44]
Lin P F, Weng J C, Brands D K, et al. Analysing the relationship between weather, built environment, and public transport ridership[J]. IET Intelligent Transport Systems, 2020, 14(14):1946-1954.

DOI

Outlines

/