2. 内蒙古大学 交通学院, 呼和浩特 010070
2. Transportation Institute, Inner Mongolia University, Hohhot 010070, China
随着互联网的普及,乘坐航班出行的旅客大多会选择在线预订机票。以某旅游搜索网站为例,其机票搜索产品本身就是一种推荐系统。用户输入出发、到达城市和机票日期并点击搜索后进入航班行程页面,系统在该页面为用户展示所有的航班行程。这是整个推荐系统的第1个环节,用户在选择了一条感兴趣的航班行程并点击搜索后进入代理商推荐页面,在该页面网站会从搜索引擎搜索到的所有代理商中挑选出一部分推荐给用户,并向用户展示这些代理商的报价等相关信息,以便用户做出最终的订票选择。这是整个推荐系统的第2个环节,也是将浏览用户转化为购买用户的关键环节。Smyth和Cotter[1]认为电子商务领域极易造成信息过载的问题。Jansen等[2]也提出用户不会浏览搜索引擎提供的所有结果,甚至面对已经筛选过的信息,也不愿关注与自己无关的信息。理解用户真正的需求并给用户展示最有价值的航班行程信息对网站的成功至关重要。
近年已有不少学者研究用户的在线航班行程选择行为,但是关于用户的在线机票代理商选择行为目前还没有文章研究。离散选择模型作为学术界研究人们选择行为的常用方法,在航班行程选择行为的研究中被广泛使用。例如,Coldren等[3-4]基于电子订票系统数据,应用多项logit模型以及双层和三层巢式logit模型研究了航班行程的服务属性对航班行程选择的影响;Jiang[5]利用在线机票销售网站的销售数据建立了用户选择航班行程的双层巢式logit模型并应用模型估计了网站的市场份额。Warburg等[6]应用混合logit模型研究了旅客和航班行程的特征对航班行程服务偏好的影响。Van Eggermond等[7]应用变形的多项logit模型研究了相似航班行程的选择行为。Garrow等[8]基于问卷调查,应用多项logit模型以及双层和三层巢式logit模型研究了机票在线销售渠道的价格敏感性。另外,还有许多学者利用离散选择模型研究航空旅客的选择行为。如梅虎[9]采用调查数据和统计数据运用改进的多项logit模型研究了旅客对航空公司、航班和舱位的选择行为。叶峰[10]采用上海浦东机场的调查数据研究了基于出行链的航空旅客行为。不同于以上学者对网站用户以及对航空旅客在线航班行程选择行为的研究,本文关注的是网站用户在线机票代理商的选择行为。
本文利用该网站的在线机票预订数据,建立可以解释和预测用户选择在线机票代理商行为的定量模型。由于没有用户的社会经济特征和出行特征的数据,本文采用离散选择模型中最基本和最常用的多项logit模型初步探索在线机票代理商的选择行为。通过模型来了解用户选择代理商的偏好及行为特征,并判断网页展示的代理商信息是否有用,进而为该推荐系统的改进提供一定的参考,使网站的推荐结果更符合用户的需求。
1 多项logit模型离散选择模型作为一种用于描述和预测人们选择行为的统计模型,主要被应用于描述和预测个体在面对由多个选项组成的集合时,选择其中某一个选项的概率。选项组成的集合称为选择集合,个体从集合中选取某一个选项的概率称为选择概率。根据Ben-Akiva和Lerman[11]、Train[12]的理论,选择集合应包含个体可能选择的所有选项,并且个体只能选择其中的一个选项。多项logit模型假设所有个体同质,并且服从非相关选项间的独立性假设。该网站用户在代理商推荐页面的选择行为适用于多项logit模型。在代理商推荐页面,每一个代理商都可以看作是一个选项,页面上展示的所有代理商构成用户的选择集合,一般情况下,用户最终只选择其中的一个代理商预订机票。
根据随机效用理论,假设用户n面对的选择集合为C,则每一个代理商i都有一个与之对应的可以表征其各个属性整体上对用户“价值”高低的效用函数Uni,
$ {U_{ni}} = {V_{ni}} + {\varepsilon _{ni}}, $ | (1) |
其中:Vni为代理商i对用户n的系统效用,是代理商i可以被观测到的各个属性的函数;εni为代理商i对用户n的随机效用,用于描述代理商i所有无法观测到的因素对用户n效用的影响。多项logit模型假设εni服从独立同分布的Gumbel分布。另外,对于系统效用,通常假设Vni是代理商i和用户n相关属性变量xnik的线性函数,βk为待估参数,则代理商i对于用户n的系统效用为
$ {V_{ni}} = {\beta _1}{x_{ni1}} + ... + {\beta _k}{x_{nik}}. $ | (2) |
但是上述假设并不意味着Vni一定是线性函数。例如,xnik可以是代理商机票报价,也可以是该报价的任何价格形式,用价格的对数或价格的平方代替价格建立多项logit模型很常见。
根据效用最大化原则,用户n选择代理商i的概率下式给出,βk由极大似然估计法估计:
$ {P_n}(i) = {P_n}({U_{ni}} > {U_{nj}},\forall j \in C,j \ne i) = \frac{{{{\text{e}}^{{{\text{V}}_{_{ni}}}}}}}{{\sum\limits_{j \in C} {{{\text{e}}^{{{\text{V}}_{_{ni}}}}}} }}. $ | (3) |
本文数据来源于某旅游搜索网站2010年6月连续6天的在线机票搜索和预订数据,其中将前4天的数据各随机抽取1/4合并后的数据用于多项logit模型的构建和参数估计,将第5天、第6天的数据分别作为模型的验证数据,用于评价模型的预测质量。在实际建模中,用户每到达代理商推荐页面一次,并最终点击机票预订的数据视为用户的一次有效观测。当某一用户在同一个代理商推荐页面最终点击订票的代理商多于一家时,订票时间最晚的代理商被视为该次有效观测中用户的选择。一次有效观测中的所有代理商构成了该用户的选择集合。建模和参数估计共使用了109033次有效观测,验证数据分别使用了144141次、126063次有效观测。虽然仅采用6天的数据进行建模和模型验证有一定的局限性,但该样本量足够支撑模型的建立和验证。
在一个展开的代理商推荐页面,一次有效观测数据包含了向用户展示的所有代理商的报价信息、用户对代理商的评价信息、代理商提供的增值服务信息、代理商存在服务问题的信息、代理商在页面中的位置信息以及用户最终选择的是哪个代理商的信息。本文采用数据的基本统计结果如表 1所示。
信息类别 | 项目 | 最大值 | 最小值 | 均值 | 标准差 |
报价信息 | 价格/元 | 9468.00 | 50.00 | 779.42 | 360.00 |
搭售的保险价格/元 | 20.00 | 0.00 | 14.69 | 8.81 | |
评价信息 | 代理商评分 | 4.70 | 0.90 | 2.85 | 1.00 |
评价人数 | 4 014.00 | 2.00 | 794.57 | 768.65 | |
增值服务信息 | 是否提供7×24 h服务 | 1.00 | 0.00 | 0.49 | 0.50 |
是否提供自动填写乘机人信息的功能 | 1.00 | 0.00 | 0.28 | 0.45 | |
是否提供免费保险 | 1.00 | 0.00 | 0.00 | 0.05 | |
服务问题信息 | 是否存在服务问题 | 1.00 | 0.00 | 0.14 | 0.34 |
位置信息 | 在页面中的展示位置 | 29.00 | 1.00 | 8.87 | 5.32 |
代理商推荐页面展示的上述信息都可能会不同程度地影响用户对代理商的选择。通常由于用户对机票价格的敏感,使得代理商的报价成为影响用户选择的最重要的因素。搭售保险会造成机票最终报价的上升,同时这种搭售行为也有可能引起用户的反感,应当会对用户的选择造成相当大的影响。代理商评分代表了用户长期以来对代理商综合服务水平的评价,因此有可能成为用户在选择代理商时的一项重要参考。代理商的评价人数可以辅助用户考察代理商的评分,评价人数过少的代理商可能会降低用户对其服务质量的信任,从而降低其被选择的可能性。理论上讲,代理商提供的增值服务都应当会提高代理商对用户的效用,而代理商服务存在问题应该会降低用户对其的选择。另外,代理商在页面中的展示位置也会影响用户的选择行为,通常展示位置靠前的代理商被用户选择的可能性较大。但是,具体这些信息会如何影响用户的选择,则需要通过建立合适的模型进行解释。
除了以上影响因素,诸如代理商的品牌效应、代理商自身订票网站的设计、代理商订票服务的便利程度等代理商自身特性的差异也可能会对用户的选择产生影响。由于代理商推荐页面无法体现这些信息,具体的影响无法通过模型验证,但是可以统计代理商的市场份额,不同市场份额的代理商应该对用户的选择也会产生一定的影响。
2.2 变量选择与处理根据数据提供的代理商信息,在模型中首先引入价格变量。在绝大多数应用离散选择模型研究航班行程选择的文献中,机票价格都是直接以线性的形式引入模型的,如Van Eggermond等[7]在研究相似航班行程选择以及Garrow等[8]在研究机票在线销售渠道的价格敏感性时都是将线性机票价格作为模型变量。Jiang[5]在其模型中引入的是对数形式的机票价格。本文的模型会采用这2种方式引入价格变量,但该价格是机票报价和搭售保险的价格之和。同时为了考察搭售保险这一销售方式本身对用户选择的影响,引入1个0~1变量描述代理商是否搭售保险。
其次引入代理商评价变量。经过多次试验,采用分段函数形式引入评分 (0~2.5) 和评分 (2.5~5.0) 2个变量来考察代理商评分信息对用户选择的影响,其取值方式如表 2所示。同时根据评价人数频率分析的结果,引入1个0~1变量表示某个代理商的评价人数是否小于或等于20,来考查评价人数对用户选择的影响。
为了考察代理商提供的增值服务对用户选择的影响,分别引入1个0~1变量表示是否提供7×24 h服务,是否提供自动填写乘机人信息的功能以及是否提供免费保险。同样,引入1个0~1变量表示代理商是否存在服务问题。对于代理商在页面上的展示位置这个属性,根据频率分析的结果,以页面首位为基准,引入4个0~1变量分别表示第2位、第3~6位、第7~12位和第12位以后位置。另外,根据代理商变量市场份额分析的结果,发现建模使用的数据中共有109家不同的代理商至少获得了1人次的用户订票。考虑到代理商的市场份额会对模型估计的精确性有一定的影响,本文在模型中也将代理商订票份额占总订票份额前60%的代理商引入模型,用以表征代理商的自身特性。满足这一条件的代理商共有12家,因此共引入12个代理商特性变量,并将剩余代理商作为基准。
2.3 结果分析本文使用软件SAS 9.2处理数据并估计模型,经过反复的判断和统计检验,由于代理商是否存在服务问题这个0~1变量在线性价格模型和对数价格模型中都不显著,所以在最后的模型中都去掉了这个变量。该信息对用户的选择没有显著影响。表 3列出了最终的2个在线机票代理商选择模型的各项参数及对应的估计系数和渐近t检验统计量。
编号 | 变量 | 线性价格模型 | 对数价格模型 | ||
系数 | t统计量 | 系数 | t统计量 | ||
价格变量 | |||||
1 | 价格 (机票报价+保险) | -0.013 | -171.92 | -9.438 | -177.24 |
搭售保险 (以未搭售保险为基准) | |||||
2 | 是否搭售保险 | -0.541 | -35.96 | -0.426 | -28.28 |
代理商评价变量 (以评分为0,评价人数≥20为基准) | |||||
3 | 评分 (0~2.5) | 0.447 | 23.13 | 0.439 | 23.21 |
4 | 评分 (2.5~5.0) | 0.114 | 12.40 | 0.125 | 13.44 |
5 | 评价人数是否 < 20 | -0.253 | -5.71 | -0.224 | -5.21 |
代理商增值服务及问题变量 (以无增值服务为基准) | |||||
6 | 是否自动填充信息 | 0.488 | 26.45 | 0.390 | 21.52 |
7 | 是否7×24 h服务 | 0.132 | 8.07 | 0.041 | 2.55 |
8 | 是否赠送保险 | 1.196 | 20.00 | 1.077 | 17.97 |
页面位置变量 (以页面位置1为基准) | |||||
9 | 页面位置2 | -0.660 | -53.96 | -0.690 | -55.98 |
10 | 页面位置3~6 | -1.348 | -113.03 | -1.374 | -114.25 |
11 | 页面位置7~12 | -2.008 | -132.39 | -2.017 | -132.11 |
12 | 页面位置>12 | -1.656 | -102.02 | -1.633 | -100.66 |
代理商特性变量 (以用户订票份额后40%的代理商为基准) | |||||
13 | 代理商1 | 1.502 | 13.62 | 1.285 | 11.43 |
14 | 代理商2 | 0.609 | 27.73 | 0.481 | 22.13 |
15 | 代理商3 | 0.381 | 17.59 | 0.368 | 16.95 |
16 | 代理商4 | -0.149 | -5.94 | -0.031 | -1.23 |
17 | 代理商5 | 1.516 | 68.00 | 1.470 | 65.46 |
18 | 代理商6 | 2.231 | 72.36 | 2.282 | 73.90 |
19 | 代理商7 | 0.286 | 12.72 | 0.252 | 11.09 |
20 | 代理商8 | 1.238 | 52.73 | 1.245 | 52.86 |
21 | 代理商9 | 0.498 | 9.41 | 0.451 | 8.67 |
22 | 代理商10 | 0.418 | 17.17 | 0.267 | 11.05 |
23 | 代理商11 | 1.876 | 56.52 | 1.727 | 50.04 |
24 | 代理商12 | -0.513 | -21.85 | -0.500 | -21.28 |
模型估计的统计量 | |||||
对数似然函数值lnL (β) | -162497 | -161350 | |||
所有参数为0时的对数似然函数值lnL (0) | -250894 | -250894 | |||
模型变量个数K | 24 | 24 | |||
调整似然比指数 |
0.352 | 0.357 |
从2个模型参数的估计结果来看,渐进t检验显示,模型引入的各个变量对用户代理商的选择均有显著影响,除了变量“代理商4”在对数价格模型中不太显著。所有变量的符号也符合预期。结果显示:1) 机票总报价的上升会导致代理商对用户效用的下降;用户也不喜欢搭售保险的销售方式。2) 代理商对用户的效用会随着代理商评分的上升而增加;评价人数太少会对用户对代理商的选择产生负的影响。3) 增值服务的提供都会增加代理商对用户的效用,尤其是免费保险的提供,其次是自动填充信息的服务。4) 代理商在页面的展示位置的确会对用户对代理商的选择产生显著影响。用户更倾向于选择页面位置靠前的代理商 (如前6位),首位仍是用户的首选。有趣的是,变量“页面位置>12”的系数大于变量“页面位置7~12”的系数,可以推断,位于展示页面下方的代理商被用户选择的可能性也较高。5) 引入的订票份额占总订票份额60%的代理商的确对用户选择代理商的行为有显著的影响。
另外,从表 3中的模型估计的统计量来看,对数价格模型的对数似然函数lnL (β) 和调整的似然比指数
$ P({\bar \rho _2}^2 - {\bar \rho _1}^2 > z) \leqslant \mathit{\Phi }\left\{ { - {{\left[ {\begin{array}{*{20}{l}} { - 2zL(0)} \\ { + {K_2} - {K_1}} \end{array}} \right]}^{1/2}}} \right\},z > 0 $ | (4) |
实际结果显示
通过预测检验可以验证最终得到的对数价格多项logit模型能否很好地预测用户在代理商推荐页面的选择行为,即对于任何一个代理商来说,模型能否较准确地预测其在某天的实际订票数量。本文采用2种方法预测第5天、第6天代理商的订票数量,并通过与代理商的实际订票数量的比较来验证模型的有效性。
3.1 预测方法假设预测当天数据集中共有N次有效观测。第1种方法是应用本文得到的对数价格多项logit模型进行预测。对于任何一次有效观测n (即用户的一次代理商选择),模型给出的代理商i的选择概率为Pn (i),则模型给出的当天代理商i的预测订票数量
关于预测精度,本文关注的是2种预测方法下各代理商的预测订票数量和实际订票数量绝对误差的平均水平。首先选择第5天、第6天数据集中有实际订票数量的102个、99个代理商,按订票份额将代理商降序排列,然后分别计算2种方法对应的预测订票数量与实际订票数量绝对误差的累积平均值,用来检验模型的精度和有效性。图 1为验证的结果。
从图 1可以看出,总体上,两天多项logit模型预测的绝对误差的累积平均值均低于对应的历史数据预测的结果,并且多项logit模型预测的结果更为平稳。特别是,当计入累积的代理商数量较少时,多项logit模型的预测精度明显比历史数据预测的精度要高;当计入累积的代理商数量逐渐增多时,二者的预测精度趋于相仿,前者略优于后者。
为了定量地给出2种预测方法的精度和对比值,本文对计入累积的代理商数量分段计算2种方法对应的预测订票数量与实际订票数量绝对误差的累积平均值的均值和标准差,结果如表 4所示。
单位:人次 | |||||
计入累积的代理商数量 | 绝对误差的累积平均值 | 第5天 | 第6天 | ||
多项logit预测 | 历史数据预测 | 多项logit预测 | 历史数据预测 | ||
1~20 | 均值 | 637 | 1061 | 415 | 1410 |
标准差 | 243 | 300 | 176 | 330 | |
21~40 | 均值 | 546 | 869 | 431 | 832 |
标准差 | 54 | 82 | 40 | 99 | |
41~60 | 均值 | 442 | 624 | 348 | 567 |
标准差 | 30 | 60 | 22 | 56 | |
61~80 | 均值 | 345 | 466 | 274 | 422 |
标准差 | 26 | 35 | 20 | 30 | |
81~100 | 均值 | 274 | 371 | 219 | 336 |
标准差 | 17 | 23 | 13 | 20 |
从表 4可以看出,在预测订票份额较大的主要代理商,即排名靠前的代理商的订票数量时,多项logit模型预测的结果的确明显优于历史数据预测的结果。例如,第5天排名前20位的代理商在多项logit模型下绝对误差的累积平均值的均值为637人次,而历史数据预测的绝对误差的累积平均值的均值为1061人次,二者相差424人次;第6天的对应值更是相差995人次。另外,当计入累积代理商数量达到80以上时,第5天和第6天对应的差值分别缩小为97人次和117人次,2种预测方法的精度相仿。通过以上的预测检验,可以进一步证实该对数价格多项logit模型可以较好地解释和预测用户在线机票代理商的选择行为。
4 结 论本文根据某旅游搜索网站机票代理商推荐页面显示的代理商信息,引入有关代理商的报价、评价、增值服务、页面位置以及市场份额的变量,建立了可以解释机票搜索用户在该页面选择代理商行为的对数价格多项logit模型。模型显示:较低的机票总报价、较高的评分、较前的页面位置、较大的市场份额以及增值服务的提供一般都利于用户对代理商的选择。而搭售保险和过少的评价人数则不利于增加用户对代理商的兴趣。这些结论可以为该推荐系统的改进提供一定的参考。另外,通过与直接采用历史数据的预测方法比较,发现该模型有更高的预测精度。本文采用的研究方法,可以推广到大数据背景下其他领域的在线选择行为分析。本文不足的是仅采用了最基本的多项logit模型初探了用户在线机票代理商选择行为。应用更复杂的离散选择模型或利用更宽泛的数据来源进行该选择行为的研究是未来的努力方向。
[1] | Smyth B, Cotter P. A personalized TV listings service for the digital TV age[J]. Knowledge-Based Systems, 2000, 13(2-3): 53–59. DOI:10.1016/S0950-7051(00)00046-0 |
[2] | Jansen B J, Spink A, Bateman J, et al. Real life information retrieval: A study of user queries on the web[J]. SIGIR Forum, 1998, 32(1): 5–17. DOI:10.1145/281250 |
[3] | Coldren G M, Koppelman F S, Kasturirangan K, et al. Air travel itinerary share prediction: Logit model development at a major US airline[J]. Journal of Air Transport Management, 2003, 9(6): 361–369. DOI:10.1016/S0969-6997(03)00042-5 |
[4] | Coldren G M, Koppelman F S. Modeling the proximate covariance property of air travel itineraries along the time-of-day dimension[J]. Journal of the Transportation Research Board, 2005(1915): 112–123. |
[5] | Jiang H. A nested logit-based approach to measuring air shopping screen quality and predicting market share[J]. Journal of Revenue and Pricing Management, 2009, 8: 134–147. DOI:10.1057/rpm.2008.51 |
[6] | Warburg V, Bhat C, Adler T. Modeling demographic and unobserved heterogeneity in air passenger's sensitivity to service attributes in itinerary choice[J]. Journal of the Transportation Research Board, 2006(1951): 7–16. |
[7] | Van Eggermond M, Schüessler N, Axhausen K W. Accounting for Similarities in Air Transport Route Choice[D]. Zürich: ETH, Eidgenössische Technische Hochschule Zürich, IVT, 2008. |
[8] | Garrow L A, Jones S P, Parker R A. How much airline customers are willing to pay: An analysis of price sensitivity in online distribution channels[J]. Journal of Revenue and Pricing Management, 2007, 5(4): 271–290. DOI:10.1057/palgrave.rpm.5160052 |
[9] | 梅虎. 航空旅客选择行为及其在收益管理中的应用研究[D]. 南京: 南京航空航天大学, 2007. MEI Hu. Research on Air Passenger Choice Behavior and Its Application to Revenue Management[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2007. (in Chinese) |
[10] | 叶峰. 基于出行链的航空旅客选择行为研究[D]. 上海: 同济大学, 2008. YE Feng. Trip Chain Based Air Passenger Behavior Choice Research[D]. Shanghai: Tongji University, 2008. (in Chinese) |
[11] | Ben-Akiva M, Lerman S. Discrete Choice Analysis: Theory and Application to Travel Demand[M]. Cambridge: MIT Press, 1985. |
[12] | Train K E. Discrete Choice Methods with Simulation[M]. Cambridge: Cambridge University Press, 2003. |