Please wait a minute...
 首页  期刊介绍 期刊订阅 联系我们 横山亮次奖 百年刊庆
 
最新录用  |  预出版  |  当期目录  |  过刊浏览  |  阅读排行  |  下载排行  |  引用排行  |  横山亮次奖  |  百年刊庆
清华大学学报(自然科学版)  2015, Vol. 55 Issue (11): 1178-1183    DOI: 10.16511/j.cnki.qhdxxb.2015.21.010
  自动化 本期目录 | 过刊浏览 | 高级检索 |
基于层次分裂算法的价格指数序列聚类
褚洪洋, 柴跃廷, 刘义
清华大学自动化系, 电子商务交易技术国家工程实验室, 北京 100084
Cluster analysis of a price index series based on the hierarchical division algorithm
CHU Hongyang, CHAI Yueting, LIU Yi
National Engineering Laboratory for E-Commerce Technology, Department of Automation, Tsinghua University, Beijing 100084, China
全文: PDF(1089 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 目前,中国国家统计局发布的消费者价格指数不包含网购部分。随着电子商务的快速发展,网购价格指数的发布已经成为亟待解决的问题。互联网环境下,网购交易数据能够实时获取,因此网购价格指数应当更为准确可靠。然而,由于企业对商品分类标准不同,分类价格指数的计算需要首先解决基本价格指数的分类问题。该文提出一种基于层次分裂算法的价格指数序列聚类方法,选择基于相关系数的距离和Manhattan距离作为距离度量,分两步对价格指数序列进行聚类。算法通过设置不同的终止条件停止分裂,不需要事先设置簇数。引用实例对算法进行验证,有效划分了226组价格指数序列中的219组,取得了较好的聚类效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
褚洪洋
柴跃廷
刘义
关键词 价格指数序列层次分裂算法基于相关系数的距离Manhattan距离    
Abstract:At present, e-commerce trade is not included in the consumer price index published by the National Bureau of Statistics of China. With the rapid development of e-commerce, the development of an online consumer price index(CPI) has become an urgent problem. Online transaction data supports real-time access and corresponds to actual transactions. Therefore, an online CPI should be more real-time and more accurate than the traditional CPI. However, the calculation of a classification price index requires classification of elementary price indexes, because there are differences in the classification standards used by different enterprises. This paper describes a hierarchical division algorithm for cluster analyses of price index series, which uses a correlation coefficient based distance and the Manhattan distance to measure the distances between price index series and then divides the series by two steps. The method uses ending conditions to stop the divisions, so that the cluster count need not be preset. Finally, the method is applied to practical cases with 219 of 226 price index series effectively divided, which indicates a good clustering result.
Key wordsprice index series    divisive hierarchical clustering method    correlation coefficient based distance    Manhattan distance
收稿日期: 2014-11-25      出版日期: 2015-12-01
ZTFLH:  TP391.4  
通讯作者: 柴跃廷,教授,E-mail:chaiyt@tsinghua.edu.cn     E-mail: chaiyt@tsinghua.edu.cn
引用本文:   
褚洪洋, 柴跃廷, 刘义. 基于层次分裂算法的价格指数序列聚类[J]. 清华大学学报(自然科学版), 2015, 55(11): 1178-1183.
CHU Hongyang, CHAI Yueting, LIU Yi. Cluster analysis of a price index series based on the hierarchical division algorithm. Journal of Tsinghua University(Science and Technology), 2015, 55(11): 1178-1183.
链接本文:  
http://jst.tsinghuajournals.com/CN/10.16511/j.cnki.qhdxxb.2015.21.010  或          http://jst.tsinghuajournals.com/CN/Y2015/V55/I11/1178
  图1 服装类和耐久商品价格指数序列
  图2 服装类和耐久商品剩余部分价格指数序列
  图3 相关性度量中无法区分的类别
  图4 价格指数序列层次分裂算法细节
  表1 各簇包含的价格指数序列
[1] 陈娟, 余灼萍. 我国居民消费价格指数的短期预测[J]. 统计与决策, 2005, 2(2):40-41.CHEN Juan, Yu Zhuoping. Short-term forecasting of China consumer pricing index[J]. Statistics and Decision, 2005:2(2) 40-41.(in Chinese)
[2] Nordhaus WD. Quality changes in price indexes[J]. Journal of Economic Perspectives, 1998, 12(1):59-68.
[3] Koch B. E-Invoicing/EBilling:International market overview & forecast[R]. Deutsch:Billentis, 2014.
[4] Fu T. A review on time series data mining[J]. Engineering Application of Artificial Intelligence, 2011, 24(1):164-181.
[5] Plant C, Wohlschlager AM, Zherdin A. Interaction-based clustering of multivariate time series[C]//Ninth IEEE international conference on data mining. Miami, FL, USA:IEEE Press, 2009, 914-909.
[6] De Luca G, Zuccolotto P, A tail dependence-based dissimilarity measure for financial time series clustering[J]. Advances in Data Analysis and Classification, 2011(5):323-340.
[7] D'Urso P, Cappelli C, Di Lallo D, et al. Clustering of financial time series[J]. Physica A:Statistical Mechanics and its Applications, 2013, 392(9):2114-2129.
[8] Fong S. Using hierarchical time series clustering algorithm and wavelet classifier for biometric voice classification[J/OL].[2014-10-18]. http://www.hindawi.com/journals/bmri/2012/215019/.
[9] Ji M, Xie F, Ping Y. A dynamic fuzzy cluster algorithm for time series[J]. Abstract & Applied Analysis, 2013, 51(2):1781-1801.
[10] Duru O, Bulut E. A non-linear clustering method for fuzzy time series:Histogram damping partition under the optimized cluster paradox[J]. Applied Soft Computing, 2014, 24:742-748.
[11] Scotto M, Alonso A, Barbosa S. Clustering time series of sea levels:Extreme value approach[J]. Journal of Waterway, Port, Coastal, and Ocean Engineering, 2014, 136(4):215-225.
[12] Liao W. Clustering of time series data:A survey[J]. Pattern Recognization, 2005, 38:1857-1874.
[13] Han J, Kamber M, Pei J. 数据挖掘:概念与技术[M]. 3版. 范明, 孟晓峰, 译. 北京:机械工业出版社, 2012. Han J, Kamber M, Pei J. Data Mining:Concepts and Techniques[M]. 3rd ED. FAN Ming, MENG Xiaofeng, translate. Beijing:China Machine Press, 2012.(in Chinese)
[14] Rodrigues PP, Gama J, Pedroso JP. Hierarchical clustering of time series data streams[J]. IEEE Transaction on Knowledge and Data Engineering, 2008, 20(5):615-627.
[15] Colorni A, Dorigo M, Maniezzo V. Distributed optimization by ant colonies[C]//Proceedings of the first European conference on artificial life. Paris, France:MIT Press, 1991, 134-142.
[1] 艾斯卡尔·肉孜, 王东, 李蓝天, 郑方, 张晓东, 金磐石. 说话人识别中的分数域语速归一化[J]. 清华大学学报(自然科学版), 2018, 58(4): 337-341.
[2] 郑军, 李文庆. 基于双PSD的三维测量系统的标定方法[J]. 清华大学学报(自然科学版), 2018, 58(4): 411-416.
[3] 努尔麦麦提·尤鲁瓦斯, 刘俊华, 吾守尔·斯拉木, 热依曼·吐尔逊, 达吾勒·阿布都哈依尔. 跨语言声学模型在维吾尔语语音识别中的应用[J]. 清华大学学报(自然科学版), 2018, 58(4): 342-346.
[4] 杨倩文, 孙富春. 基于泛化空间正则自动编码器的遥感图像识别[J]. 清华大学学报(自然科学版), 2018, 58(2): 113-121.
[5] 易江燕, 陶建华, 刘斌, 温正棋. 基于迁移学习的噪声鲁棒语音识别声学建模[J]. 清华大学学报(自然科学版), 2018, 58(1): 55-60.
[6] 田川, 叶晓俊, 王祖良, 李鑫. 血液管理RFID多标签识别碰撞避免方法[J]. 清华大学学报(自然科学版), 2017, 57(11): 1121-1126.
[7] 路文焕, 曲悦欣, 杨亚龙, 王建荣, 党建武. 无声语音接口中超声图像的混合特征提取[J]. 清华大学学报(自然科学版), 2017, 57(11): 1159-1162,1169.
[8] 肖熙, 周路. 基于k均值和基于归一化类内方差的语音识别自适应聚类特征提取算法[J]. 清华大学学报(自然科学版), 2017, 57(8): 857-861.
[9] 李晓飞, 许庆, 熊辉, 王建强, 李克强. 基于候选区域选择及深度网络模型的骑车人识别[J]. 清华大学学报(自然科学版), 2017, 57(5): 491-496.
[10] 艾斯卡尔·肉孜, 殷实, 张之勇, 王东, 艾斯卡尔·艾木都拉, 郑方. THUYG-20:免费的维吾尔语语音数据库[J]. 清华大学学报(自然科学版), 2017, 57(2): 182-187.
[11] 杨莹春, 邓立才. 基于GMM托肯配比相似度校正得分的说话人识别[J]. 清华大学学报(自然科学版), 2017, 57(1): 28-32.
[12] 聂鼎, 安雪晖. 基于图像处理的净浆扩展度测量工具开发[J]. 清华大学学报(自然科学版), 2016, 56(12): 1249-1254.
[13] 田垚, 蔡猛, 何亮, 刘加. 基于深度神经网络和Bottleneck特征的说话人识别系统[J]. 清华大学学报(自然科学版), 2016, 56(11): 1143-1148.
[14] 郑军, 魏海永. 基于白化变换及曲率特征的3维物体识别及姿态计算[J]. 清华大学学报(自然科学版), 2016, 56(10): 1025-1030.
[15] 陈宝华, 邓磊, 段岳圻, 陈志祥, 周杰. 三维重建中的多模型融合:克服光照和尺度影响[J]. 清华大学学报(自然科学版), 2016, 56(9): 969-973.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 《清华大学学报(自然科学版)》编辑部
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn