Resources and Environmental Issues in Global Value Chains

Cross-database technology-product category mapping link method for innovative information mining

  • Yutong WEI 1, 2 ,
  • Xinming XIA , 1, 2, * ,
  • Shaojie ZHOU 1, 2
Expand
  • 1. School of Public Policy & Management, Tsinghua University, Beijing 100084
  • 2. Institute for Contemporary China Studies, Tsinghua University, Beijing 100084

Received date: 2024-08-26

  Online published: 2025-11-07

Copyright

All rights reserved. Unauthorized reproduction is prohibited.

Abstract

Objective: As the central role of innovation elements in economic and social development continues to rise, based on the practical need of the country to "strengthen the evaluation of the relationship between patent activities and economic benefits", breaking through the barriers between patent databases and other economic databases is a substantial development in the economic and national analysis research fields. The establishment of connections and data networks across various databases, such as product and patent databases in different fields and systems, is required to explore the correlation, internal mechanisms, and heterogeneity of innovative applications and transformations. Existing studies have mainly focused on the mapping between patents and industries. However, the complexity of product classification has led to the absence of direct mapping between International Patent Classification (IPC) and Harmonized System (HS) code, which has limited the analysis of technology transfer and industry-technology adaptation mechanisms. This paper aims to construct a cross-database technology-product category mapping method, reveal the technological characteristics of segmented industries, and provide data support for industrial innovation research. Methods: This paper utilizes the classification information of patent and product databases to explore the full-category mapping relationship between patent IPC classification and product HS classification in the Chinese language environment. Based on the comprehensive method of natural language processing (NLP), cross-searching, and algorithmic links with probabilities (ALP), this paper employs the examples of products corresponding to the HS codes from the data released by the General Administration of Customs of China as external word sources to expand the HS category keywords, thereby obtaining a keyword list with higher quality than that generated by NLP segmentation. Furthermore, three weighting correction methods(raw weight, specificity weight, and hybrid weight) are employed based on the Bayesian theorem to establish mapping links between HS (six-digit) and IPC (three-digit); these are combined with multilevel classification to refine the analysis of technological differences and associations. Results: The mapping results reveal that complex products are associated with a wide variety of technologies, whereas simple industrial and agricultural products are associated with fewer technology types. The results reflect the heterogeneity of technological innovation across different industries and products. The calculation results of specificity and mixed weights are more likely to reveal unique technology types related to the production of certain product categories compared with the original weight, which is of great importance for further identifying specialized, sophisticated, and novel patents. The development of strategic emerging industries is closely related to the technological support of sections G (Physics) and H (Electricity), objectively indicating the importance of basic research in the development of strategic emerging industries. Conclusions: The IPC-HS link method constructed using cross-searching and ALP can effectively quantify the strength of technology-product associations, break through the barriers of the classification systems between technology and products from the perspective of innovation achievement transformation, and provide data-driven empirical support for the transformation of technological achievements. This mapping relationship can reveal the technological characteristics and differences of segmented industries; it can contribute to the understanding of technology diffusion in the innovation ecosystem, the application of technology in strategic emerging industries, and the adaptation mechanism between technology and industry.

Cite this article

Yutong WEI , Xinming XIA , Shaojie ZHOU . Cross-database technology-product category mapping link method for innovative information mining[J]. Journal of Tsinghua University(Science and Technology), 2025 , 65(11) : 2206 -2220 . DOI: 10.16511/j.cnki.qhdxxb.2025.27.023

21世纪以来,全球科技创新进入密集活跃期,新一轮科技革命和产业变革正在重构全球创新版图,重塑全球经济地理格局[1]。党的十八大以来,中国经济发展进入新阶段,创新成为推动经济高质量发展的有力支撑,以技术创新为核心的战略性新兴产业成为经济高质量发展的重要抓手,其产品技术的复杂性与不确定性对科技成果转化能力提出了更高的要求[2],但在数据层面,与科技成果转化紧密相关的技术与产品数据库还处于割裂状态,限制了这一领域的创新研究。
在创新过程中,科学技术需要跨越客观存在于创新价值链技术与产品之间的“死亡谷(valley of death)”与“达尔文海(Darwinian sea)”,技术需要与市场需求匹配才能转化为现实生产力[3-4]。然而技术与产品具备不同的分类体系,导致产业界与学术界很难有效把握全类型产品的技术集成特征和创新驱动机制,这已经成为创新发展研究亟待解决的难题[5]。产品创新蕴含学科交叉特征和多领域的技术集成[6-9],导致了技术与产品之间多对多的复杂关系,这也为在专利与产品2种分类体系中建立映射带来巨大挑战。
专利信息是世界上较大的公开技术信息源之一,在知识经济时代具备指导技术进步和经济社会发展的重大价值。但专利信息的呈现方式难以适用于经济分析,需要迁移匹配至创新活动与经济活动中的区域、行业、企业等实体当中,才能进行更加深入的创新研究[10-12]。虽然已有许多研究建立了“专利”与“行业”分类映射关系,但鲜有研究直接建立“专利”与“产品”之间的分类映射关系[13]。产品比行业的分类更为复杂和详尽,是更加具体的技术门类集成对象,例如印刷电路的制造涉及设计、印刷、蚀刻、钻孔、镀膜、组装、测试、清洗、切割等多个技术环节,而在行业分类当中仅被归纳为“电子设备制造”,损失了大量技术信息。因而“产品”比“行业”更能够反映技术创新驱动机制,但这也导致“专利”与“行业”的映射建立方法无法直接应用到具有不同分类特征的“产品”领域。打通专利信息与产品信息数据库的连接,贯通“技术-产品-企业-行业-区域”的映射关系,将实现对现有创新研究的极大突破。图书情报学科在创新驱动、应用引领与技术赋能的特点下对各类新兴的交叉信息学科领域进行了有效的分类映射开拓研究[14],为跨越不同领域的创新信息研究奠定了基础。
本研究利用专利数据库与产品数据库的分类信息,在自然语言处理关键词提取、交叉检索与概率关联算法(algorithmic links with probabilities, ALP)的基础上,构建中文语言环境下国际专利分类(international patent classification,IPC)体系与产品HS编码(其中HS表示协调制度(harmonized system),全称为《商品名称及编码协调制度的国际公约》)的映射关系,进一步打通专利库与其他经济数据库的壁垒,以期在未来研究中获得包含IPC-3位数创新、HS-6位数产品、发明企业和生产企业等微观数据链接以及所属行业、所在地级市等多维度、多尺度数据,通过对产品的技术集成特征进行刻画,进而从技术集成的视角反映产品创新能力。这对于深入理解创新端和生产端的创新转化能力,深化创新研究、构建协同创新生态、把握产品创新规律以及测度创新成果的产业化水平具有重大意义。

1 映射方法

在专利分类映射研究中使用的映射方法可以分为人工映射与自动映射2大类。在人工映射方面,20世纪90年代的耶鲁技术对照方法(Yale technology concordance, YTC)首次全面建立起了专利与行业的映射关系,其分类体系为IPC与加拿大使用的标准产业分类(standard industrial classification,SIC),采取的方法是依赖于专家与专利审查员判断的人工映射方法[15]。在YTC后,Schmoch等 [16]和Verspagen等 [17]均通过人工方式建立了IPC体系与联合国制定的国际标准产业分类(international standard industrial classification of all economic activities,ISIC)的一对一映射。中国也进行了类似的人工分类映射工作,例如国家知识产权局发布的《国际专利分类与国民经济行业分类参照关系表(2018)》针对一个国民经济行业分类号检索出相关的专利集合和IPC分类号,从中归纳出与该国民经济行业分类(national industrial classification,NIC)有关的专利数量和比例,加以人为干预判定因素得到映射结果[18]。然而,人工映射存在工作量巨大、受专利审查员自身水平影响大等问题,且随着技术与产品创新不断变化人工映射的结果也需不断修订和调整。因此,探索自动映射方法的必要性日益显现。
实现专利分类相关的自动映射,本质是开发一套标准化的、用于测度包含专利信息的2个主体间关联性或相似度的计算方法。根据映射主体与映射目的的不同,所使用的映射方法也存在区别,会涉及共现(co-occurrence)[19]、社会网络分析(social network analysis)[20]、交叉检索(cross-searching)[9, 21]、机器学习(machine learning)等[22-25]。在专利类别和专利类别的关联性(即技术距离)研究中,一般使用共现方法和社会网络方法对专利引用网络、专利发明人社会网络、专利分类信息进行挖掘[26-27]。然而引用网络与发明人间的关联性数据若用于专利与其他分类的映射研究,则对数据库间的连通性有着很高要求,如Dorner和Matthias[28]所做的技术-行业映射研究使用德国专利发明人的机构信息,正是得益于发明人的社保记录与其机构信息相匹配,并提供了相关的行业信息。因此,在专利类别与其他分类类别的映射研究中,常用方法是测度类目文本的相似性确定映射关系,一般需先使用词袋法(bag-of-word,BoW)[29]、TF-IDF算法[30]或Word2Vec[22]、Doc2Vec[23]等机器学习算法对类目文本进行特征提取和向量化,再将特征提取结果构建为共现矩阵,接着通过计算余弦相似度、Jaccard相似度等得到映射结果[31-32]
基于上述方法可建立IPC体系与其他分类体系的自动映射结果[33]。其他分类体系包括其他专利分类体系,如联合专利分类体系(cooperative patent classification,CPC)[9]、美国专利分类体系(United States patent classification,USPC)[34];行业或产业分类体系,如国民经济行业分类法(national industrial classification,NIC)[35-36];文献资源分类体系,如中国图书分类法[37]等。然而这类“特征提取向量化-相似度计算”方法仅对类目的名称进行相似度匹配,一方面不同分类体系具有不同的命名原则,例如用途型、成分型;另一方面不同类目层级蕴含的关键词信息量有很大区别,例如NIC划分最细的小类仅有1 380个,而HS仅仅是6位编码数量就已经超过5 600个,这导致原方法只能局限在关键词信息量相近的层级之间实施匹配。例如IPC “H05K3/00-用于制造印刷电路的设备或方法”包含电镀机,但其与HS“85433000-电镀、电解或电泳设备及装置”的类目名称相似度并不高,二者包含信息也不一定完全相同。这也导致采取该方法的专利类目映射研究往往只选取某一个较小的技术/产业类别进行测试[35-36],而难以进行全种类甚至跨层级的匹配。
Lybbert和Zolas[38]提出了一种新的映射方法为解决类目文本的限制提供了思路,即自然语言处理关键词提取、交叉检索与概率关联算法(algorithmic links with probabilities, ALP) 组合而成的自动映射方法。该方法使用分类名称与经济类数据库信息,基于自然语言处理技术进行关键词提取后,在欧洲专利局(European patent office,EPO)提供的PATSTAT专利数据库(https://www.epo.org/patstat)内实施交叉检索,再利用统计分析计算相似度,并在研究中详细呈现了该方法在构建IPC体系与ISIC自动映射方面的应用,不断拓展USPC、CPC等专利信息与经济活动相关类别的映射[39]。该方法用更加丰富的专利库信息弥补了类目文本信息量的不足,可使映射结果反映其所用专利库的行业-技术集成特征,但也面临着关键词提取环节准确性和覆盖度的权衡问题[40],其词源扩展工具也无法应用至中文语料的数据库中。
因此,基于已有研究建立的专利分类与行业分类间联系,为了进一步构建“专利-产品(IPC-HS)”的分类映射,本研究借鉴了Lybbert和Zolas[38]的方法,使用中文语料的中国专利数据库资源与产品分类资源探索IPC体系与产品HS编码的全类别匹配,为进一步深化创新应用相关的实证研究奠定基础。

2 面向创新应用的跨数据库技术-产品类目映射链接的关键技术

2.1 数据来源

IPC体系与产品HS编码具有不同的分类对象与原则,二者之间的映射是跨层级、多对多的复杂关系,进行匹配前需先明确关键词提取的主体、交叉检索使用的数据库,以及匹配分类层级的问题。由于目前的产品HS编码中的产品类目比IPC体系中的更具体,所以可将前者作为关键词提取对象,在IPC数据库内进行交叉检索。为了减少跨层级匹配带来的混乱,选择在结果展示中对IPC采取概括性更强、分辨度更低的IPC-3层级以整合更细层级的复杂对应关系,在HS-6与IPC-3两个层级之间建立映射关系。
中国于1985年实施专利法,并于1997年加入《国际专利分类斯特拉斯堡协定》。本研究使用的IPC体系来自国家知识产权局公布的《国际专利分类表(2022.01版)》,包含8个大部、131个大类、647个小类、7 739个大组以及69 997个小组。IPC体系基于等级分类,采取功能与应用相结合的分类原则,以功能分类原则为主:若一项技术的功能不限于特殊领域的应用,则归入功能性发明;若限于特定使用领域则归入应用性发明;如果一项技术在确定功能分类后还有可归入的应用领域,则会出现两类原则并存的情况[38]
在产品HS编码方面,中国自1992年加入《商品名称及编码协调制度公约》后,产品HS编码先后经历七版更改或修订。产品HS编码前6位为全球统一标准,中国在此基础上增加至8位与10位编码。本研究使用的HS类目文本来自中国海关总署公布的《中华人民共和国海关统计商品目录(2022年第七版)》,包含97章、1 228个HS-4位品目、5 612个HS-6位子目、8 930个HS-8位编码与12 622个HS-10位编码,其分类原则十分关注产品在组成成分与生产方式上的差异。
除专利数据与产品类目文本外,本研究还使用了中国海关总署关税征管司发布的《进出口商品规范申报目录及实例(2021)》,提取其中每个HS编码对应的“品名”示例作为产品类目文本的外部词源拓展。

2.2 映射建构的基本流程

建立IPC与HS这2种分类法之间的映射关系,即判断一种分类信息在另一种分类体系当中相似关联信息的分布情况,从中提取出最相关的条目作为匹配映射对象。Lybbert和Zolas[38]在构建IPC体系与ISIC的映射过程中,采用了分类关键词提取、交叉检索与ALP算法的思路,着重说明了ALP算法如何通过交叉检索结果的频率信息来判断2种分类系统中不同条目的相关性大小。但将该方法直接应用到本研究中,还面临以下问题:1) 中文具有独特的语言特征,尤其是汉字的多义化和书写系统、词边界、语法结构、同音字和多音字、上下文依赖性和量词的使用等均与英文存在显著差异;2) 用于拓展外部词源的英文工具不适用于中文关键词的拓展;3) 产品HS编码中各类目存在用途、材质、包装、形状等多个要素,关键词提取复杂度高于ISIC依据的行业分类。因此,为建立中文语言环境下的IPC体系与产品HS编码的映射关系,需对关键词提取与交叉检索过程进行细化与修正,确保遵循直接映射(IPC→HS)而非间接映射(如IPC→ISIC→HS)、自动映射为主而非人工干预为主的匹配原则。本研究构建的映射流程如图 1所示,由图可知,包含检索关键词提取与外部词源拓展、交叉检索、ALP加权处理三个主要环节。具体步骤包括:
图 1 HS-IPC映射流程
1) 提取HS编码分类相对应的关键词,并进行外部词源拓展。在已有HS-6产品名信息基础上引入海关总署官方公布的HS申报要素品名举例信息,采用自然语言处理(natural language processing,NLP)以及相关算法辅助对HS信息进行分词和名词提取,并使用HowNet对名词进行外部词源的同义词拓展,辅以人工标注对其进行二次清理简化,形成关键词提取列表并增强匹配准确性。
2) 关键词跨类交叉检索。在专利数据库的专利标题中检索产品关键词信息,若检索结果为0则人工对关键词进行清理简化或同义替换并再次检索。
3) ALP加权处理。记录每一个HS关键词检索结果中各专利种类出现的频率,计算每类专利在与某HS编码所匹配的总专利数量中的占比。通过Bayes法则对其频率进行修正以减少检索结果中的干扰与偏误。可以采取三种加权方法,具体参见下文的式(1)—(3)以及详细说明。将权重低于2%的专利结果设置为0,并对剩余权重做归一化处理。提取频率最高的多个结果作为跨数据库链接结果,最终形成与相应HS编码匹配的IPC分类列表。
映射流程中的指标变化如图 2所示。由图可知,检索关键词提取与外部词源拓展会将HS分类体系转换为与HS编码一一对应的关键词,交叉检索过程会获得每一个HS编码与关键词对应的多个专利分类号的出现频率,通过ALP权重计算能够得到多个专利分类号的对应权重,最终保留权重最高的多个专利分类号,从而形成产品HS编码到IPC体系的一对多映射关系。
图 2 HS-IPC映射流程指标变化
以HS编码841280“其他发动机及动力装置”为例,其海关总署的《进出口商品规范申报目录及实例(2021)》中品名为“脚踏式油压机”,将其关键词提取为“油压机”。将“油压机”在专利数据库内进行检索,得到210条检索结果,其中IPC为“B30-压力机”分类的检索数量为96个,“B21-基本上无切削的金属机械加工;金属冲压”的检索数量为59个,“B23-机床;其他类目中不包括的金属加工”与“F15-流体压力执行机构;一般液压技术和气动技术”的检索数量均为12个,其余还有15个检索数量不为0的IPC类别。根据上述检索的频数分布进行ALP加权处理,便得到与HS-841280最相关的IPC-3类别。

2.3 匹配过程与规则构建

2.3.1 检索关键词提取与外部词源拓展

映射关系建立的第一步是对HS编码的检索关键词进行确认。用于检索的关键词要满足精确性与可搜索性。非人工提取关键词的方法有2种:一是采用NLP以及相关算法辅助对HS编码对应名称进行分词处理、名词提取和同义词扩展;二是使用中国海关总署关税征管司发布的《进出口商品规范申报目录及实例(2021)》,该书目对每种HS-8位编码均提供了一项申报要素实例,由此可获得该HS分类所对应的部分产品名称。
然而,若仅使用第一种方法,存在3种类型产品无法提取出有效关键词:一类是依据产品的用途进行表述的类别,如“14049010-主要供染料或鞣料用的植物原料”;一类是依据产品的成分进行表述的类别,如“38248100-含环氧乙烷(氧化乙烯)的混合物”;一类是包含“其他”表述的类别。方法二虽能克服上述缺陷,但存在部分HS编码对应的申报要素实例缺失的问题以及类目过于复杂且狭义的问题,如“22082000-装入200升及以上容器的蒸馏葡萄酒制得的烈性酒”对应分类产品名称为“Martell XO干邑白兰地”“53071000-黄麻及其他纺织用韧皮纤维单纱”对应分类产品名称为“孟加拉麻纱线”,此类繁复的产品名称易加大后续检索难度。
因此,本研究综合上述2种方法,首先整理《进出口商品规范申报目录及实例》申报要素实例中的HS-8类目与品名的对应关系,将其整合对应到信息高度重合的HS-6类目中,并对名称过长的品名进行人工清理简化;对缺失品名用HanLP[41]自然语言处理工具进行分词并提取被修饰的名词信息。利用基于语义网络的HowNet对提取的关键词进行外部词源拓展,进行同义词相关查找、对目标词语的衍生形式和变体进行拓展,并确保所添加的词语与目标关键词在语义上相关。在一轮交叉检索后对检索结果为0的关键词进行人工标注或二次清理简化(经过该处理,检索为0的结果由1 091/5 612下降到65/5 612),以得到尽可能多的产品信息关键词提取列表。
表 1 HS-6中品名对应的检索关键词提取示例
HS-6编码 产品类目 品名 检索关键词
010614 改良种用家兔及野兔、其他家兔及野兔 苏门答腊野兔 兔、兔子
090411 未磨胡椒、已磨胡椒 黑胡椒粒 胡椒
220820 蒸馏葡萄酒制得的烈性酒 MartellXO干邑白兰地 烈性酒、白兰地
260112 已烧结铁矿砂及其精矿 乌克兰球团铁矿 铁矿
293941 麻黄碱及其盐 草酸麻黄碱 麻黄碱
380700 木焦油;精制木焦油;木杂酚油;粗木精;植物沥青;啤酒桶沥青及类似制品 柚木护理油 木焦油木杂酚油
580132 割绒的化纤制灯芯绒 涤纶灯芯绒 灯芯绒
690410 陶瓷制建筑用砖 陶瓷制墙砖 陶瓷砖
722611 取向性硅电钢窄板、其他硅电钢窄板 取向性硅电钢窄板 硅电钢
841280 其他发动机及动力装置 脚踏式油压机 油压机

2.3.2 基于关键词的跨类交叉检索

在交叉检索过程中,选择在中国发明专利数据库2000—2018年公开的发明专利的标题进行检索。之所以没有参照Lybbert和Zolas[38]在检索对象中包含专利摘要,是因为一种技术既有可能被用于生产产品a,也有可能是利用产品a进行产品b的生产,例如硫磺的生产基于化工技术,但硫磺在医药、橡胶、造纸、染料等方面都有较多应用。专利标题中的检索关键词反映了技术的生产用途,而专利摘要中的信息则是上述两方面的混杂。为了更精确地提取制成产品与其生产技术的对应信息,仅在专利标题中进行跨类别检索是更优的选择。

2.3.3 加权处理

在交叉检索完毕后,遵循Lybbert和Zolas[38]提出的3种加权方法,对检索后的结果进行加权处理与频率计算。3种加权方法的详情如下:
第1种加权方法使用的是原始权重(raw weights)。根据Bayes法则,与产品i匹配的技术中来自技术j的概率WijR如式(1)所示。
$\begin{gathered}W_{i j}^{\mathrm{R}}=\operatorname{Pr}\left(A_j \mid B_i\right)= \\\frac{\operatorname{Pr}\left(B_i \mid A_j\right) \operatorname{Pr}\left(A_j\right)}{\operatorname{Pr}\left(B_i \mid A_1\right) \operatorname{Pr}\left(A_1\right)+\cdots+\operatorname{Pr}\left(B_i \mid A_j\right) \operatorname{Pr}\left(A_j\right)}=\frac{m_{i j}}{M_i} .\end{gathered}$
其中: 假设使用产品i的关键词在专利库中进行检索,在检索结果当中包含技术j;而在完成所有产品的检索后,除产品i外还会有许多产品的检索结果中都包含技术j,那么上述检索过程就产生了诸多匹配事件。其中AB为两类不同的匹配事件:Aj代表产品与技术j匹配,Bi代表技术与产品i匹配。mij代表与产品i匹配的技术j的数量;Mi代表与产品i匹配的技术数量,即Bi这个事件发生的总次数;Nj代表与技术j匹配的产品数量,即Aj这个事件发生的总次数。若N为所有产品的数量,那么Pr(Aj)代表产品与技术j匹配的条件概率,Pr(Aj)=Nj/N
第2种加权方法使用的是特异性权重(specificity weights)。考虑到不同技术的匹配具备不同的遍在性(ubiquitous)水平,对于某些匹配数量少而包含高度特异性信息的技术需要进行更高的权重修正。假设每个产品与技术j的匹配概率均一致,则设定这种特殊情况下的Pr(Aj)=1/J,由此计算出该种加权方案的概率WijS,如式(2)所示。
$\begin{gathered}W_{i j}^{\mathrm{s}}=\frac{\operatorname{Pr}\left(B_i \mid A_j\right)(1 / J)}{\operatorname{Pr}\left(B_i \mid A_1\right)(1 / J)+\cdots+\operatorname{Pr}\left(B_i \mid A_j\right)(1 / J)}= \\\frac{m_{i j} / N_j}{\sum\limits_j m_{i j} / N_j} .\end{gathered}$
第3种加权方法使用的是混合权重(hybrid weights),为了缓解第一种加权方式中原始权重WijR会导致遍在性水平较高的技术出现权重过大的问题,还可以采取原始权重与特异性权重两种方法相结合的混合加权方案WijH,如式(3)所示。
$\begin{gathered}W_{i j}^{\mathrm{H}}= \\\frac{\operatorname{Pr}\left(B_i \mid A_j\right)\left(W_{i j}^{\mathrm{R}} / J\right)}{\operatorname{Pr}\left(B_i \mid A_1\right)\left(W_{i 1}^{\mathrm{R}} / J\right)+\cdots+\operatorname{Pr}\left(B_i \mid A_j\right)\left(W_{i j}^{\mathrm{R}} / J\right)} .\end{gathered}$
假设有j1j2两种专利与一种产品i1,要判断这两种专利中哪一种与该产品类型关联性更强,可以通过上述给出的3种权重计算方式来进行权重大小的比较。图 3给出了上述假设情况下对j1j2专利的3种权重的计算结果,可以注意到因为权重计算过程中有区别地纳入了对专利遍在性水平的考量,因而最终判断专利与产品更加相关的链接结果也会存在不同。
图 3 权重计算示例

注:WR为使用原始权重计算的与产品i匹配的技术中来自技术j的概率,WS为使用特异性权重计算的与产品i匹配的技术中来自技术j的概率,WH为使用混合权重计算的与产品i匹配的技术中来自技术j的概率。

在这3种加权方案的基础上,需要进一步设置阈值以排除极为少见的、特殊的匹配结果。本文参照Lybbert和Zolas的研究[38],选择2%作为关键词交叉检索的阈值条件,将匹配频率低于2%的结果设置为0,并对剩余权重做归一化处理,由此提取出与HS编码关联性强且最匹配的IPC。

3 匹配结果分析

根据上述步骤可以实现HS-6与IPC-3之间的分类映射。在HS-6的基础上,可进一步计算HS-4与HS-2的技术频率均值,并提取出每个HS对应的最大频率的IPC类别映射表。
产品HS编码中每一个章节(HS-2)的关键词检索数量与IPC-3映射数量的统计如表 2所示,关键词检索数量越多代表该分类下包含的产品种类越多,而成功匹配到的映射数量越多代表产品生产所涉及的技术种类越多。由表可知,虽然在HS产品分类中同属一个分类层级,但不同章节产品关联的技术数量差异巨大,其中机械、电气设备、精密仪器设备等类型产品所关联的技术种类较多,而简单的工业制品与农业产品所关联的技术种类则较少,这充分体现了技术创新在不同产业与产品之间的异质性差异。
表 2 HS-IPC映射数量统计结果
HS-2 章节名称 关键词检索数 IPC匹配数 HS-2 章节名称 关键词检索数 IPC匹配数
84 核反应堆、锅炉、机器、机械器具及其零件 538 105 49 书籍、报纸、印刷图画及其他印刷品…… 18 27
85 电机、电气设备及其零件;录音机及放声机…… 296 95 55 化学纤维短纤 110 27
90 光学、照相、电影、计量、检验、医疗…… 143 80 12 含油子仁及果实;杂项子仁及果实…… 50 26
28 无机化学品;贵金属、稀土金属、放射性…… 180 72 15 动、植物油、脂及其分解产品…… 53 26
73 钢铁制品 124 68 75 镍及其制品 17 26
44 木及木制品;木炭 128 63 30 药品 45 25
68 石料、石膏、水泥、石棉、云母及类似材料…… 50 63 36 炸药;烟火制品;火柴;引火合金…… 13 25
38 杂项化学产品 108 61 41 生皮(毛皮除外)及皮革 37 25
70 玻璃及其制品 71 61 93 武器、弹药及其零件、附件 18 25
87 车辆及其零附件,铁道及电车道车辆除外 98 61 37 照相及电影用品 30 24
25 盐;硫磺;泥土石料;石膏料、石灰水泥 67 58 97 艺术品、收藏品及古物 19 24
72 钢铁 167 57 11 制粉工业品;麦芽;淀粉;菊粉…… 27 23
27 矿物燃料、矿物油及其蒸馏产品;沥青物质…… 43 56 51 羊毛、动物细毛或粗毛;马毛纱线…… 38 23
29 有机化学品 410 53 86 铁道及电车道机车、车辆及其零件…… 23 23
95 玩具、游戏品、运动用品及其零件、附件 39 53 08 食用水果及坚果;柑橘属水果或甜瓜的果皮 70 22
40 橡胶及其制品 80 52 13 虫胶;树胶、树脂及其他植物液、汁 11 22
94 家具;寝具、褥垫、弹簧床垫、软座垫…… 54 50 22 饮料、酒及醋 24 22
39 塑料及其制品 131 49 60 针织物及钩编织物 44 22
74 铜及其制品 49 47 88 航空器、航天器及其零件 26 22
83 贱金属杂项制品 36 47 43 毛皮、人造毛皮及其制品 12 21
89 船舶及浮动结构体 25 46 53 其他植物纺织纤维;纸纱线…… 23 21
48 纸及纸板;纸浆、纸或纸板制品 101 44 02 肉及食用杂碎 66 20
71 天然或养殖珍珠、宝石或半宝石、贵金属…… 55 44 50 蚕丝 9 20
96 杂项制品 49 44 57 地毯及纺织材料的其他铺地制品 24 20
91 钟表及其零件 48 43 78 铅及其制品 8 20
76 铝及其制品 35 42 17 糖及糖食 17 19
82 贱金属工具、器具、利口器、餐匙、餐叉…… 64 41 19 谷物、粮食粉、淀粉或乳的制品…… 19 19
05 其他动物产品 15 40 35 蛋白类物质;改性淀粉;胶;酶 15 19
81 其他贱金属、金属陶瓷及其制品 56 40 79 锌及其制品 9 19
58 特种机织物;簇绒织物;花边;装饰毯…… 37 38 09 咖啡、茶、马黛茶及调味香料 39 18
59 浸渍、涂布、包覆或层压的纺织物…… 24 38 14 编结用植物材料;其他植物产品 5 18
63 其他纺织制成品;成套物品;旧衣着…… 52 34 65 帽类及其零件 8 18
34 肥皂、有机表面活性剂、洗涤剂、润滑剂…… 24 32 33 精油及香膏;芳香料制品及化妆…… 29 17
52 棉花 124 32 07 食用蔬菜、根及块茎 73 16
56 絮胎、毡呢及无纺织物;特种纱线;线、绳…… 30 32 04 乳品;蛋品;天然蜂蜜…… 33 15
62 非针织或非钩编的服装及衣着附件 104 32 23 食品工业的残渣及废料;动物饲料…… 23 15
69 陶瓷产品 30 32 31 肥料 24 15
01 活动物 34 31 20 蔬菜、水果、坚果或植物其他部分…… 52 14
26 矿砂、矿渣及矿灰 37 31 67 已加工羽毛、羽绒及其制品;人造花…… 8 14
42 皮革制品;鞍具及挽具;旅行用品、手提包及类似容器;动物肠线制品 20 31 21 杂项食品 16 13
46 稻草、秸秆、针茅或其他编结材料制品…… 11 31 24 烟草、烟草及烟草代用品的制品 16 13
03 鱼、甲壳动物、软体动物及其他水生无脊椎…… 225 29 64 鞋靴、护腿和类似品及其零件 25 13
16 肉、鱼、甲壳动物、软体动物及其他水生…… 42 29 80 锡及其制品 5 13
32 鞣料浸膏及染料浸膏;鞣酸及其衍生物…… 45 28 10 谷物 26 12
54 化学纤维长丝 72 28 06 活树及其他活植物;鳞茎、根…… 16 11
61 针织或钩编的服装及衣着附件 106 28 45 软木及软木制品 7 11
92 乐器及其零件、附件 17 28 18 可可及可可制品 11 9
47 木浆及其他纤维状纤维素浆;纸及纸板…… 21 27 66 雨伞、阳伞、手杖、鞭子、马鞭…… 6 8
为了进一步展示本研究中IPC-HS匹配映射的结果,在打通产品与技术跨数据库链接的基础上,将HS-2分类匹配进一步细化为HS-4与HS-6,从而进一步细化产业分类的技术特征、技术差异性和关联性。采用HS编码的第84章“核反应堆、锅炉、机器、机械器具及其零件”的HS-4匹配情况以及8517类目“电话机,包括用于蜂窝网络或其他无线网络的智能手机及其他电话……”的HS-6匹配情况作为示例,展示更细维度的“专利-产品”匹配特征。
HS编码的第84章包含87个HS四位子目,是包含子目种类最多的产品类别,以其中前30个子目在3种权重计算方式下的匹配结果为例,结果如表 3所示。由表可知,8401类目“核反应堆”与B01(物理化学方法)和G21(核工程)2种技术高度关联;8402-8404类目的锅炉类产品则与F22(蒸汽发生)、F23(燃烧)、F24(供热炉灶)等技术高度关联;8406-8412类目的发动机类产品与F01(一般机器发动机)、F02(燃烧发动机)以及F03(液力发动机)等技术高度关联;8413-8414类目的液体泵与空气泵产品与F04(液体变容式机械)、F15(液压气动技术)等技术高度关联,8417、8418、8422类目中部分与家具相关的产品也与A47(家具技术)相匹配,8425-8430类目的施工机械当中与B65(输送、包装、贮存、搬运)以及B66(卷扬、提升、牵引)以及E部建筑类技术呈现出高度关联。WSWHWR相比对过于特殊及过于普遍的技术权重进行了修正,其结果也更容易出现与某类产品的生产相对应的更为独特的技术类型,这对于进一步识别专精特新类专利具有重要意义。
表 3 第84章HS-4与IPC-3在3种权重计算方式下的匹配结果
HS-4 分类名(部分简化) WR (排名1) WR (排名2) WS (排名1) WS (排名2) WH (排名1) WH (排名2)
8401核反应堆;核反应堆的未辐照燃料元件;同位素分离机器及装置 B01 G21 B01 G21 B01 G21
8402蒸汽锅炉;过热水锅炉 F22 F24 F22 F23 F22 F24
8403集中供暖用的热水锅炉,但品目84.02的货品除外 F24 F23 F23 F22 F23 F24
8404品目84.02或84.03所列锅炉的辅助设备…… F24 F22 F28 B25 B25 F25
8405煤气发生器;乙炔发生器及类似的水解气体发生器 C10 F23 C10 F23 C10 A01
8406汽轮机 F01 G01 F01 F22 F01 A01
8407点燃往复式或旋转式活塞内燃发动机 F02 F01 F02 F01 F02 F01
8408压燃式活塞内燃发动机(柴油或半柴油发动机) F02 F01 F02 F01 F02 F01
8409专用于或主要用于品目84.07或84.08所列发动机的零件 F02 F01 F02 F01 F02 F01
8410水轮机、水轮及其调节器 F03 H02 F03 F04 F03 F04
8411涡轮喷气发动机、涡轮螺桨发动机及其他燃气轮机 F02 B23 F02 F01 F02 F01
8412其他发动机及动力装置 B23 F15 F15 B06 F15 B23
8413液体泵,不论是否装有计量装置;液体提升机 F04 F15 F04 F15 F04 F15
8414空气泵或真空泵、空气及其他气体压缩机、风机、风扇…… F04 F24 F04 B01 F04 B01
8415空气调节器,装有电扇及调温、调湿装置…… F24 B60 F25 F24 F24 F25
8416使用液体燃料、粉状固体燃料或气体燃料的炉用燃烧器…… F23 F24 F23 A01 F23 A01
8417非电热的工业或实验室用炉及烘箱,包括焚烧炉 F26 A47 F26 F23 F26 A47
8418电气或非电气的冷藏箱、冷冻箱及其他制冷设备…… F25 A47 F25 A47 F25 A47
8419利用温度变化处理材料的机器、装置及类似的实验室设备,…… F24 F26 F24 F28 F24 A21
8420砑光机或其他滚压机器及其滚筒,但加工金属或玻璃用的除外 F16 B65 F16 D21 F16 D06
8421离心机,包括离心干燥机;液体或气体的过滤、净化机器及装置 B01 C02 B01 B04 B01 B04
8422洗碟机;瓶子及其他容器的洗涤或干燥机器…… A47 B65 A47 A46 A47 B65
8423衡器,包括计数或检验用的衡器;衡器用的各种砝码、秤砣 G01 B65 G01 B67 G01 B07
8424液体或粉末的喷射、散布或喷雾的机械器具;灭火器…… B05 A01 B05 A62 B05 A62
8425滑车及提升机,但倒卸式提升机除外;卷扬机及绞盘…… B66 B63 B63 B66 B63 B66
8426船用桅杆式起重机;起重机,包括缆式起重机…… B66 B23 B63 B66 B66 B63
8427叉车;其他装有升降或搬运装置的工作车 B62 A01 B66 B62 B66 B62
8428其他升降、搬运、装卸机械…… B65 B66 B65 B66 B65 B66
8429机动推土机、侧铲推土机、筑路机、平地机…… E02 E01 E02 E01 E02 E01
8430泥土、矿物或矿石的运送、平整、铲运、挖掘、捣固、压实、开采或钻探机械;打桩机及拔桩机;扫雪机及吹雪机 E21 E02 E21 E02 E21 E01

注:表中的“排名1”和“排名2”是指取权重排名前2位的IPC-3。

HS中的8517类目“电话机,包括用于蜂窝网络或其他无线网络的智能手机及其他电话机……”下HS-6-IPC-3匹配结果如表 4所示。在3种权重计算方法下的匹配结果中,H04(电通信技术)的匹配程度最高,851711-851718的电话机产品匹配结果中还包含G06(计算推算或计数)、G07(核算装置)、G08(信号装置);851761“通信基站”作为基础设施与E04(建筑物的相关技术)相匹配;851769“其他无线设备、其他有线设备”包括助听器接收机,因此与G10声学相匹配;而851779“设备零件”与H01(基本电器元件)、B29(塑性物质加工与天线的生产)相匹配。851762“交换机、光通讯设备、有线数字通信设备”的匹配结果不够理想,是因为分类下包含了18种存在较大差异的HS-8产品类别,所以用来作为检索关键词的品名“船用电话”无法涵盖整个类别,在更细分的HS层级上进行匹配可以有效缓解这一问题。
表 4 8517类目下HS-6与IPC-3三种权重计算方式下的匹配结果
HS-6 分类名(根据HS-8整合) WR (排名1) WR (排名2) WS (排名1) WS (排名2) WH (排名1) WH (排名2)
851711无绳电话机 H04 G07 H04 G07 H04 G07
851713智能手机 H04 G06 H04 G08 H04 G06
851714无线电话机、对讲机…… H04 G08 H04 G08 H04 A01
851718其他电话机 H04 G07 H04 G07 H04 G07
851761通信基站 H04 H02 H04 E04 H04 E04
851762交换机、光通讯设备、有线数字通信设备 H04 H05 H04 F28 H04 A01
851769其他无线设备、其他有线设备 H04 G10 G10 G16 H04 G10
851771各种天线或天线反射器及其零件 H01 B29 H01 B29 H01 B29
8517798517设备零件 H04 H05 H04 F28 H04 A01

注:表中的“排名1”和“排名2”是指取权重排名前2位的IPC-3。

中国自“十二五”规划以来,将大力培育发展战略性新兴产业作为经济转型升级的重点。“十四五”规划中明确指出要发展壮大战略性新兴产业,“聚焦新一代信息技术、生物技术、新能源、新材料、高端装备、新能源汽车、绿色环保以及航空航天、海洋装备等战略性新兴产业”。本研究将“十四五”规划提出的战略性新兴产业与专利技术进行匹配,以探究战略性新兴产业发展的技术支撑。从2000—2018年进入到公开阶段的发明专利当中挖掘与各战略性新兴产业的产品创新最相关的技术应用信息,获得的面向战略性新兴产业技术应用前5名(Top5)专利分布如表 5所示,由表可知,G部(物理)、H部(电学)等相关领域的专利在诸多战略性新兴产业的发展中占据重要地位,这也客观表明基础研究对于发展战略性新兴产业的重要性。
表 5 面向“十四五”规划战略性新兴产业技术应用的Top5专利分布统计
战略性新兴产业 产业内容举例 产品HS举例 IPC-3前五位 专利举例 专利数量/个 检索关键词
新一代信息技术 通信设备 851713智能手机 H04、G06、G01、G08、H02 一种双CPU架构智能手机及其通信控制方法[42] 2 054 智能手机
集成电路 848620半导体器件、集成电路制造设备 G03、G02 一种投影式光刻机中硅片平台高度控制系统及方法[43] 586 光刻机
生物技术 细胞工程 300251细胞治疗产品 A61、C12、C07 携带miR-199*的脂肪间充质干细胞在肝癌细胞治疗中的应用及其构建方法[44] 47 细胞治疗
新能源 风力发电 850231风力驱动的发电机组 F03、H02、G01、F16、G06 多风轮机混合储能式风力发电机[45] 9 048 风力发电
绿色环保 环保电池 850760锂离子蓄电池 H01、H02、G01 用微波技术合成锂离子蓄电池材料的方法[46] 132 锂离子蓄电池
新材料 光纤光缆制造 854470由多根具有独立保护套的光纤组成的光缆 G02、C08、H04、G01、H01 单束多股金属复合外套光缆[47] 3 670 光缆
高端装备 轨道交通装备 860110由外部电力驱动的铁道机车 G01、B61、G06、H01 一种铁道机车、车辆轮轴故障救援装置[48] 15 铁道机车
新能源汽车 新能源汽车 870380纯电动车 B60、B62、H02、H01、F16 一种复合式燃料电池电动车辆的电力输出控制系统[49] 7 925 电动车
航空航天 航天器制造 880260航天器(包括卫星)及其运载工具 H04、G01、H01、G06 一种数据通信卫星星座系统及其通信方法[50] 71 通信卫星
海洋装备 海洋深水油气钻探 890520浮动或潜水式钻探或生产平台 E02、E21、B63、B23、C22 一种节能型海上石油钻井平台[51] 434 钻井平台

注:本表中的专利数量是指在2000—2018年公开的发明专利中使用关键词进行检索得到的标题中包含关键词信息的公开发明专利总数。

4 结论

中国以创新驱动引领高质量发展,坚持创新在中国式现代化建设全局中的核心地位,强调应用引领等重大战略,不仅对创新研究提出了更高的要求,还明确提出了构建技术与产品数据分类体系的互联互通机制的必要性。当前,创新与经济数据联系在企业层面、城市尺度的中观研究已取得了重要的研究进展,但在产品微观层面的研究相对薄弱,尤其是专利创新的实际转化与应用的研究一直受专利分类和产品分类不匹配的限制。本研究提出了创新信息挖掘应用的跨数据库技术-产品类目映射链接法,结合自然语言处理(NLP)算法与海关申报要素对HS类目进行分词与词源拓展,形成标准化关键词提取框架,基于跨类交叉检索与概率关联算法构建IPC-HS映射关系。主要结论如下:1) 跨类交叉检索与概率加权方法构建的IPC-HS链接方法可有效量化技术-产品关联强度;2) 从创新成果转化角度打通技术与产品的分类体系壁垒,能够为技术成果转化提供数据驱动的实证支持;3) 揭示细分产业技术特征与差异性,有助于对技术创新生态中技术扩散、战略性新兴产业的技术应用、技术-产业适配机制的理解。
随着文本处理和语义分析工具的不断改进以及统计手段的更新,将出现越来越丰富的微观数据库。利用本文所提出的方法能够在更大范围和更深层次上挖掘和评估专利应用价值,这为评估“十四五”规划提出的高价值专利探索提供了一种新思路。此外,这项跨学科的研究为创新研究领域提供了新的应用场景和方法,在本文提出的研究方法的基础上,结合产业分布空间信息,可以进一步分析中国创新能力的时空演化特征,这对于全面认识中国创新布局与跨地区组织生产具有重要意义;也可以帮助企业找到关联的创新技术和市场需求,具有指导企业研发和制定产品策略的实际作用,为专利转化、知识产权管理、市场竞争分析等领域发展和政策制定提供决策支持。
1
王一鸣. 百年大变局、高质量发展与构建新发展格局[J]. 管理世界, 2020, 36 (12): 1- 13.

WANG Y M . Changes Unseen in a Century, High-Quality Development, and the Construction of a New Development Pattern[J]. Journal of Management World, 2020, 36 (12): 1- 13.

2
李晓华, 吕铁. 战略性新兴产业的特征与政策导向研究[J]. 宏观经济研究, 2010 (9): 20- 26.

LI X H , LV T . Research on the characteristics and policy orientation of strategic emerging industries[J]. Macroeconomics, 2010 (9): 20- 26.

3
姜永常. 基于知识网络的动态知识构建: 空间透视与机理分析[J]. 中国图书馆学报, 2010, 36 (4): 115- 124.

JIANG Y C . Dynamic knowledge architecture based on knowledge network: Space perspectives and mechanism analysis[J]. Journal of Library Science in China, 2010, 36 (4): 115- 124.

4
丁照琪, 张建辉, 许辰辉. 需求驱动的跨领域专利技术挖掘方法构建[J]. 科技管理研究, 2024, 44 (14): 154- 163.

DING Z Q , ZHANG J H , XU C H . The construction of demand-driven cross-disciplinary patent technology mining method[J]. Science and Technology Management Research, 2024, 44 (14): 154- 163.

5
詹文青, 肖国华. 面向技术需求的潜在技术转移专利识别[J]. 情报理论与实践, 2019, 42 (5): 117-121, 176.

ZHAN W Q , XIAO G H . Identify potential technology transfer patents oriented technology demand[J]. Information Studies: Theory & Application, 2019, 42 (5): 117-121, 176.

6
厉宁, 邹志仁. 专利信息的利用研究[J]. 中国图书馆学报, 2001, 27 (1): 38- 43.

LI N , ZOU Z R . On the use of patent information[J]. Journal of Library Science in China, 2001, 27 (1): 38- 43.

7
顾夏铭, 陈勇民, 潘士远. 经济政策不确定性与创新——基于我国上市公司的实证分析[J]. 经济研究, 2018, 53 (2): 109- 123.

GU X M , CHEN Y M , PAN S Y . Economic policy uncertainty and innovation: Evidence from listed companies in China[J]. Economic Research Journal, 2018, 53 (2): 109- 123.

8
余明桂, 范蕊, 钟慧洁. 中国产业政策与企业技术创新[J]. 中国工业经济, 2016 (12): 5- 22.

YU M G , FAN R , ZHONG H J . Chinese industrial policy and corporate technological innovation[J]. China Industrial Economics, 2016 (12): 5- 22.

9
王馨, 王营. 绿色信贷政策增进绿色创新研究[J]. 管理世界, 2021, 37 (6): 173- 188.

WANG X , WANG Y . Research on the green innovation promoted by green credit policies[J]. Journal of Management World, 2021, 37 (6): 173- 188.

10
GOLDSCHLAG N, LYBBERT T J, ZOLAS N J. An 'algorithmic links with probabilities' crosswalk for USPC and CPC patent classifications with an application towards industrial technology composition[R]. Census Bureau: US Census Bureau Center for Economic Studies, 2016.

11
杨震宁, 赵红. 中国企业的开放式创新: 制度环境、"竞合"关系与创新绩效[J]. 管理世界, 2020, 36 (2): 139-160, 224.

YANG Z N , ZHAO H . Chinese enterprises' open innovation: Institutional environment, co-opetition relationship and innovation performance[J]. Journal of Management World, 2020, 36 (2): 139-160, 224.

12
HARHOFF D , HOISL K , REICHL B , et al. Patent validation at the country level: The role of fees and translation costs[J]. Research Policy, 2009, 38 (9): 1423- 1437.

DOI

13
伊惠芳, 吴红. 基于产品-功能分析的高校专利转移对象识别研究——以我国石墨烯领域为例[J]. 情报杂志, 2020, 39 (8): 63- 70.

YI H F , WU H . A study on universities patent transfer object recognition based on product function analysis by taking the graphene patents in China as an example[J]. Journal of Intelligence, 2020, 39 (8): 63- 70.

14
马费成, 张帅. 我国图书情报领域新兴交叉学科发展探析[J]. 中国图书馆学报, 2023, 49 (2): 4- 14.

MA F C , ZHANG S . The development of emerging interdisciplines in library and information science in China[J]. Journal of Library Science in China, 2023, 49 (2): 4- 14.

15
KORTUM S , PUTNAM J . Assigning patents to industries: Tests of the Yale technology concordance[J]. Economic Systems Research, 1997, 9 (2): 161- 176.

DOI

16
SCHMOCH U, LAVILLE F, PATEL P, et al. Linking technology areas to industrial sectors: Final report to the European Commission, DG Research[R]. Karlsruhe: ISI, 2003.

17
VERSPAGEN B, VAN MOERGASTEL T, SLABBERS M. MERIT concordance tables: IPC-ISIC (Rev. 2)[R]. Maastrichit: MERIT Research Memorandum February, 1994.

18
中华人民共和国国家知识产权局. 关于印发《国际专利分类与国民经济行业分类参照关系表(2018)》的通知[EB/OL]. (2018-10-08)[2024-08-08]. https://www.cnipa.gov.cn/art/2018/10/8/art_75_131968.html.

State Intellectual Property Office of the People's Republic of China. Notice on printing the "table of correspondence between international patent classification and national economic industry classification (2018)"[EB/OL]. (2018-10-08)[2024-08-08]. https://www.cnipa.gov.cn/art/2018/10/8/art_75_131968.html. (in Chinese)

19
TANG Y , LOU X M , CHEN Z F , et al. A study on dynamic patterns of technology convergence with IPC co-occurrence-based analysis: The case of 3D printing[J]. Sustainability, 2020, 12 (7): 2655.

DOI

20
YAN B W , LUO J X . Measuring technological distance for patent mapping[J]. Journal of the Association for Information Science and Technology, 2017, 68 (2): 423- 437.

DOI

21
BINDING C , TUDHOPE D . Improving interoperability using vocabulary linked data[J]. International Journal on Digital Libraries, 2016, 17 (1): 5- 21.

DOI

22
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2013: 3111-3119.

23
LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China: JMLR. org, 2014: 1188-1196.

24
李悦, 苏成, 潘云涛. 分类法映射研究综述[J]. 情报理论与实践, 2018, 41 (9): 154- 160.

LI Y , SU C , PAN Y T . A review of classification mapping[J]. Information Studies: Theory & Application, 2018, 41 (9): 154- 160.

25
林泽斐, 欧石燕. 多特征融合的中文命名实体链接方法研究[J]. 情报学报, 2019, 38 (1): 68- 78.

LIN Z F , OU S Y . Research on Chinese named entity linking based on multi-feature fusion[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38 (1): 68- 78.

26
AHARONSON B S , SCHILLING M A . Mapping the technological landscape: Measuring technology distance, technological footprints, and technology evolution[J]. Research Policy, 2016, 45 (1): 81- 96.

DOI

27
CHOI J , HWANG Y S . Patent keyword network analysis for improving technology development efficiency[J]. Technological Forecasting and Social Change, 2014, 83, 170- 182.

DOI

28
DORNER M , HARHOFF D . A novel technology-industry concordance table based on linked inventor-establishment data[J]. Research Policy, 2018, 47 (4): 768- 781.

DOI

29
ZHAO R , MAO K Z . Fuzzy bag-of-words model for document representation[J]. IEEE Transactions on Fuzzy Systems, 2018, 26 (2): 794- 804.

DOI

30
JOACHIMS T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning. San Francisco, CA, United States: Morgan Kaufmann Publishers Inc., 1997.

31
LEYDESDORFF L , KOGLER D F , YAN B W . Mapping patent classifications: Portfolio and statistical analysis, and the comparison of strengths and weaknesses[J]. Scientometrics, 2017, 112 (3): 1573- 1591.

DOI

32
XIA P P , ZHANG L , LI F Z . Learning similarity with cosine similarity ensemble[J]. Information Sciences, 2015, 307, 39- 52.

DOI

33
JOHNSON D. The OECD Technology Concordance (OTC): Patents by industry of manufacture and sector of use[R]. Paris: OECD Publishing, 2002.

34
LEYDESDORFF L , KUSHNIR D , RAFOLS I . Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC)[J]. Scientometrics, 2014, 98 (3): 1583- 1599.

DOI

35
田创, 赵亚娟. 一种基于相似度的专利与产业类目映射模型——以《国际专利分类》与《国民经济行业分类》为例[J]. 图书情报工作, 2016, 60 (20): 123- 131.

TIAN C , ZHAO Y J . A similarity-based model for mapping between patent and industrial classifications: Mapping between the international patent classification and the industrial classification for national economic activities[J]. Library and Information Service, 2016, 60 (20): 123- 131.

36
马晓萌, 徐峰, 刘清民, 等. 基于Doc2vec的专利与行业类目映射研究[J]. 情报探索, 2020 (6): 67- 74.

MA X M , XU F , LIU Q M , et al. Doc2vec-based study on mapping between patented and industrial categories[J]. Information Research, 2020 (6): 67- 74.

37
周林志, 齐建东, 王建新, 等. 基于词汇相似度的IPC与CLC映射[J]. 计算机工程, 2010, 36 (23): 274-276, 279.

ZHOU L Z , QI J D , WANG J X , et al. Mapping between IPC and CLC based on similarity of words[J]. Computer Engineering, 2010, 36 (23): 274-276, 279.

38
LYBBERT T J , ZOLAS N J . Getting patents and economic data to speak to each other: An 'Algorithmic Links with Probabilities' approach for joint analyses of patenting and economic activity[J]. Research Policy, 2014, 43 (3): 530- 542.

DOI

39
GOLDSCHLAG N , LYBBERT T J , ZOLAS N J . Tracking the technological composition of industries with algorithmic patent concordances[J]. Economics of Innovation and New Technology, 2020, 29 (6): 582- 602.

DOI

40
刘德馨, 李有馥. 国际专利分类法评价[J]. 情报科学, 1993 (4): 20- 27.

LIU D X , LI Y F . Evaluation of the international patent classification[J]. Information Science, 1993 (4): 20- 27.

41
YANG Y X , REN G C . HanLP-based technology function matrix construction on Chinese process patents[J]. International Journal of Mobile Computing and Multimedia Communications (IJMCMC), 2020, 11 (3): 48- 64.

DOI

42
上海闻泰电子科技有限公司. 一种双CPU架构智能手机及其通信控制方法: CN101242607A[P]. 2008-08-13.

Shanghai Wentai Electronic Technology Co., Ltd. An intelligent mobile phone based on dual-CPU architecture and communication control method: CN101242607A[P]. 2008-08-13. (in Chinese)

43
上海华虹NEC电子有限公司, 上海集成电路研发中心有限公司. 一种投影式光刻机中硅片平台高度控制系统及方法: CN1920668A[P]. 2007-02-28.

Shanghai Huahong NEC Electronics Co., Ltd., Shanghai Integrated Circuit Research and Development Center Co., Ltd. Silicon wafer platform height control system and method in projection type photoetching machine: CN1920668A[P]. 2007-02-28. (in Chinese)

44
浙江大学. 携带miR-199*的脂肪间充质干细胞在肝癌细胞治疗中的应用及其构建方法: CN103451155A[P]. 2013-12-18.

Zhejiang University. Applications of miR-199*-carried mesenchymal stem cells in hepatoma carcinoma cell therapy, and construction method of miR-199*-carried mesenchymal stem cells: CN103451155A[P]. 2013-12-18. (in Chinese)

45
王磊. 多风轮机混合储能式风力发电机: CN1363761A[P]. 2002-08-14.

WANG L. Energy-accumulating wind-driven electric generator and multiple aerovanes: CN1363761A[P]. 2002-08-14. (in Chinese)

46
东北大学. 用微波技术合成锂离子蓄电池材料的方法: CN1359163A[P]. 2002-07-17.

Northeast University. Method for synthesizing lithium ion accumulator material by microwave technology: CN1359163A[P]. 2002-07-17. (in Chinese)

47
上海科星自动化技术有限公司. 单束多股金属复合外套光缆: CN1430079A[P]. 2003-07-16.

Shanghai Kexing Automation Technology Co., Ltd. Single bunch multistrand optical cable with metal composite sheath: CN1430079A[P]. 2003-07-16. (in Chinese)

48
武汉铁路科学技术研究发展有限公司. 一种铁道机车、车辆轮轴故障救援装置: CN101875357A[P]. 2010-11-03.

Wuhan Railway Science and Technology Research and Development Co., Ltd. Axle fault rescue device of railway locomotives and vehicles: CN101875357A[P]. 2010-11-03. (in Chinese)

49
财团法人工业技术研究院. 一种复合式燃料电池电动车辆的电力输出控制系统: CN1346759A[P]. 2002-05-01.

Industrial Technology Research Institute. Electric power output control system for electric vehicle with combined fuel battery: CN1346759A[P]. 2002-05-01. (in Chinese)

50
深圳航天东方红海特卫星有限公司. 一种数据通信卫星星座系统及其通信方法: CN104753580A[P]. 2015-07-01.

Shenzhen Aerospace Dongfanghong Satellite, Ltd. Data communication satellite constellation system and communication method thereof: CN104753580A[P]. 2015-07-01. (in Chinese)

51
江苏省金峰石油机械制造有限公司. 一种节能型海上石油钻井平台: CN106988284A[P]. 2017-07-28.

Jiangsu Jinfeng Petroleum Machinery Manufacturing Co., Ltd. Energy-saving type offshore oil drilling platform: CN106988284A[P]. 2017-07-28. (in Chinese)

Outlines

/