横山亮次奖  |  百年刊庆  |  中文  |  English
期刊首页 当期目录

2023年, 第63卷, 第9期 
刊出日期:2023-09-15
  

  • 全选
    |
    大数据
  • 胡明昊, 王芳, 徐先涛, 罗威, 刘晓鹏, 罗准辰, 谭玉珊
    清华大学学报(自然科学版). 2023, 63(9): 1309-1316. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.010
    摘要 ( ) PDF全文 ( )   
    互联网开源渠道蕴含大量国防科技信息资源, 是获取高价值军事情报的重要数据来源。 国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取, 其对于国防科技领域本体归纳、 知识图谱构建等具有重要意义。 然而, 相比其他领域的信息抽取, 国防科技领域开放信息抽取面临元组重叠嵌套、 实体跨度长且难识别、 领域标注数据缺乏等问题。 本文提出一种国防科技领域两阶段开放信息抽取方法, 首先利用基于预训练语言模型的序列标注算法抽取谓语, 然后引入多头注意力机制来学习预测要素边界。 结合领域专家知识, 利用基于实体边界的标注策略构建了国防科技领域标注数据集, 并在该数据集上进行了实验, 结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。
  • 范晓亮, 彭朝鹏, 郑传潘, 王程
    清华大学学报(自然科学版). 2023, 63(9): 1317-1325. https://doi.org/10.16511/j.cnki.qhdxxb.2023.22.029
    摘要 ( ) PDF全文 ( )   
    时空关联挖掘是智能交通领域的关键技术之一。 大规模交通网络中的交通流量数据具有高度非线性和复杂特征, 故精准地预测交通流量面临巨大挑战。 现有方法大多设计2个独立模块来分别捕获交通流量的时间和空间相关性, 故无法精准地对流量数据中的复杂时空相关性建模。 该文提出一种时空组合图卷积神经网络(STCGCN), 以更好地预测交通流量。 STCGCN通过构建自适应时空组合图, 并提出时空组合图卷积, 来有效揭示交通流量数据动态和复杂的时空相关性。 在美国加利福尼亚州高速公路流量公开数据集上进行了实验, 结果表明STCGCN的预测效果优于11个现有方法。
  • 王庆人, 王银子, 仲红, 张以文
    清华大学学报(自然科学版). 2023, 63(9): 1326-1338. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.009
    摘要 ( ) PDF全文 ( )   
    作为信息抽取的核心任务, 命名实体识别能够从文本中识别不同类型命名实体。 得益于深度学习在字词表示、 特征提取方面的应用, 中文命名实体识别任务取得了丰富研究成果。 然而, 中文命名实体识别任务依旧面临词汇信息缺乏的挑战, 主要表现为: 1) 词汇边界信息和上下文语义信息未充分利用; 2) 字和自匹配词汇间语义信息未能有效捕获; 3) 图注意力网络输出信息中不同交互图信息的重要性未被考虑。 该文提出一种面向中文的字词组合序列实体识别方法。 采用字词组合序列嵌入结构, 实现词汇边界信息以及字符与词汇间语义信息的充分捕捉; 采用多图注意力融合架构, 实现不同图神经网络提取特征重要性的区分。 实验表明, 相比已有经典方法, 该方法在Weibo、 Resume、 OntoNotes4.0及MSRA四个数据集上的F1明显提升, 在中文命名实体识别任务上具有可行性。
  • 杨波, 邱雷, 吴书
    清华大学学报(自然科学版). 2023, 63(9): 1339-1349. https://doi.org/10.16511/j.cnki.qhdxxb.2023.22.030
    摘要 ( ) PDF全文 ( )   
    协同过滤算法被广泛运用于各类大数据的推荐系统中, 能够向用户推荐与该用户类似的用户感兴趣的信息。 随着深度学习, 尤其是图神经网络的发展, 基于图神经网络的协同过滤算法受到了越来越多的关注。 基于图结构的协同过滤模型通常将用户与条目的交互信息建模为二部图, 然后利用二部图的高阶连通性建模捕获用户与条目之间的隐藏关系。 但是, 这种二部图模型没有将用户之间的相似关系和条目之间的相似关系明确建模。 此外, 二部图的稀疏性会产生图中高阶连通性依赖问题。 为此, 该文提出了一种基于异质图卷积神经网络的协同过滤模型, 将用户之间的相似度和条目之间的相似度显式地编码到图结构中, 使得用户与条目的交互关系被建模成异质图。 异质图结构使用户之间的相似度与条目之间的相似度能被直接捕获, 降低了对高阶连通性的依赖, 同时缓解了二部图过于稀疏的问题。 该文在4个典型的数据集上进行了实验, 并与4种经典模型进行了对比, 结果表明所提出的模型效果较好。
  • 计算机科学与技术
  • 谢天, 于灵云, 罗常伟, 谢洪涛, 张勇东
    清华大学学报(自然科学版). 2023, 63(9): 1350-1365. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.002
    摘要 ( ) PDF全文 ( )   
    由于现有深度人脸伪造软件通常是开源的或者被封装为APP免费分发, 导致了虚假视频的泛滥。 因此开展针对深度人脸伪造检测技术的研究就显得尤为重要。 目前, 深度人脸伪造及检测技术正处在快速发展时期, 各种相应的算法也在不断更新迭代。 本文首先介绍了深度人脸伪造和其检测技术的代表性算法并给出简要分析, 其中深度人脸伪造技术包括身份替换、 面部重演、 属性编辑、 人脸生成等, 检测技术包括图像级伪造检测技术和视频级伪造检测技术。 然后归纳总结了常用的深度人脸伪造与检测数据集及不同算法的评估结果, 最后讨论了伪造技术及其检测技术目前面临的主要问题及发展方向。
  • 李江, 徐明伟, 曹家浩, 孟子立, 张国强
    清华大学学报(自然科学版). 2023, 63(9): 1366-1379. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.016
    摘要 ( ) PDF全文 ( )   
    作为互联网唯一的域间路由协议, 边界网关协议(border gateway protocol, BGP)当前面临着互联网号码资源误用的威胁。 现有安全方案——资源公钥基础设施(resource public key infrastructure, RPKI)通过中心化的基础设施维护互联网号码资源信息, 然而该方案面临着中心化导致的单点失效风险、 收敛时间长和开销高的问题。 该文提出了基于区块链技术的去中心化互联网号码资源管理系统(decentralized internet number resource management system, DINRMS)。 为提高系统的可扩展性, 在结构上对全球自治系统(autonomous system, AS)分组分层, 并针对此结构设计了相应的工作流程。 此外, 基于上述分组分层结构提出了一种基于互联网号码资源所有权信息和映射信息产生情况的启发式数据推送机制, 缩短AS获得这些信息的收敛时间, 同时减少交互开销。 实验表明, DINRMS为域间路由提供了安全可信的互联网号码资源信息; 相比RPKI, DINRMS的中心化程度降低了60%以上, 收敛时间缩短了50%以上, 交互开销减少了50%以上。
  • 赵传君, 武美龄, 申利华, 上官学奎, 王彦婕, 李杰, 王素格, 李德玉
    清华大学学报(自然科学版). 2023, 63(9): 1380-1389. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.012
    摘要 ( ) PDF全文 ( )   
    用于文本情感分析的深度学习模型如递归神经网络等参数较多, 因此需要大量高质量标记训练数据对模型进行训练和优化。 在实际应用中, 特定领域难以获取高质量带情感标签评论数据。 在跨领域文本情感分类任务中, 针对不同领域数据分布差异性, 提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法, 可以解决特定领域对带标签数据依赖问题。 句法结构迁移方面, 将依存语法特征加入到递归神经网络中, 设计了一种可迁移的依存句法递归神经网络模型, 通过句法结构迁移有效地迁移跨领域结构信息, 为情感迁移提供支撑。 领域融合方面, 在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。 通过约束源领域和目标领域的分布, 可以保证2个领域距离在学习过程中尽可能减小, 有效地提取领域通用特征。 实验结果表明, 该方法比已有方法有效提高了跨领域情感分类准确率。
  • 张洋, 江铭虎
    清华大学学报(自然科学版). 2023, 63(9): 1390-1398. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.013
    摘要 ( ) PDF全文 ( )   
    作者识别是通过分析未知文本的写作风格推断作者归属的交叉学科。 现有的研究多基于字符和词汇特征, 而句法关联信息在研究中鲜有涉及。 该文提出了基于句法树节点嵌入的作者识别方法, 将句法树的节点表示成其所有依存弧对应的嵌入之和, 把依存关系信息引入深度学习模型中。 然后构建句法注意力网络, 并通过该网络得到句法感知向量。 该向量同时融合了依存关系、 词性以及单词等信息。 接着通过句子注意力网络得到句子的表示, 最后通过分类器进行分类。 在3个英文数据集的实验中, 该文方法的性能位列第2或3位。 更重要的是, 依存句法组合的引入为模型的解释提供了更多的方向。
  • 贾凡, 康舒雅, 江为强, 王光涛
    清华大学学报(自然科学版). 2023, 63(9): 1399-1407. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.007
    摘要 ( ) PDF全文 ( )   
    近年来, 公开披露的漏洞数量越来越多, 推荐算法可以帮助软件安全人员和漏洞爱好者找到自己真正需求和感兴趣的漏洞信息。 但是用户与漏洞的交互矩阵比经典协同过滤推荐算法所分析的交互矩阵有更强的稀疏性, 严重影响了协同过滤推荐算法的使用效果。 这也是将漏洞直接作为推荐项目所必须面对的主要挑战。 为了解决这一问题, 该文引入漏洞相似性计算方法, 在基于内容的推荐算法中强调漏洞之间的普遍联系, 从而解决推荐算法的交互矩阵高稀疏性、 冷启动等问题。 同时, 充分考虑多类型用户的特点, 最终形成了基于相似性的多用户漏洞推荐算法。 通过在公开数据上的实验表明, 该算法能够实现比传统协同过滤算法更佳的准确性和有效性。
  • 车辆与交通
  • 刘安邦, 陈曦, 赵千川, 李博睿
    清华大学学报(自然科学版). 2023, 63(9): 1408-1414. https://doi.org/10.16511/j.cnki.qhdxxb.2023.22.018
    摘要 ( ) PDF全文 ( )   
    在城市轨道交通系统中, 列车牵引用电的费用在总运营费用中占比较高。 在直流供电系统中接入储能装置(例如超级电容)吸收利用列车的再生制动能量, 能够减少牵引用电的开销。 储能装置和牵引装置的配置方案(位置与容量)会显著影响能量的吸收与利用效率。 为了在有限储能与牵引资源约束下最大化再生制动能量的吸收利用效率, 该文提出一种地铁线路储能装置与牵引装置的联合优化配置方法, 将优化配置问题建模为仿真优化问题, 开发了基于序优化的问题求解方法以获得问题足够好的解。 在青岛地铁某线路上的测试结果显示: 相比于依经验配置, 优化配置方案可以减少6.1%的牵引能耗。 该方法不仅能有效配置储能牵引资源, 还能应用于解决地铁线路中的其他复杂优化问题。
  • 周涂强, 刘伟, 李浩然, 许述财, 孙川
    清华大学学报(自然科学版). 2023, 63(9): 1415-1427. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.014
    摘要 ( ) PDF全文 ( )   
    现有的基于车载传感器的商用车自动紧急制动(AEB)系统存在视野盲区等原因, 功能受到了很大的限制。 为了提高商用车AEB系统的安全性和可靠性, 该文提出了基于不安全控制行为分析的商用车AEB决策系统优化方法。 首先, 通过实车测试获取车车通信在不同工况下的通信时延规律, 使用该时延规律对环境车的速度、 位移和坐标等参数进行补偿修正, 弥补通信时延对系统决策造成的影响。 然后, 制定交叉口路段处的商用车自动紧急制动策略, 在两车即将碰撞时控制本车的制动系统以最大的制动减速度自动紧急制动, 避免碰撞的发生, 并基于不安全控制行为分析, 对AEB决策系统进行优化。 最后对提出的优化方法进行了仿真和实车测试, 结果表明, 该方法能够有效地防止两车在交叉口处相撞, 具有较高的安全性和可靠性。
  • 马壮林, 杨兴, 胡大伟, 谭晓伟
    清华大学学报(自然科学版). 2023, 63(9): 1428-1439. https://doi.org/10.16511/j.cnki.qhdxxb.2022.21.044
    摘要 ( ) PDF全文 ( )   
    城市轨道交通车站客流特征与其周边建成环境和社会经济因素密切相关, 且不同影响因素对客流特征的影响也存在时间和空间异质性。 以车站工作日日均客流量、 工作日特殊时段(如早高峰进站、 早高峰出站、 晚高峰进站和晚高峰出站)客流量为因变量, 从车站属性、 连接性和建成环境3个方面选择23个自变量, 采用多尺度地理加权回归(MGWR)模型构建客流特征分析模型, 分析不同时间尺度下轨道交通车站客流量的影响因素及其相互作用, 并以南京市轨道交通系统进行实例分析。 结果表明: 与普通最小二乘法(OLS)回归模型和地理加权回归(GWR)模型相比, MGWR模型更为可靠; 忽略早晚高峰客流影响的全天客流量预测模型拥有的显著自变量最多, 到市中心的距离对客流量有显著的负影响, 证明距离市中心越近的车站的客流量集聚性越明显; 周边居住、 生活类设施占比较高的车站对早高峰进站和晚高峰出站客流有很强的吸引作用, 而周边居住、 生活类设施占比不高的车站对早高峰出站和晚高峰进站客流有很强的吸引作用。 研究结果可以为城市规划部门促进城市轨道交通与城市建设的协同发展提供理论支撑。
  • 戚俊毅, 方儒卿, 吴勇民, 汤卫平, 李哲
    清华大学学报(自然科学版). 2023, 63(9): 1440-1451. https://doi.org/10.16511/j.cnki.qhdxxb.2023.26.008
    摘要 ( ) PDF全文 ( )   
    全固态薄膜锂电池具有固态电解质层薄、 固固界面致密等特点, 可作为微小型设备的储能元件。 与传统锂离子电池相比, 全固态薄膜锂电池内部不含液态电解液, 反应与传质过程皆在固相中进行, 导致全固态薄膜锂电池的倍率性能一般较差。 为解决该问题, 该文基于磁控溅射和真空蒸镀技术制备了正极为钴酸锂、 固态电解质为锂磷氧氮(LiPON)、 负极为金属锂(Li)的全固态薄膜锂电池。 采用时频域配合和实验与仿真相结合的方法, 系统解析了影响全电池倍率性能的关键因素。 运用基于全电池倍率实验电压曲线的曲线平移分析方法及基于一维阻抗模型和阻抗谱的动力学参数辨识方法, 分析了电池内部不同部件、 不同物理过程对电池倍率性能的影响, 结合一维时域模型仿真结果得出如下结论: 电池中影响大倍率下放电总容量的主要限制因素为正极材料中的锂离子扩散过程, 放电末期正极扩散系数低是大倍率下放电容量衰减的主因; 影响瞬态放电功率的主要限制因素为固态电解质中锂离子的电迁移过程, 高固态电解质固相过电势是放电功率损失的主因。 基于上述结论, 该文提出了适当降低固态电解质薄膜厚度和缩短正极离子扩散路径等改进电池倍率性能的初步设计思路, 研究了一种全固态薄膜锂电池倍率性能的分析方法并得出了初步结论, 可用于进一步指导改进制备工艺。
  • 经济与公共管理
  • 杨伽伦, 王茵田
    清华大学学报(自然科学版). 2023, 63(9): 1452-1466. https://doi.org/10.16511/j.cnki.qhdxxb.2022.21.045
    摘要 ( ) PDF全文 ( )   
    该文探讨《中华人民共和国企业破产法》实施对企业创新的影响。 选取2007年《破产法》实施作为准自然实验以构建双重差分模型, 采用多期动态回归、 倾向得分匹配等办法, 并引入三因子模型特质波动率等指标衡量企业风险承担。 在《破产法》实施后, 实验组比控制组专利申请的数量增加了18.77%, 发明专利申请的数量增加了25.86%。 《破产法》的实施加强了债权人保护并提高企业风险承担水平, 使财务困境中企业的创新产出、 创新质量显著增加。 进一步分析表明, 《破产法》主要在企业治理水平高的企业、 在法治水平或知识产权保护水平高的地区更为显著。 《破产法》的推出提高了中国债权人的合法权益, 为债权人获得潜在清偿提供了强有力的保证, 进而提高企业风险容忍度, 激励了企业创新。
  • 朱武祥, 廖静秋, 詹子良, 谭智佳
    清华大学学报(自然科学版). 2023, 63(9): 1467-1482. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.008
    摘要 ( ) PDF全文 ( )   
    财务危机预警一直受到企业、 投资者和政府的关注, 但已有预警模型方法的预警能力不能满足市场期许, 甚至引发争议, 政府部门、 市场主体对优化债券违约风险识别与预警方法的需求强烈。 该文系统梳理了1932至2020年间256篇财务危机预警文献, 从财务危机的概念基础、 预警模型的原理及迭代、 预警指标选取、 预警效率评估等维度进行了述评, 指出了现有财务危机预警模型研究的3个现象、 方法论特征及局限性。 提出了一个跨模型可比的财务危机预警模型评价框架和“一个原则、 三个方向”研究改进展望, 主张回归金融原理, 从而更加精确地进行企业财务危机绝对风险的评估、 预警与治理。
  • 环境科学与工程
  • 张潇月, 李玥, 王晨杨, 陈正侠, 贾海峰
    清华大学学报(自然科学版). 2023, 63(9): 1483-1492. https://doi.org/10.16511/j.cnki.qhdxxb.2023.21.001
    摘要 ( ) PDF全文 ( )   
    未来社区是一种追求可持续发展目标的生态低碳新型城市功能单元。 为了探究融合海绵城市建设理念的未来社区海绵源头设施布局方法, 提出采用容积法、 模型法及多目标优化法以满足不同数据和技术需求, 构建未来社区海绵源头设施布局多方法体系。 选择一典型以未来社区为目标的待建社区为例开展研究。 结果表明, 容积法数据及技术需求低, 可生成满足研究区年径流总量控制率的海绵源头设施布局方案; 然而, 如需进一步评估方案的减污降碳效果则需借助模型法, 但模型构建和运行需进一步获得研究区管网及降雨等数据。 为了实现未来社区建设的多目标综合环境效益和成本效益, 则可采用多目标优化法, 该方法需运用智能优化算法和模型耦合技术。 不同方法下得到的未来社区减污降碳效果表明, 容积法方案峰值流量由传统方案(无源头设施)5.65 m3·s-1降至2.17 m3·s-1, 典型年平均径流总量控制率由51.87%提高到79.43%, 年均降碳量增加284.87 t·a-1(假设传统方案降碳量为0), 污染物峰值浓度降低21.69%~30.52%, 显著提高了减污降碳效果。 相比容积法方案, 耦合NSGA-II和SWMM的多目标优化方案总建设成本减少了18.67%, 且径流流量峰值削减率、 浓度峰值削减率、 雨水回用率和年均降碳量分别提高21.20%、 6.32%~16.67%、 1.17%~2.65%和29. 36 t·a-1。 总体而言, 容积法简单易操作, 可满足未来社区海绵源头设施布局要求和年径流总量控制率目标; 多目标优化法数据和技术需求较高, 但可实现最佳综合环境效益及成本效益。