面向课堂教学内容的知识点标题生成
肖思羽1, 赵晖2    
1. 新疆大学 软件学院,乌鲁木齐 830017;
2. 新疆大学 信息科学与工程学院,乌鲁木齐 830017
摘要:互联网时代信息量庞大,简洁的标题可以提高信息阅读效率。在课堂场景下,知识点标题生成便于用户整理和记忆课堂内容,提高课堂学习效率。该文将标题生成应用于课堂教学领域,制作了课堂知识点文本—标题数据集;提出了一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP)算法,该算法综合考虑了关键词和句子位置等因素对句子权重的影响,能够更准确地提取文本重点信息。使用以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法,TKSP算法在ROUGE-1、ROUGE-2和ROUGE-L指标上的得分率分别为51.20%、33.42%和50.48%,将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling combined textranking considering keywords and sentence positions, UniLM-TK),UniLM-TK在各指标上的得分率分别为73.29%、58.12%和72.87%,与UniLM模型相比,UniLM-TK在各指标上分别提高了0.74%、2.26%和0.87%,证明UniLM-TK模型生成的标题更准确、更有效。
关键词课堂教学    标题生成    主题信息    TextRank    UniLM    
Title generation of knowledge points for classroom teaching
XIAO Siyu1, ZHAO Hui2    
1. School of Software, Xinjiang University, Urumqi 830017, China;
2. School of Information Science and Engineering, Xinjiang University, Urumqi 830017, China
Abstract: [Objective] In the digital age, brief titles are critical for efficient reading. However, headline generation technology is mostly used in news rather than in other domains. Generating key points in classroom scenarios can enhance comprehension and improve learning efficiency. Traditional extractive algorithms such as Lead-3 and the original TextRank algorithm fail to effectively capture the critical information of an article. They merely rank sentences based on factors such as position or text similarity, overlooking keywords. To address this issue, herein, an improved TextRank algorithm—text ranking combining keywords and sentence positions (TKSP)—is proposed. Extractive models extract information without expanding on the original text, while generative models generate brief and coherent headlines, they sometimes misunderstand the source text, resulting in inaccurate and repetitive headings. To address this issue, TKSP is combined with the UniLM generative model (UniLM-TK model) to incorporate text topic information. [Methods] Courses are collected from a MOOC platform, and audio are extracted from teaching videos. Speech-to-text conversion are performed using an audio transcription tool. The classroom teaching text are organized, segmented based on knowledge points, and manually titled to generate a dataset. Thereafter, an improved TextRank algorithm—TKSP—proposed here is used to automatically generate knowledge points. First, the algorithm applies the Word2Vec word vector model to textrank. TKSP considers four types of sentence critical influences: (1) Sentence position factor: The first paragraph serves as a general introduction to the knowledge point, leading to higher weight. Succeeding sentences have decreasing weights based on their position. (2) Keyword number factor: Sentences with keywords contain valuable information, and their importance increases with the number of keywords present. The TextRank algorithm generates a keyword list from the knowledge content. Sentence weights are adjusted based on the number of keywords, assigning higher weights to sentences with more keywords. (3) Keyword importance factor: Keyword weight reflects keyword importance arranged in descending order. Accordingly, sentence weights are adjusted; the sentence with the first keyword has the highest weight, while sentences with the second and third keywords have lower weights. (4) Sentence importance factor: The first sentence with a keyword serves as a general introduction, more relevant to the knowledge point. The sentence weight is the highest for this sentence and decreases with subsequent occurrences of the keyword. These four influencing factors of sentence weight are integrated to establish the sentence weight calculation formula. Based on the weight value of the sentence, the top-ranked sentence is chosen to create the text title. Herein, the combined TKSP algorithm and UniLM model, called the UniLM-TK model, is proposed. The TKSP algorithm is employed to extract critical sentences, and the textrank algorithm is employed to extract a topic word from the knowledge text. These are separately embedded into the model input sequence, which undergoes transformer block processing. The critical sentence captures text context using self-attention, while the topic word incorporates topic information through cross-attention. The final attention formula is established by weighting and summing these representations. The attention mechanism output is further processed by a feedforward network to extract high-level features. The focused sentences extracted by TKSP can effectively reduce the extent of model computation and data processing difficulty, allowing the model to focus more on extracting and generating focused information. [Results] The TKSP algorithm outperformed classical extractive algorithms (namely maximal marginal relevance, latent Dirichlet allocation, Lead-3, and textrank) in ROUGE-1, ROUGE-2, and ROUGE-L metrics, achieving optimal performances of 51.20%, 33.42%, and 50.48%, respectively. In the ablation experiments of the UniLM-TK model, the optimal performance was achieved by extracting seven key sentences, with specific indicator performances of 73.29%, 58.12%, and 72.87%, respectively. Comparing the headings generated by the UniLM-TK model and GPT3.5 API, the headings generated by UniLM-TK were brief, clear, accurate, and more readable in summarizing the text topic. Experiments were performed for real headings using a large-scale Chinese scientific literature dataset to compare the UniLM-TK and ALBERT models; the UniLM-TK model improved the ROUGE-1, ROUGE-2, and ROUGE-L metrics by 6.45%, 3.96%, and 9.34%, respectively. [Conclusions] The effectiveness of the TKSP algorithm is demonstrated by comparing it with other extractive methods and proving that the headings generated by UniLM-TK exhibit better accuracy and readability.
Key words: classroom teaching    title generation    topic information    TextRank    UniLM    

互联网时代信息数量急剧增加,给人类带来巨大的信息压力,如何快速获取准确的信息尤为重要。自动标题生成技术应运而生,它不仅可以帮助人们更快速地了解大量信息的核心内容,还可以快速筛选用户感兴趣的信息。目前标题生成技术多应用于新闻领域,在其他领域应用较少。事实上,标题生成技术在教育、商业和科学等领域也拥有较高的应用价值和发展潜力,例如,在商业领域,标题生成技术可以自动生成营销文案、广告语等,有助于提升宣传效果。

本文将标题生成技术应用于课堂教学领域,并构建了课堂知识点文本—标题数据集。通过课堂知识点标题生成,可以让用户迅速了解每个知识点的核心内容,帮助用户理解并总结课堂内容,同时也便于教师进行课程设计和教学管理。

标题生成方法可以分为抽取式和生成式[1]。抽取式方法是直接从原始文本中抽取关键句子。生成式方法并非简单提取原文本,而是重新生成新文本。与生成式方法相比,抽取式方法的优点在于直接基于原始文本提取信息,抽取的文本可以保留原始信息,并且不会引入额外的错误;缺点在于该方法只能提取已有信息,无法生成新的信息,因此不能扩展原始文本的表达范围。

目前常用的抽取式算法,如Lead-3和原始的TextRank算法,在忽略关键词的情况下,仅仅根据句子位置或文本相似度等因素进行句子排序,无法很好地体现文章重点信息,因此本文提出一种改进的TextRank算法——考虑关键字和句子位置的文本排序(textranking considering keywords and sentence positions, TKSP) 算法。TKSP算法综合考虑关键词和句子位置对句子重要性的影响,采用基于TextRank的词汇权重和位置权重相结合的策略,能更准确地提取文章中的重要信息并排名。具体来说,该算法通过统计每个句子中包含的关键词数量、句子的位置、是否是关键句子等信息对句子赋予权重,然后对所有句子进行排序,抽取排名靠前的重点句子作为文本标题。将TKSP抽取式算法与统一语言模型(unified language model, UniLM)结合,并融合文本主题信息,提出统一语言模型结合考虑关键字和句子位置的文本排序算法的模型(unified language modeling combined textranking considering keywords and sentence positions, UniLM-TK),用于课堂知识点标题生成任务。

1 相关研究

抽取式摘要适用于处理大量文本的情况。张翔等[2]提出一种融入全局语义信息的抽取式摘要模型,旨在解决抽取式摘要忽略原文全局语义信息的问题。程琨等[3]对传统最大边界相关算法(maximal marginal relevance, MMR)模型进行改进,并结合支持向量机和MMR构建支持向量机结合最大边界相关算法(support vector machine combined maximal marginal relevance, SVM-MMR)的摘要模型,加入监督学习方法,将新闻文本分为“摘要”与“不摘要”2种情况。Vo[4]提出一种将基于图的注意力神经网络(graph-based attention neural network, GANN)与基于transformer的双向编码器表示模型(bidirectional encoder representation from transformers, BERT)相结合的新方法,提高了模型的语义理解能力。Rakrouki等[5]利用潜在Dirichlet分布(latent Dirichlet allocation, LDA)模型,分析句子的主题特征与单词和主题之间的关系,对TextRank算法进行了改进。Malarselvi等[6]使用SVM提取文本中的线性与非线性特征,并使用多层卷积神经网络(convolutional neural network, CNN)分析给定的特征,选择重要句子作为摘要。Belwal等[7]在单个文档中应用主题建模,从每个包含相同类型的句子组中选择最佳句子组合成摘要。

生成式方法得到的标题长度较短,比抽取式方法具有更高度的概括性,但是生成式方法难以保证生成标题语法正确。基于注意力机制的序列到序列框架[8](sequence to sequence, Seq2Seq)被广泛应用于文本摘要领域。甘陈敏等[9]提出一种基于transformer和卷积收缩门控的文本摘要方法,以解决现有模型时效低下、无法充分概括有用信息的问题。La等[10]提出一种基于双向自回归变压器模型(bidirectional and auto-regressive transformers, BART)的序列到序列模型,并在大量意大利语文本语料库上进行预训练,该模型旨在解决意大利语文档摘要任务。Feijo等[11]提出一种改进的法律裁决书摘要方法,通过将长文档分割成模型可以处理的多个预定义块,并生成候选摘要的方法来处理法律长文本。赵冠博等[12]提出一种基于指针生成网络的融入领域知识的跨境民族文化生成式摘要方法,解决在跨境民族文化文本摘要任务中领域词汇丢失的问题。Babu等[13]提出一种基于序列到序列的文本摘要模型,该模型集成了指针生成器网络、时间注意机制和覆盖机制,用于解决生成重复词汇的问题。Vo[14]提出一种基于语义增强生成式对抗网络(generative adversarial network, GAN)的文本摘要方法,采用对抗训练策略解决生成的摘要不自然、不连贯等问题。预训练生成式变压器模型[15](generative pre-trained transformer, GPT)、文本到文本转换器模型[16](text to text transfer transformer, T5)基于transformer框架,在文本摘要任务中表现出色。本文使用UniLM模型进行课堂知识点标题生成,旨在提高知识点的可读性和理解性。

2 模型介绍 2.1 改进的TextRank算法

TextRank算法是一种无监督的基于图排序的文本摘要算法[17]。该算法将文本拆分成句子,并将句子表示为图中的节点。相邻句子之间存在边,边的权重表示句子之间的相似度。通过计算节点的重要性,可以确定文本中最重要的句子。

基于TextRank算法,本文提出融入句子位置、关键词数量等句子关键性影响因素的TKSP算法,该算法首先将Word2Vec词向量模型应用于TextRank,使用Word2Vec模型学习每个词语的向量表示,并利用这些词向量计算每个句子的向量表示。这些句子向量被用于构建文本中基于句子之间相似度的图结构。在计算句子权重值时,TKSP算法考虑了影响句子关键性的因素,通过分析人工标注标题过程,以及对教师讲述知识点方式的特点归纳,本文总结了4个影响标题生成的因素:句子的位置、关键词的数量、关键词的重要性和句子的关键性。

2.1.1 句子的位置

在教师介绍知识点时,知识点的主题与句子的位置存在相关性。一般而言,文本第1段会整体介绍知识点,因此该段具有高度的概括性。设置句子Si的位置权重Lweight(Si)为

$ L \text { weight }\left(S_i\right)=\frac{n-i-e}{n+1}, \quad 1 \leqslant i \leqslant n . $ (1)

其中:e为权重调整阈值,n表示文本中句子总数,i表示该句子在文本段中的相对位置。式(1)保证了在第1段话中距离第1句越远的句子权重越小。

2.1.2 关键词的数量

含有关键词的句子通常比其他句子具有更多文本有效信息,在一个句子中关键词出现得越多,句子的重要程度就越大。本文通过TextRank算法抽取知识点内容中3个关键词作为关键词表,包含关键词越多的句子权重越大,设置句子Si的关键词数量权重Kweight(Si)如下:

$ \begin{gathered} K \operatorname{weight}\left(S_i\right)=\frac{\operatorname{len}\left(\operatorname{keywords}\left(S_i\right)\right)}{\operatorname{len}\left(S_i\right)}, \\ 1 \leqslant i \leqslant n . \end{gathered} $ (2)

其中:len(keywords(Si))表示Si中含有关键词的个数,len(Si)表示句子的总词数。

2.1.3 关键词的重要性

关键词的权重值反映了关键词的重要程度。关键词对文本的重要性越高,其TextRank权重值就越大。对3个关键词的权重值进行降序排列,含有第1个关键词的句子权重最高,含有第2和第3个关键词的句子权重相对较弱,设置句子Si的关键词重要性权重Tweight (Si)为

$ \left\{\begin{array}{l} T \text { weight }\left(S_i\right)= \\ \sum\limits_{j=0}^{k-1} \operatorname{TextRank}\left(\operatorname{keyword}_j\left(S_i\right)\right) / \sum\limits_{j=0}^2 \operatorname{TextRank}\left(\operatorname{keyword}_j\right), \\ 1 \leqslant i \leqslant n, 0<k \leqslant 3, 0 \leqslant j<k ;\\ T \text { weight }\left(S_i\right)=0, k=0 . \end{array}\right. $ (3)

其中:j表示关键词的索引,$\sum\limits_{j=0}^{k-1} \text { TextRank }\left.(\operatorname{keyword}_j\left(S_i\right)\right)$表示句子中全部关键词的权重值,$\sum\limits_{j=0}^2 \operatorname{TextRank}\left(\text { keyword }_j\right)$表示3个关键词的总权重值,k表示句子Si中包含的关键词数量。

2.1.4 句子的关键性

在知识点介绍中,第1个出现关键词的句子往往对知识点进行总体介绍,与知识点主题具有较大相关性,第1个出现关键词的句子最重要,之后出现关键词的每个句子权重递减,设置句子Si的关键性权重Cweight(Si):

$ \begin{gathered} C \text { weight }\left(S_i\right)= \\ 1-\left(\operatorname{loc}\left(\operatorname{keywords}\left(S_i\right)\right)-1\right) \times \frac{1}{n}, \quad 1 \leqslant i \leqslant n . \end{gathered} $ (4)

其中loc(keywords(Si))表示含有关键词的句子出现的位置。

构建最终的句子权重W(Si),其计算公式为

$ \begin{gathered} W\left(S_i\right)=\alpha L \text { weight }\left(S_i\right)+\beta K \text { weight }\left(S_i\right)+ \\ \gamma T \operatorname{weight}\left(S_i\right)+\delta C \operatorname{weight}\left(S_i\right) . \end{gathered} $ (5)

其中:αβγδ为权重系数,表示其对应的权重影响因子对句子权重的影响力大小,权重系数越大,影响因子对句子权重的影响力就越大。通过权重计算公式计算文本中句子的权重,根据句子的权重值选择排名前几位的句子组成文本标题。

2.2 UniLM模型

UniLM模型是一种基于transformer模型的统一语言模型[18],其在预训练过程中使用多种任务目标,包括单向语言模型、双向语言模型和序列到序列任务,这些任务通过不同的mask机制实现,UniLM模型结构如图 1所示。图中,L表示transformer块数量;transformer是UniLM模型中的核心框架,采用了自注意力机制对序列进行编码和解码。在自然语言生成任务中,UniLM模型首先对解码器中的输入词序列进行掩码操作,即将其中的一些词随机替换成特殊的掩码符号,然后再进行预测。

图 1 UniLM模型结构

在BERT模型的基础上,通过使用mask注意力矩阵,可以限制模型在计算注意力时的范围,从而实现序列到序列的任务。mask注意力矩阵如图 2所示,阴影区域表示对应词之间的注意力被屏蔽,而其他区域表示可以正常进行注意力计算。

图 2 mask注意力矩阵

2.3 融合主题信息的UniLM模型

抽取式TKSP算法可结合多个句子权重影响因素从文本中抽取重点句子,但抽取的句子作为标题通常包含冗余成分,与抽取式标题相比,生成式方法生成的标题更加简洁流畅,但是模型不能很好地在生成标题前深度理解源文本的主要内容,生成的标题会包含错误和重复信息。

针对以上问题,本文提出抽取式与生成式相结合的标题生成模型UniLM-TK。具体而言,通过TKSP抽取的重点句子可以有效减少模型计算量和数据处理难度,使模型更加聚焦于重点信息的提取和生成;而生成式UniLM模型则能够根据TKSP输出的关键句子进一步理解文本主题和上下文语境,生成更加准确、流畅和易懂的文本内容。

文本主题可以帮助模型更好地理解文本中的关键信息和重要概念。通过将知识点主题纳入标题生成过程中,可以帮助模型生成标题时更好地概括并突出文章的核心内容,确保生成的标题更加准确、有针对性。本文使用TextRank算法从知识点文本中抽取1个关键词作为文本的主题词。模型结构如图 3所示。

图 3 UniLM-TK模型图

首先,使用TextRank算法从知识点文本中抽取1个主题词。TextRank算法通过对文本中的句子进行图结构建模,并根据句子之间的相似度计算排名,提取具有重要性的关键词作为主题词。其次,使用TKSP算法对原文本进行处理,抽取重点句。然后,将主题词经过标记嵌入层得到一个高维向量作为主题词嵌入表示,该向量包含了主题词在不同上下文中的语义信息,反映了主题词的含义和语境相关性,并将重点句集合分别经过分段嵌入层、位置嵌入层和标记嵌入层,这3个嵌入层分别有效地编码重点句集合中的段落信息、位置信息和语义信息。最后,将主题词的嵌入表示与重点句的嵌入表示进行拼接操作,得到输入序列的综合表示。

输入序列会进行多个transformer块的处理。transformer块由注意力机制和前向神经网络2部分组成,注意力机制包括多头自注意力机制与交叉注意力机制。前向神经网络通常由2层全连接层组成,每2层间包含一个激活函数。

重点句通过自注意力机制进行处理。自注意力机制计算描述文本内部各个词或句子之间的相关性和重要性,并生成自注意力权重。这些自注意力权重用于对描述文本中的词或句子进行加权求和,从而获得描述文本的上下文表示向量,反映其内部的依赖关系和上下文信息。主题词通过交叉注意力机制进行处理。文本的每个词或句子作为查询(Q),而主题词则作为键(K)和值(V)。交叉注意力机制计算主题词与文本中的词或句子之间的相关性,并生成交叉注意力权重。利用这些交叉注意力权重对文本中的词或句子进行加权求和,

从而得到带有主题信息的上下文表示向量。将主题与文本内容进行关联,构建最终的注意力计算公式为

$ \text{attention_output} =a · \text{self_attention_output} +\\ b · \text{cross_attention_output}. $ (6)

其中:attention_output为最终的上下文表示,self_attention_output为自注意力机制的输出,cross_attention_output为交叉注意力机制的输出;ab为权重系数,分别用于控制自注意力和交叉注意力在最终上下文表示中的相对重要性。

在前向神经网络中,注意力机制的输出被送入一个经过多层非线性变换的小型前馈网络中,以进一步提取高层次的特征表示。这样,在整个transformer块中,注意力机制和前向神经网络相互协作,对输入序列进行多次非线性变换,从而获得更具表达力和区分度的特征表示。输入序列经过多个transformer块的处理之后,得到输入序列的编码表示矩阵,用于训练和预测下游任务。

3 实验与分析 3.1 实验数据集

从中国大学MOOC上收集9门计算机类课程、2门医学类课程、13门经管类课程构建知识点文本-标题数据集,该数据集包含课程名、知识点教学文本、知识点标题,共607个样本。数据集构建流程如图 4所示。

图 4 数据集收集流程

第一步  音频提取。采用Python中的moviepy库从所有教学视频(mp4格式)中提取音频(wav格式)。

第二步  音频转文本。飞书妙记是字节跳动旗下的一款音视频转写文字的在线工具,无论是会议录音还是视频,上传后都能够快速转写整理为文字,极大地方便后期整理编辑。飞书妙计音频转写工具支持说话人识别,因此本研究使用该音频转写工具进行语音转文本。

第三步  对课堂教学文本进行整理,基于知识点进行文本分割,通过人工撰写标题获得知识点文本—标题对格式的数据集。

图 5为数据集中的一条样本,数据集统计信息如表 1所示。

图 5 数据集形式

表 1 数据集文本和标题长度统计信息
课程类别 样本数/条 文本长度/字 标题长度/字
最小 最大 平均 最小 最大 平均
计算机类 192 54 1 048 326 2 41 10
经管类 382 32 1 155 298 4 30 10
医学类 33 77 448 206 3 19 10

图 6图 7分别为标题与文本字数统计,可以看出文本的平均长度为276字,大部分文本的长度集中在100~299字;标题的平均长度为10个字,5~14字居多。

图 6 标题字数统计信息

图 7 文本字数统计信息

3.2 评价指标

以召回率为导向的摘要评价(recall-oriented understudy for gisting evaluation, ROUGE)方法是一种常用的自动摘要评价方法。本文使用ROUGE-1、ROUGE-2和ROUGE-L作为评价指标。ROUGE-1指的是机器生成标题单词与参考标题单词重叠的比例;ROUGE-2则以bigram为单位计算,其计算公式是匹配的bigram个数除以参考标题和机器生成文本中的总bigram个数;而ROUGE-L则是基于最长公共子序列的评价指标,可以更好地处理机器生成的语句与参考标题语句之间顺序不同的问题。

3.3 结果与分析

为验证TKSP算法有效,本文分别选取MMR、LDA、TextRank+Word2Vec、TextTeaser和Lead-3抽取式模型进行对比实验。

1) MMR算法:一种基于信息检索的文本摘要算法。该算法主要基于关键词和差异化2个重要概念,从大量文本中自动生成一个最相关且具有代表性的文本摘要。

2) LDA算法:一种基于主题模型的文本分析算法,可用于提取文本的主题,并生成与文本相关的标题。

3) TextRank+Word2Vec:TextRank算法可用于提取文本中的关键句子,而Word2Vec算法则主要用于生成词向量并进行词语相似度计算。

4) TextTeaser:一种用于抽取文本摘要的启发式算法,该算法考虑标题和句子共有的单词数、句子长度等多种特征,以评估每个句子的重要性,并根据得分优先选取分数较高的句子,最终生成文本摘要。

5) Lead-3:一种句子位置启发式算法。该算法首先将正文分解成多个句子,然后选取排名靠前的3个句子构建文本摘要。

各模型生成标题效果如表 2所示。从实验结果可以看出,TextTeaser、Lead-3和TKSP算法在3个指标上都表现出色,其中TKSP得分最高。相较于原始的TextRank算法,TKSP在3个指标上分别提高了29.69%、24.90%和30.13%。TKSP算法相较于TextRank+Word2Vec算法,在3个指标上分别提高了25.43%、20.66%和25.85%。

表 2 各模型生成标题效果对比
%
方法 ROUGE-1 ROUGE-2 ROUGE-L
MMR 18.67 6.98 17.94
LDA 19.21 7.50 18.57
TextRank 21.51 8.52 20.35
TextRank+Word2Vec 25.77 12.76 24.63
TextTeaser 38.19 19.07 37.03
Lead-3 45.90 30.26 45.42
TKSP 51.20 33.42 50.48

实验结果表明:MMR在标题抽取上效果不佳。原因是MMR算法保留与文本主题相关度高但相似度低的句子作为摘要。然而,文本摘要与标题具有不同性质。标题需要精准概括核心内容,而MMR注重抽取多样性,与标题要求相反。因此MMR算法在标题抽取上效果不佳。

相比原始的TextRank算法,使用Word2Vec的TextRank算法可以更充分地利用文本元素之间的关系,在对于停用词的保留与否等问题上,效果相对更好。

Lead-3算法在标题抽取任务中表现出色,分析原因是Lead-3算法假设文本的段落结构一般比较规范,第一句话的重要性往往高于后面的句子,该假设符合老师讲述知识点的方式,通常老师会在开头句子对知识点进行概括并引出知识点。因此,通过选取文本的开头句子能够有效抓住文章的核心信息。然而,Lead-3算法仅根据句子的位置进行排序,忽略了不同词语之间的相互作用。当文本内容比较长时,仅选取前面的句子则不能很好地概括文本内容。结果表明,TKSP算法效果最优,在各指标上分别表现为51.20%、33.42%和50.48%。

接下来使用生成式模型UniLM进行知识点标题生成。UniLM模型参数设置如表 3所示。

表 3 UniLM模型参数
参数 数值
隐藏层数/层 12
注意力头数/个 12
隐藏层单元数/个 768
词表大小/词 21 128

训练参数epochs设为10,批量处理batch_size设为4,beam_search解码时的beam_size为5,learning_rate设为0.000 05。选择537条样本作为训练集,70条样本作为测试集。UniLM模型生成标题效果如表 4所示。

表 4 UniLM模型效果
方法 Num ROUGE-1/% ROUGE-2/% ROUGE-L/%
UniLM 72.55 55.86 72.00
UniLM-TK 73.06 55.68 72.12
UniLM-TK 5 73.21 56.98 72.96
UniLM-TK 6 72.94 57.06 72.55
UniLM-TK 7 73.29 58.12 72.87
UniLM-TK 8 73.18 56.05 72.93
注:Num为使用TKSP算法抽取出的重点句子数,—表示不使用TKSP进行抽取。

从实验结果可以看出,本文提出的UniLM-TK模型相较于原本的UniLM模型,3个评估指标表现效果均有提升。当抽取7个重点句时,表现效果最佳,分别提升了0.74%、2.26%、0.87%。

将提出的UniLM-TK等模型与调用GPT3.5的应用程序接口(application program interface, API)生成的标题进行对比,各模型生成的标题如表 5所示。可以看出,抽取式方法TKSP只是从原文中选取句子或关键词组成标题,难以产生富有创意的标题。UniLM-TK模型生成的标题在准确性和可读性方面表现更优异。GPT3.5生成的标题虽然全面地概括了文本内容,但UniLM-TK生成的标题更加简洁明了,强调了大数据与传统数据之间的对比,突出了它们的差异,而“传感器、SDK与信息化的革新”是大数据与传统数据之间对比的具体细节,这种细节在知识点文本中会详细阐述,但将其作为标题会过于冗长和复杂,不易直接传达文章核心内容。

表 5 各模型生成的标题
文本 模型 生成的标题
那么大数据跟传统数据做对比的话,我们可以发现一些差别。传统数据主要基于企业内部数据、外部市场数据和其他公开信息获得,其采集主要依赖人工。然而,大数据环境下采集方式发生了重大变化,数据主要采用传感器采集,包括物理信息技术结合的传感器采集、SDK采集和运营商采集。数据类型除企业内部数据和外部数据外,还包括环境数据。API是应用程序的接口,SDK是软件开发工具包,SDK允许开发者直接调用API函数,从App中读取数据。因此,数据采集方式已经从人工录入转变为电子化、信息化的方式,这是大数据环境下的主要差异 人工标注 大数据与传统数据的对比
TKSP 那么大数据跟传统数据做个对比的话
UniLM 传统数据与传统数据的差异
UniLM-TK 大数据与传统数据做个对比
GPT3.5 大数据与传统数据采集方式的差异;传感器、SDK与信息化的革新

为进一步验证UniLM-TK模型有效,在大规模中文科学文献数据集[19](a large-scale Chinese scientific literature dataset, CSL)上进行实验,选择训练集3 000条、验证集500条、测试集500条。将UniLM-TK与基于长短期记忆网络(long and short-term memory, LSTM) 的模型、轻量级BERT(a lite bert, ALBERT)模型进行对比,结果如表 6所示。与ALBERT模型相比,UniLM-TK模型的效果分别提升6.45%、3.96%和9.34%。

表 6 模型结果对比
模型 ROUGE-1/% ROUGE-2/% ROUGE-L/% 训练参数
LSTM 46.48 30.48 41.80 batch_size=64, epoch=20, lr=1e-3
ALBERT 52.57 37.96 48.11 batch_size=8, epoch=10, lr=1e-5
UniLM-TK 59.02 41.92 57.45 batch_size=8, epoch=15, lr=5e-5

在进行标题生成时,融入文本主题信息,可以帮助生成与文本内容密切相关的标题。通过考虑文本主题,生成的标题能更准确地反映文本的核心内容,提高标题与文本之间的相关性。TKSP通过对文本权重进行计算,最终得到文本中的若干个关键句子。这些关键句子与原文之间存在一定的语义和内容上的关联,可以被看作是原文的摘要或精华所在。

将经过TKSP抽取的重点句子输入UniLM模型中进行建模,可以帮助模型更好地理解文本核心内容,去除噪声和干扰,提高标题生成效果。

实验结果显示,生成式方法在标题生成效果上优于抽取式方法,主要原因如下:1) 抽取式方法生成的标题多样性有限,而生成式方法能生成包含更多信息、细节和描述的标题;2) 生成模型能够考虑上下文信息,并能够充分考虑文章的主题、背景和情感等信息,生成更符合文章内容的标题。

4 结论

本文将标题生成技术应用于课堂教学进行课堂知识点标题生成。构建了服务于知识点标题生成任务的课堂知识点文本—标题数据集。在知识点标题生成任务中,一般有抽取式和生成式2种方法。针对抽取式方法,本文在TextRank算法的基础上,提出了一种改进TKSP算法,在该算法中,通过融入句子位置、关键词数量等因素计算句子权重,衡量不同句子的重要程度。通过与其他抽取式方法对比,证明TKSP算法有效。将TKSP算法与UniLM生成模型结合,并在模型中融合文本主题信息,提出了UniLM-TK模型,通过结果对比,证明UniLM-TK模型生成的标题具有更好的准确性和可读性。

参考文献
[1]
焦利颖, 郭岩, 刘悦, 等. 基于序列模型的单文档标题生成研究[J]. 中文信息学报, 2021, 35(1): 64-71.
JIAO L Y, GUO Y, LIU Y, et al. A sequence model for single document headline generation[J]. Journal of Chinese Information Processing, 2021, 35(1): 64-71. (in Chinese)
[2]
张翔, 毛兴静, 赵容梅, 等. 融入全局信息的抽取式摘要研究[J]. 计算机科学, 2023, 50(4): 188-195.
ZHANG X, MAO X J, ZHAO R M, et al. Study on extractive summarization with global information[J]. Computer Science, 2023, 50(4): 188-195. (in Chinese)
[3]
程琨, 李传艺, 贾欣欣, 等. 基于改进的MMR算法的新闻文本抽取式摘要方法[J]. 应用科学学报, 2021, 39(3): 443-455.
CHENG K, LI C Y, JIA X X, et al. News summarization extracting method based on improved MMR algorithm[J]. Journal of Applied Sciences, 2021, 39(3): 443-455. (in Chinese)
[4]
VO T. An approach of syntactical text graph representation learning for extractive summarization[J]. International Journal of Intelligent Robotics and Applications, 2023, 7(1): 190-204. DOI:10.1007/s41315-022-00228-0
[5]
RAKROUKI M A, ALHARBE N, KHAYYAT M, et al. TG-SMR: A text summarization algorithm based on topic and graph models[J]. Computer Systems Science and Engineering, 2023, 45(1): 395-408. DOI:10.32604/csse.2023.029032
[6]
MALARSELVI G, PANDIAN A. Multi-layered network model for text summarization using feature representation[J]. Soft Computing, 2023, 27(1): 311-322. DOI:10.1007/s00500-022-07617-4
[7]
BELWAL R C, RAI S W, GUPTA A. Extractive text summarization using clustering-based topic modeling[J]. Soft Computing, 2023, 27(7): 3965-3982. DOI:10.1007/s00500-022-07534-6
[8]
冯浩. 基于Attention机制的双向LSTM在文本标题生成中的研究与应用[D]. 唐山: 华北理工大学, 2020.
FENG H. Research and application of bidirectional LSTM based on attention in text title generation[D]. Tangshan: North China University of Science and Technology, 2020. (in Chinese)
[9]
甘陈敏, 唐宏, 杨浩澜, 等. 融合卷积收缩门控的生成式文本摘要方法[J/OL]. 计算机工程. [2023-09-05]. https://doi.org/10.19678/j.issn.1000-3428.0066847.
GAN C M, TANG H, YANG H L, et al. Abstractive text summarization method incorporating convolutional shrinkage gating[J/OL]. Computer Engineering. [2023-09-05]. https://doi.org/10.19678/j.issn.1000-3428.0066847. (in Chinese)
[10]
LA QUATRA M, CAGLIERO L. BART-IT: An efficient sequence-to-sequence model for Italian text summarization[J]. Future Internet, 2023, 15(1): 15.
[11]
FEIJO D D, MOREIRA V P. Improving abstractive summarization of legal rulings through textual entailment[J]. Artificial Intelligence and Law, 2023, 31(1): 91-113. DOI:10.1007/s10506-021-09305-4
[12]
赵冠博, 张勇丙, 毛存礼, 等. 融入领域知识的跨境民族文化生成式摘要方法[J]. 南京大学学报(自然科学版), 2023, 59(4): 620-628.
ZHAO G B, ZHANG Y B, MAO C L, et al. A generative summary method of cross-border ethnic culture incorporating domain knowledge[J]. Journal of Nanjing University (Natural Sciences), 2023, 59(4): 620-628. (in Chinese)
[13]
BABU G L A, BADUGU S. Deep learning based sequence to sequence model for abstractive Telugu text summarization[J]. Multimedia Tools and Applications, 2023, 82(11): 17075-17096. DOI:10.1007/s11042-022-14099-x
[14]
VO T. A novel semantic-enhanced generative adversarial network for abstractive text summarization[J]. Soft Computing, 2023, 27(10): 6267-6280.
[15]
刘杰. 基于GPT-2的司法裁判文书自动摘要[D]. 桂林: 广西师范大学, 2022.
LIU J. A GPT-2 based method for summarising judicial judgment documents[D]. Guilin: Guangxi Normal University, 2022. (in Chinese)
[16]
RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of Machine Learning Research, 2020, 21(140): 1-67.
[17]
MIHALCEA R, TARAU P. Textrank: Bringing order into text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: Association for Computational Linguistics, 2004: 404-411.
[18]
DONG L, YANG N, WANG W H, et al. Unified language model pre-training for natural language understanding and generation[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: ACM, 2019: 13042-13054.
[19]
LI Y D, ZHANG Y Q, ZHAO Z, et al. CSL: A large-scale Chinese scientific literature dataset[C]//Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics, 2022: 3917-3923.