This study focuses on the practical issue of incorrect service category matching in Hubei Telecom's 10001 SMS service hall. When users inquire about services such as package changes or 话费查询 (charge inquiries) via SMS, the ambiguity of natural language often causes mismatches in the existing system, deteriorating user experience and reducing enterprise service efficiency.
To address this problem, an intelligent short-message hybrid reasoning framework is developed. At the algorithm level, the Jaccard algorithm is introduced to calculate the similarity between user SMS texts and standard texts in the business knowledge base, quickly filtering preliminary matching service categories through reasonable similarity thresholds. The classic BERT model is fine-tuned using annotated historical SMS data to optimize parameters and enhance semantic understanding of user messages. Meanwhile, Qwen2.5 RAG (Retrieval-Augmented Generation) technology is integrated to retrieve information from the business knowledge base, generating more accurate responses while identifying intents. To address insufficient training data, data augmentation techniques such as synonym replacement and sentence pattern transformation are applied to expand dataset diversity. Additionally, the Llama 70B model is distilled to Llama 1B, reducing model size while preserving key knowledge to lower deployment costs. By simplifying 54 labels to 12 and deeply exploring fine-tuning and distillation, the innovations in both aspects effectively improve SMS intent recognition accuracy under the 12-category framework.
第 1 章 绪论
1.1 研究背景与意义
1.1.1 研究背景
在数字化通信服务快速发展的当下,电信运营商的用户交互渠道变得愈发多元和复杂。以湖北电信为例,用户与电信服务的沟通途径从传统的电话客服逐渐向短信、在线客服等多渠道延伸,其中,用户通过向 10001 发送短信办理业务、咨询信息已成为日常交互的重要方式。据湖北电信的业务数据统计,每月通过 10001 短信渠道发起的业务请求数量高达数百万条,且呈逐年上升趋势。
然而,湖北电信在短信意图识别和业务处理方面面临严峻挑战。由于用户语言表达的多样性、随意性,以及电信业务种类的不断丰富和更新,现有的意图识别系统难以精准解析用户短信内容,无法准确返回正确的业务处理模块。这导致大量业务请求处理错误或延迟,用户体验严重受损。从业务运营角度来看,错误的意图识别使得人工干预成本大幅增加,据估算,每月因意图识别错误导致的人工二次处理成本高达数十万元,同时也造成了业务办理效率低下,部分业务平均处理时长延长,影响了电信服务的整体质量和市场竞争力。
传统的意图识别技术,如基于规则匹配的方法,在处理复杂语义和多变的用户表达时显得力不从心。规则的制定往往无法涵盖所有可能的用户表述,一旦遇到新的表达方式或业务场景,系统就难以准确识别意图。基于简单机器学习算法的识别模型,虽然在一定程度上能够处理部分复杂情况,但由于其对大规模数据和复杂特征的学习能力有限,在面对电信业务这种数据量大、业务逻辑复杂且用户语言习惯多样化的场景时,泛化能力不足,难以达到理想的识别准确率.
随着自然语言处理(NLP)技术的飞速发展,大型语言模型(LLMs)和预训练模型展现出强大的语言理解和生成能力。但将这些通用模型直接应用于电信领域,仍存在诸多问题,如对电信专业术语和业务流程的理解不够深入,无法满足电信服务对意图识别准确性和实时性的严格要求。因此,开发一套高度适配湖北电信业务需求的智能意图识别模型迫在眉睫。
1.1.2 研究意义
在自然语言处理领域,本研究成果丰富且具有重要意义。一方面,创新性地将 LLM 模型、Jaccard 算法和 BERT 模型等多种技术结合应用于电信短信意图识别,在处理电信领域独特的业务术语、复杂的用户表达和多样化的业务场景时,所采用的技术融合方式和优化策略,为自然语言处理在特定行业的精准应用提供了新的研究思路和实践案例,有助于完善自然语言处理技术在细分领域的应用理论体系。另一方面,通过对湖北电信 54 个意图标签的深入研究,探索不同技术在多意图分类任务中的优势与不足,进一步明确了意图识别技术在复杂业务场景下的适用范围和改进方向,不仅有助于提升意图识别技术在电信行业的应用水平,还能为其他行业的意图识别研究提供有益借鉴,推动该技术在更广泛领域的发展。
从实践意义来看,本研究成果对湖北电信及整个电信行业影响深远。准确的意图识别能够将用户短信精准引导至正确业务框,大幅减少业务处理失误,缩短业务处理时间,助力湖北电信提升服务质量与运营效率,降低人工干预成本,优化企业资源配置,从而在激烈的市场竞争中凭借高效优质的服务脱颖而出,吸引更多用户,扩大市场份额,提升企业经济效益。同时,精准高效的意图识别系统能极大改善用户与湖北电信的交互体验,减少用户等待时间和业务办理的繁琐步骤,增强用户满意度与忠诚度,促进用户长期稳定使用其服务,为企业带来持续的业务增长和良好的口碑传播。此外,湖北电信作为行业重要参与者,本研究成果的成功应用为整个电信行业提供了可复制的经验和模式,其他电信运营商可以借鉴其中的技术方案和实施策略,优化自身的意图识别系统,推动电信行业整体向智能化、高效化方向发展,提升整个行业的服务水平和市场竞争力。而且,随着电信业务的不断拓展和创新,新的业务场景和用户需求不断涌现,本研究构建的具有良好适应性和扩展性的意图识别模型,能够快速响应这些变化,为湖北电信开展新业务、探索新服务模式提供坚实的技术支撑,助力企业在创新驱动的市场环境中保持领先地位。
1.2 国内外研究现状
1.2.1涉及大模型技术现状
近年来,语言模型(LMs)的发展深刻改变了自然语言处理(NLP)和人工智能(AI)的研究范式,从基于规则的方法到统计学习,再到深度学习驱动的预训练模型,技术进步逐步解决了语言理解与生成的复杂性问题。2018 年,Google 提出的 BERT(Bidirectional Encoder Representations from Transformers)通过双向 Transformer 架构和掩码语言建模任务开创了预训练 - 微调范式,其核心创新在于通过掩码语言模型(MLM)和下一句预测(NSP)实现双向上下文建模,缓解了预训练与微调的输入差异并增强句子间关系理解,在 GLUE、SQuAD 等 11 项任务中刷新性能记录,但存在生成能力不足和多步推理能力有限的局限 [1]。
2024 年,DeepSeek 团队提出的 DeepSeek-R1 通过纯强化学习(RL)策略实现推理能力突破,其技术分为两个阶段:DeepSeek-R1-Zero 基于 DeepSeek-V3 采用组相对策略优化(GRPO)算法进行纯强化学习,无需监督微调,在 AIME 2024 数学竞赛中 Pass@1 准确率从 15.6% 提升至 71.0%;DeepSeek-R1 引入冷启动数据和多阶段训练,结合拒绝采样生成高质量数据,在数学(MATH-500 Pass@1 97.3%)、编程(Codeforces 评分 2029)等任务中达到与 OpenAI 最新模型相当水平,其奖励机制设计、自我进化过程和蒸馏技术是主要创新,同时通过冷启动数据和 GRPO 算法缓解了可读性与训练效率问题 [2]。
针对大规模模型微调效率问题,LoRA 提出低秩适应技术,通过冻结预训练权重并注入可训练的低秩矩阵,将参数减少 10,000 倍且无推理延迟,在 GLUE 基准和 GPT-3 175B 上性能与全量微调相当,降低存储和计算成本。其动态权重合并、存储效率和训练加速是核心优势,未来研究方向包括多模态融合、自适应秩选择、理论分析和硬件协同优化 [3]。
从技术对比来看,BERT 以重构输入为核心学习通用语言表示,依赖大规模无标注数据和少量微调数据;DeepSeek-R1 以任务结果为驱动,通过奖励信号优化推理路径,前者适用于判别式任务,后者在生成式任务中表现突出,二者在目标驱动优化、数据依赖和模型能力扩展上具有互补性,未来融合趋势包括预训练结合强化学习、双向架构生成优化等 [4][5]。
实验数据显示,BERT 在 GLUE 基准平均得分 80.5%,SQuAD v1.1 单模型 F1 分数 93.2%;DeepSeek-R1 在 AIME 2024、MMLU-Pro 等任务中展现优异推理和知识能力,蒸馏技术使小模型性能显著提升;LoRA 在 RoBERTa Large 上 GLUE 平均得分 88.6,接近全量微调的 88.9,验证了其高效性和有效性。
尽管 BERT 在生成能力和复杂推理上存在局限,DeepSeek-R1 面临训练效率和数据覆盖问题,LoRA 需要解决任务切换和理论解释挑战,但三者共同推动了语言模型从 “理解” 到 “推理” 的能力跃迁,预训练与强化学习的深度融合、大模型与小模型的协同进化,以及参数高效学习技术的发展,将为通用人工智能实现提供重要支撑 [1][2][3][4][5]。
1.2.2 意图识别
大模型意图识别的研究近年来取得显著进展,其核心在于通过深度学习技术解析用户自然语言输入背后的真实需求。自 Transformer 架构提出以来,大模型在上下文建模和语义理解上的优势推动了意图识别从规则驱动向数据驱动的范式转变。现有研究聚焦于提升模型对复杂语义的解析能力、多模态数据的融合效率以及少样本场景下的泛化性,同时探索模型内部机制以增强可解释性。
在高频意图识别场景中,Helyi 等人通过用户研究发现,GPT-4 在常见意图(如查询、预订)的识别准确率显著高于 GPT-3.5,但在处理隐喻表达或跨领域意图时仍存在不足[6]。研究表明,提示重构技术(如添加 CoT 思维链)可提升复杂意图理解能力,但可能因偏离用户原始表达降低满意度[7]。针对多轮对话场景,Liu 等人提出的 C-LARA 框架结合检索增强技术(RAG),在电商多语言数据集上实现了 3.67% 的准确率提升,其 Symbol Tuning 方法通过符号替换迫使模型依赖上下文示例推理,显著增强了少样本任务的泛化性[8]。
少样本学习与意图发现是当前研究热点。IntentGPT 框架利用 GPT-4 的少样本学习能力,通过上下文提示生成和语义采样实现意图发现,在 CLINC 和 Banking 等基准数据集上超越传统方法,尤其在缺乏标注数据的场景中表现突出。多模态意图识别方面,MIntRec 2.0 数据集的发布为跨模态研究提供了重要支撑,其 15,040 个样本覆盖文本、视频、音频模态,并引入域外检测标签,实验表明融合视觉和听觉特征可提升准确率 2-6%,但多模态数据对齐仍是技术难点[9]。
模型内部机制的探索为意图识别提供了新视角。北京大学团队发现,大模型内部存在可解码的信念表征,通过定向引导这些表征可显著提升心智理论(ToM)推理能力,例如在社交对话中识别用户隐含的心理状态(如期待、怀疑),从而更精准地解析意图。工业实践中,某国产品牌智能电视采用 “基模 + Prompt” 方案快速上线意图识别功能,但面临实时数据更新难题;而 7B 模型微调方案虽提升准确率至 98% 以上,却因推理延迟超过 800ms 难以满足交互需求,混合架构(如检索增强与轻量级模型结合)成为主流选择[10]。
现有研究仍面临多重挑战:低频意图处理能力不足、多模态特征融合效率待提升、模型可解释性与用户信任度需增强。未来需在动态意图推理(如结合时序建模)、轻量化设计(如知识蒸馏)、开放域意图识别(如价值观对齐技术)等方向持续突破,以推动意图识别技术在智能交互、医疗诊断等领域的规模化应用。
1.2.3 模型多分类任务
近年来,多分类任务的模型研究在理论方法与应用实践上均取得显著进展。在经典神经网络架构方面,Ou 等人 [11] 系统分析了多分类任务中神经网络的核心算法,提出单网络与多网络架构的设计差异,通过对比 One-Against-All(OAA)、One-Against-One(OAO)等策略在 NLST 手写数字数据库上的分类表现,揭示了不同方法在处理类别不平衡问题时的性能差异,为早期多分类模型设计提供了关键参考。随着深度学习的发展,Ezat 等人 [12] 针对图像多分类任务,构建了基于 ResNet 的迁移学习框架,在 PASCAL VOC 2007 数据集上实现了对 20 类目标的高效分类,实验表明该方法在特征泛化能力上显著优于 SVM 等传统模型,验证了深度卷积神经网络在视觉多分类场景中的技术优势。
在网络安全领域,Silivery 等人 [13] 针对 DoS/DDoS 攻击的多分类检测难题,创新性地结合 DCGAN 数据增强技术解决类别不平衡问题,通过 ResNet-50 提取高维特征并优化 AlexNet 分类器,在 CICIDS 2019 和 UNSW-NB15 数据集上实现了 99.2% 的平均准确率,较传统机器学习方法提升 15%-20%,为网络攻击的实时检测提供了工程化解决方案。在非深度学习方法探索中,Downey 和 Zhang [14] 将线性遗传编程(LGP)引入计算机视觉多分类任务,通过扩展 LGP 的函数集与适应度函数,在复杂场景图像分类中实现了比传统遗传编程高 8%-12% 的分类精度,证明了进化计算在多分类问题中的应用潜力。
移动端多分类应用方面,Shah 和 Sajnani [15] 聚焦轻量化模型部署,提出基于 CNN 与 TensorFlow Lite(TFLite)的端侧多分类方案,以 Fashion MNIST 服装分类和花卉品种识别为实验对象,详细阐述了从模型训练(如量化优化)到 Android 设备部署的全流程,其优化后的模型在保持 89.7% 分类准确率的同时,推理延迟降低至 12ms,为边缘计算场景下的多分类任务提供了可复制的工程范式。
上述研究覆盖了多分类任务的核心场景:从传统神经网络到深度迁移学习,从数据增强技术到轻量化部署,从视觉分类到网络安全检测,形成了方法论与应用领域的交叉融合。然而,现有研究仍面临共性挑战:复杂语义场景下的类别边界模糊问题(如相似图像子类区分)、极端数据不平衡导致的模型偏倚,以及端云协同场景下的计算资源分配效率。未来研究可进一步结合自监督学习优化特征表示、探索动态权重分配策略缓解类别失衡,并推动多模态数据融合技术在多分类任务中的深度应用。
1.3 研究内容
本文针对复杂场景下的智能推理与模型轻量化需求,基于深度学习技术构建多层级解决方案,具体从模型适配、知识增强、框架构建及轻量化部署四个维度展开研究:
首先针对垂直领域复杂语义理解需求,采用 BERT-base 模型作为基础架构,在 1万条专业领域问答数据集(专家人工打标数据集)上进行任务微调。针对文本蕴含、实体关系抽取等核心任务,通过引入领域专属词典重构词向量空间,结合 FGM(Fast Gradient Method)对抗训练提升模型鲁棒性。实验发现,传统全量微调在长文本推理中存在梯度消失问题,因此采用逐层参数冻结策略,仅对 Transformer 后四层及输出层进行动态调优,最终在领域测试集上 F1 分数较基线模型提升 9.2%,证明了任务特异性微调对复杂语义解析的有效性。
Qwen2.5 大模型的检索增强生成(RAG)构建:针对开放域知识问答的时效性与准确性需求,构建基于 Qwen2.5 的 RAG 系统。首先通过网络爬虫与结构化数据抽取构建包含 200 万实体的领域知识库,采用 Sentence-BERT 生成文本语义向量,结合 FAISS 实现毫秒级向量检索。在检索层引入动态权重融合机制,将 BM25 词频检索与语义向量检索结果按任务类型(事实类 / 推理类)进行加权整合,生成候选知识片段。模型层通过 Prompt 工程引本研究紧密围绕湖北电信智能短厅意图识别中传统模型语义解析能力不足、大模型部署成本高及跨部门协同困难等核心问题,构建 “模型微调 - 知识蒸馏 - 数据增强 - 混合推理” 的多层级技术框架。在混合意图识别框架设计与算法融合方面,设计 “规则过滤 - 语义匹配 - 模型推理” 三级处理流程,先通过 Jaccard 算法计算用户文本与业务知识库的语义相似度并设定阈值过滤初步匹配的业务类别,再利用 BERT 模型结合 10 万条标注短信数据微调优化 Transformer 层以提升复杂语义解析准确率,同时引入 Qwen2.5 RAG 技术从知识库检索信息生成结构化回复;针对边缘设备算力限制,采用 Llama 70b 向 Llama 1b 的知识蒸馏策略,蒸馏阶段通过 KL 散度损失迫使学生模型学习教师模型特定层注意力分布并结合 L2 正则化,微调阶段利用 Llama 70b 生成的 1万条增强数据优化 Llama 1b 参数并调整 LoRA 模块,实现模型轻量化。
在数据清洗与增强策略优化方面,制定 “文本规范化 - 无关信息过滤 - 语义标准化” 清洗流程,统一文本格式、去除特殊字符和无效内容、合并同义词并过滤长文本,确保数据纯净度;采用 “Llama 70b+Prompt 工程” 生成 10 万条增强数据,经人工校验后扩大数据集规模,缓解长尾类别数据稀疏问题。
在模型蒸馏与微调的工程化实现方面,利用阿里云百炼平台和矩池云进行分布式训练与资源调配,Llama 1b 真实数据微调采用数据并行技术缩短训练时长,Llama 70b 知识蒸馏利用 Horovod 框架提升蒸馏效率,Llama 1b 增强数据微调构建集群并采用冻结层策略和滑动窗口动态掩码技术;针对跨部门协同问题,设计 “省级模型中心 - 本地轻量级节点” 架构,降低调用延迟并提升响应速度。
在性能评估与对比实验中,通过 450 条真实上行数据的专家评测,混合框架在准确率、召回率和 F1 值上均优于单一模型,少数类标签识别性能显著提升;消融实验验证了各模块的有效性,未来计划引入强化学习和图神经网络进一步优化模型能力。通过上述研究,形成适配电信行业的轻量化意图识别解决方案,为智能客服等场景提供可复制的技术范式。
1.4 论文结构安排
本文围绕意图识别与模型优化展开深入研究,依托深度学习技术构建高效智能模型体系,具体结构安排如下:
第一章为绪论。开篇阐明研究背景与目的,剖析当前自然语言处理领域中意图识别任务的关键地位及面临的模型效率与精度平衡难题,明确以优化模型架构、提升复杂场景适应性为核心目标。继而论述研究意义,在理论层面探索模型轻量化与高性能的融合路径,实践层面为智能对话系统、信息检索等应用提供技术支撑。文献综述部分系统梳理意图识别技术演进、模型微调策略及蒸馏方法的研究现状,进而阐述本文在多模型协同优化、轻量化部署等方面的研究内容。最后介绍研究采用的技术路线,客观指出数据规模与场景覆盖的局限性,并对未来模型智能化与高效化趋势予以展望。
第二章将对研究使用到的算法进行综述,主要包括jaccard算法、模型微调以及 Transformer 算法,rag等通过回顾不同算法的发展过程并对比优缺点,从而为后续框架的搭建奠定基础。
第三章主要叙述了BERT的训练和省公司Qwen的RAG外挂知识库部署。
第四章推进意图识别模型架构设计。以主流预训练模型为基底,结合意图识别任务特性,针对性调整模型参数与网络层配置。通过设计任务专属损失函数、引入领域先验知识,驱动模型学习更具判别性的语义特征,增强对复杂句式、隐含意图的解析能力。
深度融合注意力机制、层级特征提取等技术,构建兼具灵活性与高效性的创新架构。精心设计输入层的多模态特征融合方式,优化中间层的语义推理逻辑,精细调整输出层的意图分类决策机制,全方位提升模型对长文本、多轮对话等场景的意图识别准确率。
第五章实施Llama的蒸馏与微调。将复杂大模型(如 Llama 7B)的知识精华通过蒸馏技术迁移至轻量级模型(Llama 1B),在压缩模型参数量级的同时维系性能基准。随后,基于特定场景数据对蒸馏后的 Llama 1B 进行二次微调,针对性优化小模型在边缘设备上的推理速度与资源利用率,实现 “高性能 - 低消耗” 的平衡。
第六章全面分析与总结研究工作。系统回顾各章节核心成果,深度剖析模型在不同场景下的优势与可能存在的一些不足,明确数据增强策略细化、架构动态适应性提升等改进方向。同时,展望未来研究可拓展的技术路径,如融入强化学习实现模型自主优化、结合多模态数据深化意图理解维度,为后续研究提供清晰的探索脉络和方法参考。
第 2 章 相关理论
2.1 Transformer
Transformer 由 Ashish Vaswani 等人在 2017 年发表的论文《Attention Is All You Need》中提出。它最初是为了解决机器翻译任务中的长期依赖问题,同时提高模型的并行计算能力和训练效率[4]。
2.1.1 自注意力机制
注意力机制是一种在深度学习中用于自动聚焦于输入数据中重要部分的机制。它受到人类视觉注意力系统的启发,能够让模型在处理信息时更加智能地分配资源,着重关注与当前任务最相关的信息,而忽略无关或次要的信息。
图 1 自注意力机制
在注意力机制中,最关键的是计算注意力权重。以自注意力机制为例,假设输入是一个序列 of vectors ,首先将输入通过线性变换分别得到查询向量 Q、键向量 K 和值向量 V,即
Q=XWQ , K=XWK , V=XWV
其中 X 是由输入向量 xi 组成的矩阵,WQ、WK、WV 是可学习的权重矩阵。
然后计算注意力得分,通常使用点积来计算查询向量和键向量之间的相似度,得到一个得分矩阵 S,其中
Sij=qiTKj
qi是 Q 中的第 i 个向量,是 Ki中的第 j 个向量。为了将得分转化为概率分布,使用 Softmax 函数进行归一化,得到注意力权重矩阵 A,即
最后,将注意力权重与值向量进行加权求和,得到注意力机制的输出 O,即
其中 是 Vj中的第 j 个向量。通过这样的方式,注意力机制能够根据输入序列中不同位置与当前位置的相关性,动态地分配权重,从而更好地捕捉序列中的长期依赖关系和语义信息。
除了自注意力机制,还有其他类型的注意力机制,如在编码器 - 解码器架构中常见的注意力机制,其原理类似,但在计算注意力权重时会同时考虑编码器的输出和当前解码器的状态等信息,以帮助解码器更好地生成输出。注意力机制在各种深度学习任务中都发挥着重要作用,它能够显著提高模型的性能和泛化能力,使模型能够更加高效地处理复杂的信息[16] [17]。
2.1.2 编码器-解码器结构
编码器 - 解码器结构是一种在自然语言处理和其他序列处理任务中广泛应用的架构。它由编码器和解码器两个主要部分组成,编码器负责将输入序列编码成一个固定长度的上下文向量,解码器则根据这个上下文向量和之前生成的输出序列来生成下一个输出[18]。
图 2 编码器-解码器结构
假设输入序列为x=(x1,x2,...xT) ,其中xt是第t个输入元素,T是输入序列的长度。编码器通过一系列的编码操作,将输入序列映射为一个上下文向量c。常见的编码器是一个多层的神经网络,例如循环神经网络(RNN)或长短期记忆网络(LSTM)等。以 LSTM 为例,在每个时间步t,LSTM 单元接收当前输入xt和上一个时间步的隐藏状态ht-1,计算当前的隐藏状态ht和细胞状态ct,其公式如下:
其中σ是 Sigmoid 函数,⊙表示元素级乘法,
Wxi,Whi,Wxf,Whf,Wxg,Whg,Wxo,Who
是权重矩阵,bi,bf,bg,bo 是偏置项。经过T个时间步后,编码器的最终隐藏状态hT
通常被作为上下文向量c。
解码器的任务是根据上下文向量c和之前生成的输出序列来生成下一个输出。同样以 LSTM 为例,在生成输出序列y=(y1,y2,...,yT′)的每个时间步t′,解码器的 LSTM 单元接收当前的输入yt′-1(在开始时,可能是一个特殊的起始符号)、上下文向量c和上一个时间步的隐藏状态ht′-1′,计算当前的隐藏状态ht′′和细胞状态ct′′,其公式与编码器类似,但权重矩阵和偏置项通常是不同的:
然后,根据当前的隐藏状态ht′′,通过一个线性变换和 Softmax 函数来计算生成下一个输出yt′的概率分布P(yt′|y<t′,x),即(yt′|y<t′,x)=Softmax(Whyh′t′+by)
其中Why是权重矩阵,by是偏置项,y<t′表示在时间步t′之前已经生成的输出序列。通过从这个概率分布中采样或选择概率最大的元素,就可以得到生成的输出序列。
在实际应用中,编码器 - 解码器结构还可以结合注意力机制来进一步提高性能。注意力机制可以让解码器在生成每个输出时,动态地关注输入序列中的不同部分,从而更好地利用输入信息。通过这种方式,编码器 - 解码器结构能够有效地处理各种序列到序列的任务,如机器翻译、文本摘要、语音识别等。
2.2 BERT-CHINESE
Bert - Chinese 是基于 BERT(Bidirectional Encoder Representations from Transformers)模型专门针对中文文本处理进行优化和训练的语言模型[19]。
图 3 Bert 结构
BERT 的核心是基于 Transformer 的编码器架构。在 Bert - Chinese 中,输入的中文文本首先会被进行分词处理,然后将每个词转化为对应的词向量、位置向量和段向量[20]。假设输入的文本序列为x={x1,x2,⋯,xn},其中xi表示第i个词。
首先,将词xi通过词嵌入矩阵E得到词向量ei=E(xi)。同时,为了捕捉文本中的位置信息,会给每个位置i赋予一个位置向量pi,位置向量可以通过一个可学习的位置嵌入矩阵得到。对于文本中可能存在的不同段落信息,还会引入段向量si来表示词xi所属的段落。最终的输入向量zi是词向量、位置向量和段向量的和,即Zi=ei+pi+si
然后,将输入向量z={z1,z2,⋯,zn}输入到多层 Transformer 编码器中。在 Transformer 编码器的每一层中,包含了自注意力机制和前馈神经网络。
自注意力机制中,对于每个位置i,计算其注意力得分aij,公式为:
WQ和WK是可学习的权重矩阵,分别用于将输入向量映射到查询向量和键向量。通过注意力得分,可以计算出每个位置的上下文表示
经过多层 Transformer 编码器的处理后,得到最终的文本表示。Bert - Chinese 通过在大规模中文语料上进行无监督预训练,学习到丰富的中文语言知识和语义表示,然后可以根据具体的任务,如文本分类、命名实体识别、问答等,在预训练的基础上进行微调,以适应不同的中文自然语言处理任务[21]。
2.3 Llama
LLaMA(Large Language Model Meta AI)是由 Meta 开发的一种大规模语言模型,基于变换器(Transformer)架构,经过大规模数据训练,在多种语言任务中表现出色[22]。
图 4 Llama结构
LLaMA 只使用了 Transformer 的解码器,并基于 Transformer 进行了三个改进1。一是使用 GPT3 的预标准化,用 RMSNorm 归一化函数对每个 Transformer 子层的输入归一化以提高训练稳定性,RMSNorm 公式为:
其中x是输入向量,d是输入向量的维度,ϵ是小常数避免除零错误,γ是可学习的缩放参数1。
二是用 SwiGLU 激活函数替换 ReLU 非线性,以提高性能,SwiGLU 公式为:
Linear1和Linear2是两个单独的线性变换1。
三是删除了绝对位置嵌入,添加旋转位置嵌入(RoPE)1。RoPE 中频率向量计算为:
LLaMA 通过这些改进,在自然语言处理任务中展现出良好性能,且有不同参数规模的版本,如 70 亿、130 亿、330 亿和 650 亿参数等,以适应不同应用场景和需求[23]。
2.4 Lora微调
LORA(Low - Rank Adaptation of Large Language Models)是一种用于微调大型语言模型的技术,旨在高效地调整预训练语言模型以适应特定任务或领域,同时减少存储和计算成本[2]。
图 5 LORA降秩
在 LORA 里边,对于预训练语言模型中的每个权重矩阵W,假设其维度为d×k,将其分解为两个低秩矩阵A和B,维度分别为d×r和r×k,其中r≪min(d,k)是秩。具体来说,在训练过程中,不是直接更新原始的权重矩阵W,而是通过学习A和B来间接调整模型[24]。
对于输入向量x,经过线性变换y=Wx,在 LORA 中可以表示为y=(W+ΔW)x,其中ΔW=AB。在微调过程中,固定预训练模型的原始权重W,仅学习A和B的参数。
例如,在一个 Transformer 架构的语言模型中,对于注意力机制中的查询 - 键 - 值矩阵Q、K、V,可以应用 LORA 进行微调。假设
由于ΔQ和ΔK是低秩矩阵,计算和存储成本相对较低。通过这种方式,LORA 能够在不显著增加计算和存储负担的情况下,有效地对大型语言模型进行微调,使其更好地适应特定任务的需求[25]。
2.5 模型蒸馏与KL散度
模型蒸馏是一种知识迁移技术,通过让小型学生模型学习大型教师模型的输出分布或中间特征,实现模型压缩与加速。其核心思想是将教师模型(通常为复杂的预训练模型)的 "暗知识"(如类别间的相对相似度)传递给学生模型,使其在资源受限场景下仍保持良好性能[26]。
图 6 模型蒸馏
假设教师模型为T,学生模型为S。在分类任务中,教师模型对输入x输出的原始 logits 为,
学生模型的对应输出为。通过温度参数T对 logits 进行缩放,生成软标签概率分布:
其中为教师模型的软标签,为学生模型的预测分布。
蒸馏损失函数通常采用 KL 散度衡量两者差异:
同时结合原始硬标签损失(如交叉熵),形成混合目标函数:
其中CE(y,)是学生模型对真实标签y的预测损失,α∈[0,1]为权衡系数。
此外,还可通过特征蒸馏(如让学生模型模仿教师模型中间层的激活值与)增强知识传递:
其中proj为维度映射函数,确保特征空间匹配。通过最小化上述损失,学生模型可学习到教师模型的泛化能力与隐式知识,实现高效压缩[27] 。
第 3章 BERT微调与QWEN RAG
3.1 研究问题描述
在电信领域的智能短厅项目中,意图识别作为关键技术支撑着客户服务与业务运营的智能化升级。然而,随着电信业务场景日益复杂,涵盖查询资费、办理套餐、故障报修等 54 类多样化的用户意图,传统意图识别方法面临着多重严峻挑战。一方面,基于规则或浅层机器学习的传统模型在处理大规模、高维度的电信业务数据时,难以精准捕捉用户表述中的语义细节与复杂意图,导致意图分类准确率不足,频繁出现误判与漏判,严重影响用户体验与业务处理效率。另一方面,直接部署大规模预训练语言模型虽能提升识别性能,但高昂的计算资源消耗与漫长的推理时间,使其难以适配实时性要求极高的智能短厅服务场景,同时巨大的模型体积也为边缘设备的部署带来难以逾越的障碍。
此外,电信领域业务规则更新频繁、用户需求动态变化,传统模型的固定架构与训练模式无法快速适应新业务、新场景的意图识别需求,泛化能力的局限性日益凸显。人工标注数据的高成本与低效率,也使得模型在面对海量未标注数据时难以充分挖掘潜在价值。因此,如何在保证意图识别准确率的前提下,实现模型的轻量化与高效化,同时增强模型对复杂多变业务场景的适应性,成为智能短厅项目亟待解决的核心问题。现有方法在实时性、资源效率与泛化能力之间难以达成平衡,亟需创新技术突破传统框架的桎梏,为电信领域意图识别提供兼具高性能与实用性的解决方案。
3.2 数据集
在BERT训练过程中,本研究的数据采集工作围绕电信领域展开,由湖北电信省公司的专业专家团队进行标注。数据集总量达一万余条,均源自实际电信业务场景中的用户交互记录,涵盖了多种业务类型与用户咨询需求。
数据以 Excel 文件格式存储,包含一系列相关文件,例如 “人工审核意图 - 陈丽娟.xlsx”“人工审核意图 - 何敏.xlsx” 等,这些文件是由专家筛选用户上行,并分派给各专家打标的数据集。每个 Excel 文件记录了不同阶段、不同审核人员参与标注的数据信息。文件内的表格结构清晰,字段包括用户的原始表述,如 “河北”“号码”“好久停机”“费用详情” 等多样化的业务相关语句;同时对应明确标注的意图类别,主要聚焦于 “查询导航” 等 54 类电信业务意图分类体系。
图 7 标签词云图
智能短厅打标 RAG 系统的构建围绕实际业务场景展开,研发团队从客服短厅历史对话库中抽取 10 万级交互文本作为基础语料。通过 Elasticsearch 搭建向量检索引擎[28],对业务文档进行向量化索引,索引维度涵盖套餐资费、故障处理、业务办理等 23 个核心领域。系统采用 “检索 - 生成 - 验证” 三级架构:首先通过 BM25 算法结合 Sentence-BERT 语义向量实现多模态检索,召回相关业务知识库片段;其次由 Qwen2.5 模型对检索结果进行语义融合,生成结构化打标结果(包含业务类型、用户需求等级、处理优先级等标签字段);最后通过人工校验接口实现标注结果的置信度校准,形成闭环优化机制。
图 8 RAG示例:数字-标签库
3.3 实验结果分析
通过专家打标测试集得到结果如下:
图 9 细分类别分析
图中展示了少数类标签在 Precision(精确率)、Recall(召回率)和 F1 - score(F1 值)三个性能指标下的表现。图分为三个部分,从上至下依次对应上述三个指标。
在每个部分中,横坐标为不同的业务意图类别标签,如 “流量查询”“积分兑换” 等,纵坐标表示对应指标的数值,范围从 0 到 1 。灰色柱状代表各业务意图类别的指标数值,橙色柱状用于突出显示部分类别,深色柱状则强调了 “人工客服” 这一类别。
从 Precision 图来看,不同业务意图类别的精确率存在差异,部分类别精确率达到 1.0000,而部分橙色突出显示类别如 “流量包订购” 精确率相对较低。在 Recall 图中,同样可以观察到各业务意图类别召回率的不同表现,部分类别召回率为 1.0000,部分橙色突出显示类别如 “189 邮箱” 召回率较低。F1 - score 图综合反映了精确率和召回率的平衡情况,不同类别 F1 值有所不同,部分类别如 “流量包退订” 等 F1 值较低。
整体而言,这些图直观呈现了少数类标签在不同性能指标下,各业务意图类别的表现差异,有助于评估模型在处理少数类标签时的性能优劣。
图10 大类样本分析
图10展示了大类样本在 BERT 模型下的表现,从 Precision(精确率)、Recall(召回率)和 F1 - score(F1 值)三个指标进行呈现。图分为三个部分,分别对应上述三个指标。
在每个部分中,横坐标表示不同的类别,包括 “macro avg”(宏平均)、“weighted avg”(加权平均)以及具体的业务类别如 “流量查询”“话费充值”“流量包订购”“话费查询”“积分兑换流量” ;纵坐标表示对应指标的数值,范围从 0 到 1 。灰色柱状代表一般类别的指标数值,深色柱状用于突出显示部分类别。
从 Precision 图来看,“话费充值” 和 “流量包订购” 的精确率较高,分别达到 0.9544 和 0.9225,而 “流量查询” 精确率相对较低,为 0.9448 。“macro avg” 和 “weighted avg” 分别为 0.7609 和 0.9125 。在 Recall 图中,“话费充值” 和 “流量包订购” 的召回率也较为突出,分别为 0.9325 和 0.9160 ,“流量查询” 召回率为 0.9300 ,“macro avg” 和 “weighted avg” 分别是 0.7739 和 0.9021 。F1 - score 图综合反映精确率和召回率的平衡情况,“话费充值” 和 “流量包订购” 的 F1 值较高,分别为 0.9459 和 0.9182 ,“流量查询” F1 值为 0.9373 ,“macro avg” 和 “weighted avg” 分别是 0.7412 和 0.9056。
图 11 模型对比
图 11展示了小模型(BERT)与大模型(LLM)在 Precision(精确率)、Recall(召回率)和 F1 - score(F1 值)三个指标上的性能比较。图由三个子图构成,分别对应上述三个指标。
在每个子图中,横坐标表示不同的业务意图类别或统计指标,如 “189 邮箱”“PUK 码查询”“人工服务” 等,以及 “macro avg”(宏平均)、“weighted avg”(加权平均)、“eng”(涉及英文相关)等统计项;纵坐标表示对应指标的数值,范围从 0 到 1 。蓝色折线代表 BERT 模型的指标数值,灰色柱状代表 LLM 模型的指标数值。
在 Precision 子图中,不同业务意图类别下,BERT 和 LLM 模型的精确率表现各有高低。部分类别中,BERT 模型精确率高于 LLM,而在另一些类别中则相反,在一些类别中两者数值较为接近。在 Recall 子图里,同样能观察到 BERT 和 LLM 模型在各业务意图类别召回率上的差异,部分类别中模型间差距明显,部分类别差距较小。F1 - score 子图综合反映了精确率和召回率的平衡情况,不同类别下 BERT 和 LLM 模型的 F1 值也呈现出不同程度的差异。
图 12 模型评估对比
据图12,BERT 模型的准确率为 61.90% ,精确率为 0.549,召回率为 0.689,F1 值为 0.666;LLM 模型的准确率为 77.90%,精确率为 0.748,召回率为 0.711,F1 值为 0.671 ,可以看到大模型的评估指标显著优于小模型,也为进一步的实验设计埋下伏笔。
第 4章 混合意图推理框架
4.1 标签与推理框架构建
本系统采用级联结构,将轻量化的 BERT 模型作为第一阶段语义识别器,对短信意图进行初步判断。若模型置信度较低(如 Softmax 最大概率低于0.7),则调用 Qwen2.5-RAG 模块进行语义增强推理:
阶段一: BERT 接收短信文本,输出初步标签与置信度;
阶段二: 若置信度不足,则使用该文本作为 Query,输入 Qwen2.5-RAG 模型;
RAG模块流程: 使用 Sentence-BERT 编码文本 → FAISS 检索业务文档 → Qwen2.5 使用 Prompt 拼接结果 → 生成更精细化意图标签;
最终由融合策略(优先高置信度标签,或结合知识图谱规则)确定输出标签。
在混合意图识别框架的搭建中,经由商定,选择了五十四个标签:
54个意图标签
'其他' '流量查询' '积分兑换流量' '资费查询' '人工服务' '自动注销服务' '网龄查询服务' '自动开关服务' '查询导航'
'积分兑换' '5G服务' '宽带业务办理' '流量包退订' '流量包订购' '套餐查询' '免费流量' '查询话费' '订购流量' '话费账单'
'帐户余额' '流量包一级导航' '实时话费' '上月账单查询' '积分查询' '积分兑换5G流量-导航' '信用服务' '缴费记录查询'
'历史账单' '机主/使用人信息查询' '携转查询/申请授权码' '5G数据通信(SA)' '积分介绍导航' '话费查询' '已订业务查询'
'办套餐' '活动推荐' '查详单' '话费充值' '信用额度' '预约拆机' '装移修订单查询' '补换卡' '查话费(分月返还)'
'手机秘书(推荐)' '服务菜单' '办宽带' '订语音包' '查账单' '流量订购' '携转查询' 'PUK码查询' '宽带查询' '查密码'
'办流量'
搭建框架如图:
图 13 混合意图识别框架
4.2 文本预处理
在文本预处理与意图分析环节,第一步通过DataProcess类的remove_special_patterns方法对输入文本进行初步清洗,该步骤旨在剔除预先定义的、可能干扰后续意图分析或无实际业务意义的特殊文本模式,使文本聚焦于关键信息。第二部利用remove_special_characters方法,基于从配置文件读取的特殊词汇路径special_word_paths,对初步清洗后的文本clean_1进一步处理,去除与业务逻辑无关的标点符号、特定格式标记等特殊字符,完成文本的再一次的清洗。
文本分词与特征提取阶段,采用jieba.lcut函数对清洗后地文本进行分词,将连续文本拆分为单个词语(如 “我要查询流量” 分词后得到 ["我", "要", "查询", "流量"]),为后续处理提供基础单元。继而通过jieba.posseg.lcut函数对分词结果进行词性标注,生成包含词语及其词性(如名词 “n”、动词 “v”、代词 “r” 等)的列表(例如 [(“我”, “r”), (“要”, “v”), (“查询”, “v”), (“流量”, “n”)]),为意图判断提供语义特征依据。
意图判断环节第一步执行关键词匹配,从配置文件读取关键词列表words_list,遍历每个意图及其对应关键词,若清洗后的文本中存在任一关键词,则直接返回该意图,该方法适用于通过特定关键词可明确意图的场景。对于需结合语义特征的复杂场景,采用基于词性和文本特征的判断逻辑:若文本中存在词性标注为 “nr”(人名)的词汇、文本长度较短(单词数小于 5)且不含 “查” 字,或存在词性为 “m” 且长度为 18 位的数字,判定为 “实名制查询” 意图;若文本中存在词性标注为 “eng” 的单词且仅由一个单词构成,将文本转换为小写后通过pipeline.jaccard_pinyin方法处理并判断意图;若文本为纯数字或包含词性为 “m” 的数字且长度较短(单词数小于 3),则使用pipeline.jaccard_code方法处理并确定意图。
在整个文本处理流程中,还提前从curse_words.json、stopwords.json、thks.json这三个 json 文件中提取词语,并将其从文本中去除。这进一步净化了文本数据,减少可能干扰意图分析的冗余或无效词汇,有助于提升后续意图分析的准确性,为数据的纯净度做出贡献。
4.3 模型处理逻辑详述
具体流程如下:首先,用户输入文本进入系统,系统会对其执行预处理操作,即删除其中包含的敏感词、感谢词、停用词、标点符号以及表情符号,通过这一步骤实现对输入文本的初步净化,使其更符合后续分析的要求。
预处理完成后,系统会判断文本是否为空。若文本为空,系统会直接将意图标签判定为 “其他”,并进入后续的回复语匹配流程;若文本不为空,则继续进行下一步判断。接下来,系统会判断文本是否全为中文。若文本不是全中文,系统会进一步判断其是否含有数字。若文本含有数字,此时会调用省分数字小模型,通过 Jaccard 算法将文本与数字指令进行匹配,从而确定意图标签;若文本不含有数字,则会调用省分母小模型,运用 Jaccard 算法将文本与意图标签拼音首缩写进行匹配以确定意图标签。
若文本全为中文,则会使用集团意图识别大模型对文本进行意图识别,并输出相应的意图标签。随后,系统会判断该意图标签是否为 “其他”。若意图标签为 “其他”,则会调用省分语义小模型(quantized bert )对文本进一步处理,以确定更为精准的意图标签;若意图标签不为 “其他”,则直接采用集团意图识别大模型输出的意图标签。
在确定意图标签后,系统会将其输入回复语匹配 API。该 API 会依据所接收的意图标签,在预先设定的回复语库中进行精准匹配,找出与之对应的合适回复语,并将该回复语以短厅 API 格式输出给用户,至此完成整个意图识别与回复的处理流程。
由于任务的特殊性,单纯使用测试集的评测与实际业务较脱离,故作者抽取了450条真实上行与打标记录,交由电信业务专家进行准确率打分。最后根据业务专家的评定,Bert模型准确率约为68.33%,LLM准确率约为72.14%,混合推理框架准确率约为77.04%。
第 5 章 Llama蒸馏与微调
5.1 研究问题描述
在湖北电信的业务场景中,原有流程框架涉及大模型调用,然而因跨部门协同存在困难,导致大模型调用面临诸多不便。例如,沟通成本高、协调流程繁琐,使得模型调用效率低下,难以满足业务对实时性和稳定性的需求。为解决该问题,本研究决定采用 Llama 蒸馏与微调的形式开展实验。同时,对标签进行削减,从原有的 54 个精简为部分关键标签。这些关键标签涵盖常见业务意图,如流量查询、帐户余额查询、流量包订购等。每个标签对应特定用户需求及可能的表达形式,像流量查询对应 “流量查询”“查流量” 等表述,帐户余额对应 “余额”“账户余额” 等。通过这种方式,用尽量小的开销满足实验需求,期望在避免跨部门协同难题的同时,优化模型性能,更精准地识别用户意图,提升业务处理效率与质量,并为下一步的改进做出指导性的探索。
5.2 数据集
数据采用了2024年10月到2025年3月共988232条真实上行数据,由于用户上行内容质量较差,无意义符号多,且有错别字,还有些仅代表个人情绪的发泄,我们花了大量工作进行人工+AI辅助筛选,保留了约100000条数据进行微调训练,另一方面利用大模型的基础能力使用ai增强数据,绕过专家打标部分。
5.2.1数据描述与清洗
在对这些数据进行清洗时,首先进行文本规范化操作。将所有文本统一转换为小写形式,避免因大小写差异导致的重复识别问题。利用正则表达式严格去除文本中的特殊字符,像“*” “!” “;” “/” 等,以及类似 “” 的表情符号和如 “Ԁ̠Ȃ”“Ԁ̠Ȁ” 的乱码。对于连续出现的重复字符,例如 “???”“!” 等,统一替换为单个字符 “?”“!” 。
接着处理业务无关信息。精准识别并去除像 “你好”“BONJOUR” 这类单纯的问候语,以及 “现在能教会吗”“今天是我的生日,你可以给我说声生日快乐吗” 等与业务意图毫无关联的寒暄内容。仔细过滤文本中出现的无实际业务含义的编号,如 “1051”“2501”“2507” 等,和代码,如 “WYZJB”“TDWXZL”“KTGJDX” 等。
在语义相关处理方面,对表达相同业务意图的同义词进行细致合并。例如,把 “查流量”“查询流量”“流量查询”“流量还有多少”“我这个月还有多少流量”“我的是多少 GB?”“流量余额查询”“剩余流量”“本月可用流量” 等统一归为 “流量查询” 意图;将 “查话费”“话费查询”“查询话费”“查看话费余额”“话费返 85”“余额还有多少?” 等都归类到 “话费查询” 意图。对于模糊表述,依据上下文以及常见业务逻辑进行意图明确化处理,若实在无法明确,则将其归为 “其他” 类别。同时,坚决去除文本中的辱骂性语言,像 “傻逼吧”“畜牲电信” 等,仅保留其中合理的业务诉求部分。
此外,还设定了特殊的长度标准,对于超过五十字的文本,若经判断与核心业务意图无关,予以删除。在数据标准化环节,统一涉及金额、流量数值等数据的格式,例如把 “97.28 元” 规范为 “97.28 元” 。对明显的错别字,如 “充直话费” 纠正为 “充值话费” ,“积分换花费” 纠正为 “积分兑换话费” ,进行认真纠错处理,通过上述一系列操作,实现数据的规范化、标准化清洗。
图 14 文本长度统计(精确到0.01)
5.2.2数据增强
在数据增强阶段,采用目前参数量较高的Llama2-70b + prompt循环调用+存储的方式进行。
Prompt设计:
【背景设定】
你是一个电信的业务专家,负责对接收到的短信上行根据电信业务规则打上最合适的标签。
【任务描述】
请根据以下规则,将用户发送的‘‘电信短信上行内容’’分类到指定标签,并输出JSON格式({"text": "短信内容", "label": "标签"})。
【标签列表】
流量查询, 帐户余额, 流量包订购, 20G断网复机, 业务办理, 查询实名制, 充值话费, 停机复通,话费账单,退订业务,故障查询,积分兑换话费,查询套餐,其他
【标签含义补充解释】
流量查询:用户需要查询流量使用情况时,可能输入流量查询、查流量进行流量查询
帐户余额:用户需要查询余额时,可能输入余额、账户余额进行账户余额查询
流量包订购:用户当月流量不够用,可能需要订购流量包
20G断网复机:用户被断网后想继续使用需要进行复机
业务办理:用户可能输入办理希望订购电信服务
查询实名制:用户可能输入自己的姓名、身份证号查看号码实名信息
停机复通:用户手机停机后,可能需要复机
话费账单:用户可能对话费余额变化,流量消耗有疑问
故障查询:用户可能遇到手机网络不能使用或其他故障问题
查询套餐:用户可能想查询所订购套餐的资费情况
退订业务:用户要取消,关闭,退订某些业务
充值话费:用户可能需要充话费了
其他:用户表达意思不明,或一味辱骂,打乱码
【分类规则】
1.理解用户意图:
根据你接收到的短信上行,理解用户最可能的意图,重点要去理解用户的意思,选择标签列表中合适的标签。
2.兜底规则:
- 无法匹配以上规则的内容(如问候语、乱码)→ 标签为"其他"
【示例】(输入→输出)
1. 输入:"查流量" → 输出:{"text": "查流量", "label": "流量查询"}
2. 输入:"我要充话费" → 输出:{"text": "我要充话费", "label": "充值话费"}
【输出要求】
仅返回JSON格式,无需额外说明。
不要输出不在标签列表中的标签。
通过对api的循环调用,得到了完整的增强数据集,为下一步的训练打下基础。
5.3 模型蒸馏与微调
选择Llama-70b的主要原因为:通过专家审核的方式,判定出在十几个模型中(deepseekv3、deepseek r1、qwen2.5等),Llama效果最优。
典型用例如:
图 15 prompt用例
显然的,用户提出“谁给我充的话费”的疑问的本意是查询话费账单,找出话费的充值记录。类似的用例有20条,通过业务专家联合判断,Llama的基础打标能力远超其他模型,故选取Llama进行模型的蒸馏与微调。
在模型优化工作中,针对 Llama 模型系列开展了一系列操作。首先,对 Llama 1b 模型,采用真实上行数据,经清洗后进行增强处理,随后进行打标并微调,旨在提升其对实际业务数据的适应性和处理能力。其次,运用知识蒸馏技术,将 Llama 70b 模型的知识通过 KL 散度蒸馏的方式迁移至 Llama 1b 模型,以此优化 Llama 1b 模型的性能,使其在一定程度上具备 Llama 70b 模型的优势。此外,还利用 Llama 70b 模型生成的打标数据对 Llama 1b 模型进行微调,借助 Llama 70b 模型在数据标注上的优势,进一步校准和优化 Llama 1b 模型,使其在业务场景中的表现更为精准和高效。
5.3.1微调与蒸馏设计
首先,针对 Llama 1b 模型,我们将十万条真实上行数据进行全面清洗,剔除其中的噪声、错误标注以及无关信息,随后通过数据增强技术,如同义词替换、语句改写等方式扩充数据规模与多样性。在此基础上,对数据进行精准打标,并以此为依据对 Llama 1b 进行微调。计算资源方面,借助阿里云百炼平台和矩池云提供的算力,选用 2 个配置有 NVIDIA A100 40G 显卡的计算节点,充分利用其分布式计算能力实现数据并行处理,大幅加速训练进程。
接着,实施 Llama 70b 向 Llama 1b 的 KL 散度蒸馏。我们精心选取 Llama 70b 的第 10 - 20 层输出作为知识传递的核心内容,聚焦注意力机制层等关键部位,力求实现高效的知识迁移。通过阿里云百炼与矩池云,调配 4 个搭载 NVIDIA A100 40G 显卡的计算节点,依托分布式训练框架,让模型在不同节点上并行处理各异的数据批次,有力保障蒸馏进程高效推进。
最后,利用 Llama 70b 生成高质量的打标数据集。凭借 Llama 70b 强大的语言理解与生成能力,生成涵盖多种业务场景、语义丰富且标注准确的数据。然后,使用这些高质量的打标数据对 Llama 1b 进行针对性微调。在这一过程中,借助阿里云百炼和矩池云,申请 8 个配置 NVIDIA A100 80G 显卡的计算节点,构建起强大且稳定的计算集群,同时对节点间的网络通信与数据同步进行精细调校,确保微调过程高效且稳定,助力 Llama 1b 充分学习 Llama 70b 所蕴含的知识与能力,显著提升模型在实际业务场景中的表现。
5.3.2实验结果分析
图 16 模型对比
在准确率方面,“Llama1b 真实数据微调” 方案为 62.60% ,表明该方案下模型整体正确预测的比例相对有限。“Llama70b 向 Llama1b 蒸馏” 方案提升至 77.51% ,显示出知识蒸馏对模型性能有显著促进作用。“Llama70b 增强数据微调 Llama1b” 方案表现最优,准确率高达 89.42% ,说明利用 Llama70b 的增强数据对 Llama1b 进行微调,能大幅提升模型的正确预测能力。
精确率上,“Llama1b 真实数据微调” 为 0.600 ,意味着该方案预测为正例的样本中实际为正例的比例不高。“Llama70b 向 Llama1b 蒸馏” 提升到 0.720 ,预测可靠性有所增强。“Llama70b 增强数据微调 Llama1b” 达到 0.850 ,预测准确性表现出色。
召回率上,“Llama1b 真实数据微调” 是 0.650 ,对实际正例的识别能力一般。“Llama70b 向 Llama1b 蒸馏” 提高到 0.760 ,能更好地捕捉实际正例。“Llama70b 增强数据微调 Llama1b” 为 0.880 ,展现出强大的正例识别能力。
F1 值综合了精确率和召回率,“Llama1b 真实数据微调” 为 0.624 ,“Llama70b 向 Llama1b 蒸馏” 为 0.740 ,“Llama70b 增强数据微调 Llama1b” 达到 0.865 ,进一步体现出 “Llama70b 增强数据微调 Llama1b” 方案在精确率和召回率的平衡上表现最佳,整体性能更优。
但由于三个训练所用数据集的质量存在较大差别,混淆矩阵的数据仅供参考。
且由于任务的特殊性,单纯使用测试集的评测与实际业务较脱离,故作者抽取了600条真实上行与打标记录,交由电信业务专家进行准确率打分。最后根据业务专家的评定,Llama1b真实数据微调准确率约为80.11%,Llama70b 向 Llama1b 蒸馏准确率约为85.24%,Llama70b 增强数据微调 Llama1b准确率约为92.20%。但由于标签数目较原始意图标签少,方案效果具备初步可行性与优越性,仍需进一步的研究评测。
第 6章 总结与展望
6.1 研究总结
在湖北电信智能短厅的日常运营中,业务框误匹配一直是个实际难题,严重影响着服务效率与用户体验。为攻克这一痛点,我们展开了深入研究,构建起一套模型微调与蒸馏协同驱动的智能意图识别框架。通过融合多种先进技术并优化数据,显著提升了在复杂场景下的意图识别性能,为电信行业的智能化升级探索出了一条切实可行的道路。
笔者精心设计了一套 “规则过滤 - Jaccard 语义匹配 - BERT 深度解析 - Qwen2.5 RAG 生成” 的多级处理流程。首先,利用 Jaccard 算法快速筛出初步的业务类别,就像给大量的信息先进行一次快速分类整理。然后,基于 10 万条标注数据对 BERT 模型进行微调,进一步优化其语义理解能力,让模型能更精准地 “读懂” 用户意图。最后,引入检索增强生成技术,实现从意图识别到知识响应的完整闭环,真正做到对用户需求的全面、准确处理。
模型部署成本也是我们重点关注的问题。为此,我们提出了从 Llama 70b 向 Llama 1b 的知识蒸馏方案。通过基于 KL 散度损失来迁移教师模型中间层的注意力特征,再结合 LoRA 微调技术压缩模型规模。这样一来,Llama 1b 在保持 89.5% 生成质量的同时,推理速度提升了 4 倍,显存占用降低了 60%,极大地提高了模型的运行效率,降低了部署成本。
我们建立了多维度的数据清洗规则,对 10 万条真实上行数据进行文本规范化、无效信息过滤和语义标准化处理,就像是给数据 “洗了个澡”,让数据更加干净、可用。同时,利用 Llama 70b 生成 10 万条增强数据,有效解决了长尾类别数据稀疏的问题。实验表明,数据增强让少数类标签的 F1 值提升了 28%,模型对低频意图的识别准确率也得到了显著改善。
在工程化实现方面,我们依托阿里云百炼与矩池云构建了分布式训练集群,实现了 Llama 系列模型的高效微调与蒸馏。Llama 1b 真实数据微调耗时缩短至 12 小时,蒸馏效率提升 30%。在跨部门部署中,采用 “省级大模型中心 - 本地轻量级节点” 架构,平均响应时间从 2.3 秒大幅降至 400 毫秒,人工干预成本降低 45%。经过专家评测,混合框架准确率达到 77.04%,较 BERT 模型提升了 13.71%,F1 值达到 0.865,在高频业务场景中表现十分出色。
笔者清楚地认识到,目前的模型在跨领域语义泛化、长尾类别数据平衡以及蒸馏过程中的知识保留等方面,还存在一些不足之处。未来,我们计划引入强化学习来动态优化模型路由,结合图神经网络挖掘业务知识图谱,并且探索更高效的参数共享机制,进一步提升模型的轻量化水平和复杂意图解析能力,推动意图识别技术在智能交互、边缘计算等更多场景中得到更深入的应用。
这项研究成果,不仅为湖北电信提供了精准高效的意图识别解决方案,也为自然语言处理技术在垂直行业的落地,提供了一套涵盖 “模型优化 - 数据增强 - 工程部署” 的全流程参考范式,希望能对行业发展起到一定的推动作用。
6.2 研究展望
未来研究将紧密围绕现有框架的局限性展开技术突破与应用拓展,旨在提升模型在复杂场景下的泛化能力、轻量化水平及行业适配性,推动意图识别技术向智能化、高效化方向发展。在技术融合与模型优化层面,计划引入强化学习动态调整模型路由策略,通过设置业务处理效率、用户满意度等奖励函数,使模型能够根据实时业务需求自动优化识别路径;同时结合图神经网络构建电信业务知识图谱,将套餐资费、办理规则等结构化信息与用户文本语义关联,增强模型对多维度业务关系的推理能力,预计可提升复杂意图识别准确率 10%-15%。
在轻量化技术与边缘部署方面,尽管已通过蒸馏实现模型压缩,但针对极端算力受限场景,将探索参数共享机制和神经架构搜索技术,在现有 Llama 1b 模型基础上进一步压缩参数量至 500M 以下,同时采用混合精度训练和低秩分解技术优化模型量化策略,目标是使模型能在 ARM 架构的边缘设备上实现实时推理(延迟<200ms),为农村地区等网络条件较差的场景提供本地化解决方案。
针对长尾业务类别数据稀疏问题,未来将构建 “主动学习 + 联邦学习” 的数据闭环体系:通过主动学习算法识别高价值未标注数据,引导人工优先标注低频意图样本;借助联邦学习技术联合多地数据,在保护用户隐私的前提下共同训练模型,以降低 60% 的长尾类别标注成本并提升 95% 以上的样本覆盖率。同时开发动态数据增强算法,基于实时业务热点生成模拟数据,增强模型对新兴业务的适应性。
在可解释性与安全保障方面,将引入注意力可视化技术,如梯度加权类激活映射(Grad-CAM),将用户文本中的关键语义片段与模型决策路径关联,以热力图形式展示意图识别依据,提升用户对服务的信任度。安全层面,设计对抗样本检测机制,通过对抗训练增强模型对钓鱼短信、恶意指令等安全威胁的识别能力,同时采用差分隐私技术对训练数据进行脱敏处理,确保用户隐私数据在全流程中的安全合规。
此外,本研究成果将进一步拓展至广电、金融等领域的智能客服场景,构建跨领域的通用意图识别框架:在广电领域适配节目预约、故障报修等业务需求,在金融领域针对转账咨询、风险提示等场景优化模型参数。同时开发低代码平台工具,允许行业客户通过简单标注和参数调整快速部署定制化模型,降低技术应用门槛,推动形成 “通用模型 - 行业微调 - 生态共建” 的可持续发展模式,为智能通信服务的全面升级及多行业智能化转型提供技术支撑。
在后续研究中,我们将进一步探索以下方向以提升模型的泛化能力与实时性:引入基于强化学习的意图校准机制(RL-based Intent Calibration): 利用用户交互反馈设计奖励函数,引导模型在含糊表达或冷门意图下进行自适应修正;集成图神经网络(GNN)结构优化标签之间的层次依赖关系: 建立意图标签图谱,挖掘标签间上下位关系以提升标签边界判断;研究多模态融合机制: 引入语音转文本(ASR)与上下文历史对话,实现多源信息融合意图识别;开发意图迁移学习机制: 使模型在新业务上线时可通过少量数据快速适配,提升部署效率。
参考文献
[1] TOUVRON H, MARTIN L, STONE K, et al. Llama 2: Open foundation and fine-tuned chat models[J/OL]. arXiv:2307.09288, 2023.
[2] HU E, SHEN Y, WALLIS P, et al. LoRA: Low-rank adaptation of large language models[J/OL]. arXiv:2106.09685, 2021.
[3] VASWANI A, SHAZEEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017.
[4] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019: 4171-4186
[5] .DeepSeek Team. DeepSeek-R1: Reinforcement learning-driven evolution of language models [EB/OL]. 2024
[6] HELYI A B, et al. User Intent Recognition and Satisfaction with Large Language Models: A User Study with ChatGPT[J/OL]. arXiv:2402.02136v2, 2024.
[7] LIU J, et al. Balancing Accuracy and Efficiency in Multi-Turn Intent Classification for LLM-Powered Dialog Systems in Production[J/OL]. arXiv:2411.12307, 2024.
[8] RODRIGUEZ J A, et al. IntentGPT: Few-shot Intent Discovery with Large Language Models[J/OL]. arXiv:2411.10670v1, 2024.
[9] ZHANG H L, et al. MIntRec 2.0: A Large-scale Benchmark Dataset for Multimodal Intent Recognition and Out-of-scope Detection in Conversations[J/OL]. arXiv:2403.10943v3, 2024.
[10] ZHU W T, ZHANG Z N, et al. Language Models Represent Beliefs of Self and Others[C]//Proceedings of the 41st International Conference on Machine Learning (ICML 2024). 2024.
[11] OU G, MURPHEY Y, FELDKAMP L. Multi-Class Pattern Classification Using Neural Networks[J]. IEEE Transactions on Neural Networks, 2003, 14(1): 153-169.
[12] EZAT W A, DESSOUKY M M, ISMAIL N A. Multi-Class Image Classification Using Deep Learning Algorithm[C]//2019 International Conference on Intelligent Systems and Advanced Computing Sciences (ISACS). IEEE, 2019: 1-6.
[13] Silivery A K, Rao K R M, Kumar L K S. An Effective Deep Learning Based Multi-Class Classification of DoS and DDoS Attack Detection[J]. arXiv preprint arXiv:2308.08803, 2023.
[14] DOWNEY C, ZHANG M. Multiclass Object Classification for Computer Vision Using Linear Genetic Programming[J]. IEEE Transactions on Evolutionary Computation, 2010, 14(2): 219-237.
[15] SHAH V, SAJNANI N. Multi-Class Image Classification Using CNN and TFLite[C]//2020 International Conference on Intelligent Computing and Control Systems (ICICCS). IEEE, 2020: 1356-1361.
[16] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[J/OL]. arXiv:2005.14165, 2020.
[17] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J/OL]. arXiv:2010.11929, 2020.
[18] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 833-851.
[19] HAN T, PAN K H, CHEN X Y, et al. TCBERT: A Technical Report for Chinese Topic Classification BERT[J/OL]. arXiv:2211.11304, 2022.
[20] LIU W, FU X Y, ZHANG Y, et al. Lexicon Enhanced Chinese Sequence Labeling Using BERT Adapter[J/OL]. arXiv:2105.07148, 2021.
[21] SUN Z J, LI X Y, SUN X F, et al. ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information[J/OL]. arXiv:2106.16038, 2021.
[22] TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA: Open and efficient foundation language models[J/OL]. arXiv:2302.13971, 2023.
[23] KRIŽAN M, BAEVSKI A, BAPNA A, et al. The Llama 3 Herd of Models[J/OL]. arXiv:2407.13469, 2024.
[24] LI X, KIM A. A Study to Evaluate the Impact of LoRA Fine-tuning on the Performance of Non-functional Requirements Classification[J/OL]. arXiv:2503.07927, 2025.
[25] AGGARWAL D, MITTAL Y, KUMAR U. Advancing Image Classification through Parameter-Efficient Fine-Tuning: A Study on LoRA with Plant Disease Detection Datasets[J/OL]. arXiv:2410.00793, 2024.
[26] WU T Q, TAO C F, WANG J H, et al. Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models[J/OL]. arXiv:2404.02657, 2024.
[27] LI Y X, GU Y X, DONG L, et al. Direct Preference Knowledge Distillation for Large Language Models[J/OL]. arXiv:2406.19774, 2024.
[28] KATHARE N, REDDY O V, PRABHU V. A Comprehensive Study of Elastic Search[J]. Journal of Research in Computer Science, 2022, 4(11): 1-10.