AI推介-信息抽取（information extraction,NER）论文速览（arXiv方向）：2023.08.01-2024.10.15

文章目录～

1.Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction
2.Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction
3.Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction
4.Guideline Learning for In-context Information Extraction
5.GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction
6.PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction
7.Multimodal Question Answering for Unified Information Extraction
8.Fine-tuning and aligning question answering models for complex information extraction tasks
9.Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges
10.A Survey of Document-Level Information Extraction
11.Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables
12.Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach
13.LMDX: Language Model-based Document Information Extraction and Localization
14.Contextual Label Projection for Cross-Lingual Structured Prediction
15.Improving Information Extraction on Business Documents with Specific Pre-Training Tasks
16.Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty
17.A Comparative Analysis of Pretrained Language Models for Text-to-Speech
18.Zero-shot information extraction from radiological reports using ChatGPT
19.mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning
20.MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction
21.Slot Induction via Pre-trained Language Model Probing and Multi-level Contrastive Learning
22.UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition
23.Explaining Relation Classification Models with Semantic Extents
24.Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER

1.Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction

标题:重建材料四面体：材料信息提取面临的挑战

author:Kausik Hira, Mohd Zaki, Dhruvil Sheth, Mausam, N M Anoop Krishnan

date Time:2023-10-12

paper pdf:http://arxiv.org/pdf/2310.08383v3

摘要：
几个世纪以来，新材料的发现推动了人类的进步。材料的性能是其组成、结构和特性的函数，而这些又进一步取决于其加工和测试条件。深度学习和自然语言处理领域的最新发展，使得从同行评议出版物、书籍和专利等已出版文献中大规模提取信息成为可能。然而，这些信息以表格、文本和图像等多种格式传播，报告风格几乎没有统一性，这给机器学习带来了一些挑战。在此，我们讨论、量化并记录了从材料科学文献中进行自动信息提取（IE）以创建大型材料科学知识库所面临的挑战。具体来说，我们重点关注从文本和表格中进行信息提取，并通过实例概述了几项挑战。我们希望目前的工作能激励研究人员以连贯一致的方式应对挑战，为实现材料知识库的 IE 开发提供动力。

2.Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction

标题:利用上下文线索和角色关联加强文档级事件论据提取

author:Wanlong Liu, Dingyi Zeng, Li Zhou, Yichen Xiao, Weishan Kong, Malu Zhang, Shaohuan Cheng, Hongyang Zhao, Wenyu Chen

publish:pre-submission

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05116v4

摘要：
文档级事件论据提取是信息提取领域中一项重要而又具有挑战性的任务。目前的主流方法主要关注事件触发器与其论据之间的信息交互，面临着两个局限：上下文交互不足和对事件相关性的忽略。在此，我们引入了一个名为 CARLG（上下文线索聚合和基于角色的潜信息引导）的新型框架，由两个创新组件组成：上下文线索聚合（CCA）和基于角色的潜信息引导（RLIG）。CCA 模块利用从预先训练的编码器中获得的注意力权重，自适应地吸收更广泛的上下文信息，而 RLIG 模块则旨在捕捉事件角色之间的语义关联。然后，我们根据当前主流 EAE 方法的两种类型，将 CARLG 框架实例化为两种变体。值得注意的是，我们的 CARLG 框架只引入了不到 1% 的新参数，但却显著提高了性能。在 RAMS、WikiEvents 和 MLEE 数据集上进行的综合实验证实了 CARLG 的优越性，与主要基准相比，CARLG 在性能和推理速度方面都有显著优势。进一步的分析证明了所提模块的有效性。

3.Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction

标题:利用用于细粒度信息提取的增强指令对大型语言模型进行基准测试

author:Jun Gao, Huan Zhao, Yice Zhang, Wei Wang, Changlong Yu, Ruifeng Xu

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05092v1

摘要：
信息提取（IE）是自然语言处理中的一项重要任务。传统方法依赖于使用简单指令的粗粒度提取。然而，随着大型语言模型（LLM）的出现，有必要调整 IE 技术，以充分利用这些模型的能力。本文介绍了专为 LLMs 量身定制的细粒度 IE 基准数据集，采用了针对每种信息类型的增强指令，其中包括任务描述、提取规则、输出格式和示例。通过广泛的评估，我们发现编码器-解码器模型，尤其是 T5 和 FLAN-T5，在泛化到未见过的信息类型方面表现出色，而 ChatGPT 则对新的任务形式表现出更强的适应性。我们的研究结果还表明，性能并不完全取决于模型的规模，并强调了架构、数据多样性和学习技术的重要性。这项工作为在信息提取中更精细、更全面地利用 LLM 铺平了道路。

4.Guideline Learning for In-context Information Extraction

标题:针对上下文信息提取的准则学习

author:Chaoxu Pang, Yixuan Cao, Qiang Ding, Ping Luo

publish:EMNLP 2023 main conference

date Time:2023-10-08

paper pdf:http://arxiv.org/pdf/2310.05066v2

摘要：
大型语言模型（LLM）只需根据任务指令和一些输入-输出示例进行调节，而无需优化任何参数，就能完成一项新任务。这就是所谓的上下文学习（ICL）。最近，上下文信息提取（IE）引起了研究界的关注。然而，上下文中信息提取的性能通常落后于最先进的有监督专家模型。我们强调了造成这一不足的一个关键原因：任务描述不够具体。长度有限的上下文难以彻底表达错综复杂的 IE 任务指令和各种边缘情况，从而导致任务理解与人类理解不一致。在本文中，我们提出了一种用于上下文智能交互的指南学习（GL）框架，它能反思性地学习并遵循指南。在学习过程中，GL 会根据一些错误案例自动合成一套指南；在推理过程中，GL 会检索有用的指南，以便更好地进行 ICL。此外，我们还提出了一种基于自一致性的主动学习方法，以提高 GL 的效率。在事件提取和关系提取方面的实验表明，GL 可以显著提高上下文信息检索（in-context IE）的性能。

5.GoLLIE: Annotation Guidelines improve Zero-Shot Information-Extraction

标题:GoLLIE：改进零点信息提取的注释指南

author:Oscar Sainz, Iker García-Ferrero, Rodrigo Agerri, Oier Lopez de Lacalle, German Rigau, Eneko Agirre

publish:The Twelfth International Conference on Learning Representations -
ICLR 2024

date Time:2023-10-05

paper pdf:http://arxiv.org/pdf/2310.03668v5

摘要：
大型语言模型（LLM）与指令调整相结合，在泛化到未见任务时取得了显著进展。然而，它们在信息提取（IE）方面却不太成功，落后于特定任务模型。通常情况下，信息提取任务的特点是有复杂的注释指南来描述任务并为人类提供示例。以往利用这些信息的尝试都以失败告终，即使是最大型的模型也是如此，因为它们无法完全遵循这些指南。在本文中，我们提出了 GoLLIE（Guideline-following Large Language Model for IE），该模型能够根据注释指南进行微调，从而提高未见 IE 任务的零拍摄结果。综合评估从经验上证明，GoLLIE 能够泛化并遵循未见的指南，其性能优于之前的零点信息提取尝试。消融研究表明，详细的指南是取得良好结果的关键。

6.PrIeD-KIE: Towards Privacy Preserved Document Key Information Extraction

标题:PrIeD-KIE：实现隐私保护的文档关键信息提取

author:Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed

date Time:2023-10-05

paper pdf:http://arxiv.org/pdf/2310.03777v1

摘要：
本文介绍了利用大型预训练文档基础模型，结合差分隐私（DP）、联合学习（FL）和差分隐私联合学习（DP-FL），开发隐私密钥信息提取（KIE）系统的策略。通过在六个基准数据集（FUNSD、CORD、SROIE、WildReceipts、XFUND 和 DOCILE）上进行广泛的实验，我们证明了大型文档基础模型可以在隐私设置下针对 KIE 任务进行有效的微调，从而在保持强大隐私保证的同时获得足够的性能。此外，通过深入分析各种训练和模型参数对模型性能的影响，我们提出了简单而有效的指导原则，以便在全局 DP 下实现 KIE 任务的最佳隐私效用权衡。最后，我们介绍了一种新颖的 DP-FL 算法 FeAm-DP，该算法可将全局 DP 从单机环境高效升级到多客户端联合环境。我们在各种客户端和隐私设置下对该算法进行了全面评估，并证明了该算法能够实现与独立 DP 相当的性能和隐私保证，即使在参与客户端数量不断增加的情况下也是如此。总之，我们的研究为私人 KIE 系统的开发提供了宝贵的见解，并凸显了文档基础模型在隐私保护文档人工智能应用中的潜力。据作者所知，这是第一项利用文档基础模型探索隐私保护文档 KIE 的研究。

7.Multimodal Question Answering for Unified Information Extraction

标题:统一信息提取的多模态问题解答

author:Yuxuan Sun, Kai Zhang, Yu Su

publish:24 pages, 2 figures

date Time:2023-10-04

paper pdf:http://arxiv.org/pdf/2310.03017v1

摘要：
多模态信息提取（MIE）旨在从非结构化多媒体内容中提取结构化信息。由于任务和环境的多样性，目前大多数多模态信息提取模型都是特定任务和数据密集型的，这就限制了它们在任务要求多样、标注数据有限的现实世界场景中的通用性。为了解决这些问题，我们提出了一个新颖的多模态问题解答（MQA）框架，通过将三个 MIE 任务重新组合为一个统一的跨度提取和多选择问题解答管道，将它们统一起来。在六个数据集上进行的广泛实验表明1) 与虚假提示相比，我们的 MQA 框架在 MIE 任务上持续、显著地提高了各种现成大型多模态模型（LMM）的性能。2) 在零镜头设置中，MQA 的表现大大优于之前的最先进基线。此外，我们框架的有效性还可以成功地转移到少镜头环境中，增强 10B 参数规模的 LMM，使其具有竞争力或优于更大的语言模型，如 ChatGPT 和 GPT-4。我们的 MQA 框架可以作为利用 LMM 更好地解决 MIE 以及其他潜在下游多模态任务的一般原则。

8.Fine-tuning and aligning question answering models for complex information extraction tasks

标题:微调和调整复杂信息提取任务的问题解答模型

author:Matthias Engelbach, Dennis Klau, Felix Scheerer, Jens Drawehn, Maximilien Kintz

publish:Accepted at: 15th International Conference on Knowledge Discovery an
Information Retrieval (KDIR 2023), part of IC3K

date Time:2023-09-26

paper pdf:http://arxiv.org/pdf/2309.14805v1

摘要：
大型语言模型（LLM）的出现提高了各种 NLP 任务的性能和可能性。虽然 ChatGPT 等生成式人工智能模型的使用为一些商业用例带来了新的机遇，但它们目前产生虚假内容的倾向极大地限制了它们在文档分析（如文档信息检索）中的适用性。与此相反，问题解答（QA）或段落检索模型等抽取式语言模型可确保在相应上下文文档的范围内找到查询结果，这使它们成为在公司生产环境中进行更可靠信息提取的候选模型。在这项工作中，我们提出了一种方法，将提取式 QA 模型用于改进德国商业文档（如保险报告或医疗传单）的特征提取，并将其集成到文档分析解决方案中。我们进一步证明，对现有德语质量保证模型进行微调，即使只使用一小部分注释数据集，也能提高复杂语言特征（如损害原因解释或药物外观描述）定制提取任务的性能。最后，我们讨论了评估信息提取任务的评分指标的相关性，并从莱文斯坦距离、F1-分数、精确匹配和 ROUGE-L 中推导出一个综合指标，以模仿人类专家的评估标准。

9.Comprehensive Overview of Named Entity Recognition: Models, Domain-Specific Applications and Challenges

标题:命名实体识别综合概述：模型、特定领域的应用和挑战

author:Kalyani Pakhale

date Time:2023-09-25

paper pdf:http://arxiv.org/pdf/2309.14084v1

摘要：
在自然语言处理（NLP）领域，命名实体识别（NER）是一种从非结构化文本中提取结构化见解的关键机制。本手稿详尽探讨了不断发展的 NER 方法，将基本原理与当代人工智能的进步融为一体。研究从 NER 的基本概念开始，涵盖了从传统的基于规则的策略到当代奇妙的转换器架构等各种技术，尤其突出了 BERT 与 LSTM 和 CNN 的集成。研究重点介绍了为金融、法律和医疗保健等复杂领域量身定制的特定领域 NER 模型，强调了这些模型的专业适应性。此外，研究还深入探讨了包括强化学习在内的前沿范式、E-NER 等创新结构，以及光学字符识别 (OCR) 在增强 NER 能力方面的相互作用。论文以实际领域为基础，揭示了 NER 在金融和生物医学等领域中不可或缺的作用，并探讨了这些领域所面临的独特挑战。结论部分概述了有待解决的挑战和发展方向，使这篇论文成为深入开展 NER 研究和应用的全面指南。

10.A Survey of Document-Level Information Extraction

标题:文档级信息提取概览

author:Hanwen Zheng, Sijia Wang, Lifu Huang

date Time:2023-09-23

paper pdf:http://arxiv.org/pdf/2309.13249v1

摘要：
文档级信息提取（IE）是自然语言处理（NLP）中的一项重要任务。本文对最近的文档级信息提取文献进行了系统回顾。此外，我们还对当前最先进的算法进行了全面的误差分析，并找出了这些算法的局限性以及文档级信息提取任务所面临的挑战。根据我们的研究结果，标签噪声、实体核心参照解析和推理的缺乏严重影响了文档级 IE 的性能。本调查报告旨在提供更多见解，帮助 NLP 研究人员进一步提高文档级 IE 的性能。

11.Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables

标题:定位、检索和融合：表上自由格式问题解答的通用框架

author:Wenting Zhao, Ye Liu, Yao Wan, Yibo Wang, Zhongfen Deng, Philip S. Yu

publish:Accepted by AACL-IJCNLP 2023

date Time:2023-09-20

paper pdf:http://arxiv.org/pdf/2309.11049v2

摘要：
表格数据问题解答（又称 TableQA）旨在根据所提供的表格生成问题的答案，近来备受关注。以前的工作主要是通过从单个或有限的表格单元中提取信息来生成简洁的事实性回答，缺乏跨不同表格单元进行推理的能力。然而，自由形式的 TableQA 领域需要复杂的策略来选择相关的表格单元格，并对离散的数据片段进行复杂的整合和推理，而这一领域的大部分内容仍未被探索。为此，本文提出了一种通用的三阶段方法：表图转换和单元定位、外部知识检索以及表格和文本融合（称为 TAG-QA），以解决生成式 TableQA 中推断长篇自由格式答案的难题。具体来说，TAG-QA (1) 使用图神经网络定位相关表格单元格，收集相关行列之间的交叉单元格；(2) 利用维基百科的外部知识；(3) 通过整合表格数据和自然语言信息生成答案。实验表明，TAG-QA 在生成既忠实又连贯的句子方面具有卓越的能力，尤其是与几种最先进的基线相比。值得注意的是，TAG-QA 在 BLEU-4 和 PARENT F 分数方面分别比基于流水线的稳健基线 TAPAS 高出 17% 和 14%。此外，TAG-QA 在 BLEU-4 和 PARENT F 分数上分别比端到端模型 T5 高出 16% 和 12%。

12.Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach

标题:通过机器阅读理解进行命名实体识别：多任务学习方法

author:Yibo Wang, Wenting Zhao, Yao Wan, Zhongfen Deng, Philip S. Yu

date Time:2023-09-20

paper pdf:http://arxiv.org/pdf/2309.11027v1

摘要：
命名实体识别（NER）旨在将文本中提到的实体提取并分类为预定义的类型（如组织或人名）。最近，许多人提出将 NER 塑造成一个机器阅读理解问题（也称为基于 MRC 的 NER），根据上下文，通过 MRC 回答与预定义实体类型相关的问题，从而实现实体识别。然而，这些工作忽略了实体类型之间的标签依赖关系，而这对于精确识别命名实体至关重要。在本文中，我们建议将实体类型之间的标签依赖关系纳入多任务学习框架，以更好地实现基于 MRC 的 NER。我们将基于 MRC 的 NER 分解为多个任务，并使用自我注意模块来捕捉标签依赖性。我们在嵌套 NER 和平面 NER 数据集上进行了综合实验，以验证所提出的多重 NER 的有效性。实验结果表明，Multi-NER 在所有数据集上都能取得更好的性能。

13.LMDX: Language Model-based Document Information Extraction and Localization

标题:LMDX：基于语言模型的文档信息提取和本地化

author:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ramya Sree Boppana, Zilong Wang, Zifeng Wang, Jiaqi Mu, Hao Zhang, Chen-Yu Lee, Nan Hua

date Time:2023-09-19

paper pdf:http://arxiv.org/pdf/2309.10952v2

摘要：
大型语言模型（LLM）给自然语言处理（NLP）带来了革命性的变化，改进了最先进的技术，并在各种任务中展现出了新的能力。然而，它们在从视觉丰富的文档中提取信息方面的应用尚未取得成功，而这正是许多文档处理工作流程的核心，涉及从半结构化文档中提取关键实体。在这项任务中采用 LLM 的主要障碍包括 LLM 中缺少对高质量提取至关重要的布局编码，以及缺少在文档中定位预测实体的接地机制。本文介绍了基于语言模型的文档信息提取和本地化（LMDX），这是一种为 LLM 重构文档信息提取任务的方法。LMDX 可以在有训练数据和没有训练数据的情况下抽取单个、重复和分层实体，同时提供基础保证并定位文档中的实体。最后，我们将 LMDX 应用于 PaLM 2-S 和 Gemini Pro LLM，并在 VRDU 和 CORD 基准上对其进行了评估，从而确立了新的先进水平，并展示了 LMDX 如何帮助创建高质量、数据高效的解析器。

14.Contextual Label Projection for Cross-Lingual Structured Prediction

标题:跨语言结构化预测的上下文标签投射

author:Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng

publish:Accepted at NAACL 2024

date Time:2023-09-16

paper pdf:http://arxiv.org/pdf/2309.08943v3

摘要：
标签投射涉及联合获取翻译标签和文本，对于利用机器翻译促进结构化预测任务中的跨语言转移至关重要。之前探索标签投影的研究往往倾向于简化标签翻译或仅依赖词级对齐，从而影响翻译准确性。在本文中，我们介绍了一种新颖的标签投射方法 CLaP，它能将文本翻译为目标语言，并以翻译后的文本为语境对标签进行上下文翻译，从而确保翻译后的标签具有更高的准确性。我们利用具有多语言能力的指令调整语言模型作为上下文翻译器，通过指令对翻译文本中翻译标签的存在施加限制。我们在两种具有代表性的结构预测任务–事件论据提取（EAE）和命名实体识别（NER）–上对 CLaP 与其他标签投影技术进行了基准测试，结果表明 CLaP 在 39 种语言中实现了零次跨语言传输，EAE 的 F1 提高了 2.4 倍，NER 的 F1 提高了 1.4 倍。我们进一步探索了 CLaP 在十种资源极其匮乏的语言上的适用性，以展示其在跨语言结构化预测方面的潜力。

15.Improving Information Extraction on Business Documents with Specific Pre-Training Tasks

标题:通过特定的预培训任务改进商业文档的信息提取

author:Thibault Douzon, Stefan Duffner, Christophe Garcia, Jérémy Espinas

publish:Conference: Document Analysis Systems. DAS 2022

date Time:2023-09-11

paper pdf:http://arxiv.org/pdf/2309.05429v1

摘要：
基于变换器的语言模型被广泛应用于自然语言处理相关任务中。由于采用了预训练方法，这些模型已成功应用于商业文档的信息提取。然而，文献中针对商业文档提出的大多数预训练任务都过于通用，不足以学习更复杂的结构。在本文中，我们使用了在商业文档集上预训练的语言模型 LayoutLM，并引入了两个新的预训练任务，以进一步提高其提取相关信息的能力。第一个任务旨在更好地理解文档的复杂布局，第二个任务侧重于数值及其数量级。这些任务迫使模型学习更好的扫描文档上下文表征。我们进一步引入了一种新的后处理算法，用于解码信息提取中的 BIESO 标记，该算法在处理复杂实体时表现更佳。我们的方法大大提高了由费用收据、发票和采购订单组成的公共数据集（F1 分数从 93.88 分提高到 95.50 分）和私人数据集（F1 分数从 84.35 分提高到 84.84 分）的提取性能。

16.Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty

标题:利用大型语言模型改进开放式信息提取：关于示范不确定性的研究

author:Chen Ling, Xujiang Zhao, Xuchao Zhang, Yanchi Liu, Wei Cheng, Haoyu Wang, Zhengzhang Chen, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao

date Time:2023-09-07

paper pdf:http://arxiv.org/pdf/2309.03433v1

摘要：
开放式信息提取（OIE）任务旨在从非结构化文本中提取结构化事实，通常采用（主题、关系、对象）三元组的形式。尽管像 ChatGPT 这样的大型语言模型（LLMs）具有作为通用任务解决工具的潜力，但由于两个关键问题，它们在 OIE 任务中落后于最先进的（监督）方法。首先，由于对模型微调的限制，LLMs 难以区分无关上下文和相关关系，也难以生成结构化输出。其次，LLMs 根据概率自回归生成响应，这使得预测的关系缺乏可信度。在本文中，我们评估了 LLMs 在改进 OIE 任务方面的能力。特别是，我们提出了多种上下文学习策略来增强 LLM 的指令跟随能力，并提出了一个示范不确定性量化模块来增强生成关系的置信度。我们在三个 OIE 基准数据集上的实验表明，我们的方法在定量和定性方面都能与已有的监督方法相媲美。

17.A Comparative Analysis of Pretrained Language Models for Text-to-Speech

标题:文本到语音的预训练语言模型比较分析

author:Marcel Granero-Moya, Penny Karanasou, Sri Karlapati, Bastian Schnell, Nicole Peinelt, Alexis Moinet, Thomas Drugman

publish:Accepted for presentation at the 12th ISCA Speech Synthesis Workshop
(SSW) in Grenoble, France, from 26th to 28th August 2023

date Time:2023-09-04

paper pdf:http://arxiv.org/pdf/2309.01576v1

摘要：
最先进的文本到语音（TTS）系统利用预训练语言模型（PLMs）来增强前音，并创建听起来更自然的语音。然而，虽然 PLM 在自然语言理解（NLU）方面得到了广泛的研究，但其对 TTS 的影响却一直被忽视。在本研究中，我们针对两个 TTS 任务–前音预测和停顿预测–对不同的 PLM 进行了比较分析，旨在填补这一空白。首先，我们使用 15 种不同的 PLM 训练了一个前音预测模型。我们的研究结果表明，模型大小和质量之间存在对数关系，中性和表现性前音之间也存在显著的性能差异。其次，我们使用 PLM 进行停顿预测，发现这项任务对小模型的敏感度较低。我们还发现，我们的经验结果与这些语言模型获得的 GLUE 分数之间存在很强的相关性。据我们所知，这是首次研究不同 PLM 对 TTS 的影响。

18.Zero-shot information extraction from radiological reports using ChatGPT

标题:使用 ChatGPT 从放射学报告中提取零镜头信息

author:Danqing Hu, Bing Liu, Xiaofeng Zhu, Xudong Lu, Nan Wu

date Time:2023-09-04

paper pdf:http://arxiv.org/pdf/2309.01398v2

摘要：
电子健康记录包含大量有价值的信息，但其中许多都是以自由文本形式记录的。信息提取是将字符序列转化为结构化数据的策略，可用于二次分析。然而，命名实体识别和关系提取等传统信息提取组件需要注释数据来优化模型参数，这已成为构建信息提取系统的主要瓶颈之一。随着大型语言模型在各种下游 NLP 任务中无需调整参数就能取得良好表现，使用大型语言模型进行零点信息提取成为可能。在本研究中，我们旨在探索最流行的大型语言模型 ChatGPT 能否从放射报告中提取有用信息。我们首先针对 CT 报告中感兴趣的信息设计了提示模板。然后，我们将提示模板与 CT 报告结合起来生成提示，并将其作为 ChatGPT 的输入，从而得到回复。我们还开发了一个后处理模块，用于将回复转化为结构化提取结果。我们使用从北京大学肿瘤医院收集的 847 份 CT 报告进行了实验。实验结果表明，与基线信息提取系统相比，ChatGPT 在某些提取任务中的表现具有竞争力，但一些局限性需要进一步改进。

19.mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning

标题:mCL-NER：通过多视角对比学习进行跨语言命名实体识别

author:Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li

publish:9 pages, Accepted by AAAI 2024

date Time:2023-08-17

paper pdf:http://arxiv.org/pdf/2308.09073v2

摘要：
跨语言命名实体识别（CrossNER）面临的挑战是，由于多语言语料库（尤其是非英语数据）的匮乏，导致识别效果参差不齐。虽然之前的研究主要集中在数据驱动的转移方法上，但尚未充分探索的一个重要方面是如何在不同语言间统一语义和标记级表征。在本文中，我们提出了跨语言命名实体识别多视图对比学习（mCL-NER）。具体来说，我们将 CrossNER 任务重构为识别标记对之间关系的问题。这种方法利用了实体中标记对标记连接的固有上下文细微差别，使我们能够调整不同语言的表征。我们引入了多视角对比学习框架，以涵盖源句、代码转换句和目标句之间的语义对比，以及标记对标记关系之间的对比。通过在语义和关系空间内强制达成一致，我们最大限度地缩小了源句与代码转换句和目标句对应句之间的差距。这种一致性扩展到了不同标记之间的关系，从而增强了跨语言实体的投射能力。我们通过结合标注源数据和非标注目标数据进行自我训练，进一步增强了 CrossNER。我们在横跨 40 种语言的 XTREME 基准上进行的实验证明，mCL-NER 优于之前的数据驱动和基于模型的方法。它在广泛的范围内实现了近 +2.0 $F_1$ 分数的大幅提升，并确立了自己作为新的最先进方法的地位。

20.MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction

标题:MT4CrossOIE：跨语言开放信息提取的多级调整

author:Tongliang Li, Zixiang Wang, Linzheng Chai, Jian Yang, Jiaqi Bai, Yuwei Yin, Jiaheng Liu, Hongcheng Guo, Liqun Yang, Hebboul Zine el-abidine, Zhoujun Li

publish:10 pages

date Time:2023-08-12

paper pdf:http://arxiv.org/pdf/2308.06552v2

摘要：
跨语言开放式信息提取旨在从多种语言的原始文本中提取结构化信息。以前的工作使用共享的跨语言预训练模型来处理不同语言，但没有充分利用特定语言表示的潜力。在本文中，我们提出了一种名为 MT4CrossIE 的有效多阶段调整框架，旨在通过向共享模型注入特定语言知识来增强跨语言开放信息提取。具体来说，跨语言预训练模型首先在固定编码器的共享语义空间（如嵌入矩阵）中进行调整，然后在第二阶段优化其他组件。经过足够的训练后，我们会冻结预训练模型，并使用混合词法（mixed-of-LoRAs）调整多个额外的低等级语言特定模块，以实现基于模型的跨语言转移。此外，我们还利用两阶段提示来鼓励大语言模型（LLM）注释多语言原始数据，以实现基于数据的跨语言迁移。通过结合基于模型和基于数据的转移技术，该模型在我们提出的数据集 OpenIE4++ 上进行了多语言目标训练。各种基准的实验结果强调了聚合多个即插即用语言特定模块的重要性，并证明了 MT4CrossIE 在跨语言 OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}} 中的有效性。

21.Slot Induction via Pre-trained Language Model Probing and Multi-level Contrastive Learning

标题:通过预训练语言模型探测和多层次对比学习进行插槽诱导

author:Hoang H. Nguyen, Chenwei Zhang, Ye Liu, Philip S. Yu

publish:Accepted at SIGDIAL 2023

date Time:2023-08-09

paper pdf:http://arxiv.org/pdf/2308.04712v1

摘要：
任务导向对话（TOD）系统中自然语言理解的最新先进方法（如意图检测和插槽填充）需要大量的注释数据才能实现具有竞争力的性能。在现实中，标记级注释（槽标签）的获取既耗时又困难。在这项工作中，我们研究了插槽诱导（SI）任务，其目标是在不明确了解标记级插槽注释的情况下诱导出插槽边界。我们建议利用无监督预训练语言模型（PLM）探测和对比学习机制来利用（1）从 PLM 中提取的无监督语义知识，以及（2）从 TOD 中获得的额外句子级意图标签信号。在两个 NLU 基准数据集上，我们的方法被证明在 SI 任务中是有效的，并且能够缩小与标记级监督模型之间的差距。当推广到新兴意图时，我们的 SI 目标还提供了增强的插槽标签表示，从而提高了插槽填充任务的性能。

22.UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition

标题:UniversalNER：从大型语言模型中定向提炼，用于开放式命名实体识别

author:Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon

publish:Accepted at ICLR 2024. Project page: https://universal-ner.github.io/

date Time:2023-08-07

paper pdf:http://arxiv.org/pdf/2308.03279v2

摘要：
大型语言模型（LLMs）已显示出显著的通用性，例如可以理解任意实体和关系。事实证明，指令调整能有效地将 LLM 简化为更具成本效益的模型，如 Alpaca 和 Vicuna。然而，这些学生模型在下游应用中仍然远远落后于原始 LLM。在本文中，我们将探索有针对性的提炼，并以任务为中心进行指令调整，以训练出能在开放信息提取等广泛应用类别中表现出色的学生模型。以命名实体识别（NER）为案例，我们展示了如何将 ChatGPT 提炼为更小的 UniversalNER 模型，用于开放式 NER。为了进行评估，我们建立了迄今为止最大的 NER 基准，包括 43 个数据集，横跨生物医学、编程、社交媒体、法律、金融等 9 个不同领域。在不使用任何直接监督的情况下，UniversalNER 在数以万计的实体类型中实现了出色的 NER 准确性，平均超过 Alpaca 和 Vicuna 等通用指令调整模型 30 多个绝对 F1 点。只需极少量参数，UniversalNER 不仅就能获得 ChatGPT 识别任意实体类型的能力，而且其 NER 准确率平均比 ChatGPT 高出 7-9 个绝对 F1 点。值得注意的是，UniversalNER 甚至在很大程度上优于最先进的多任务指令调整系统，如使用监督 NER 示例的 InstructUIE。我们还进行了全面的消融研究，以评估蒸馏方法中各个组成部分的影响。我们发布了蒸馏配方、数据和 UniversalNER 模型，以促进未来有针对性的蒸馏研究。

23.Explaining Relation Classification Models with Semantic Extents

标题:用语义广度解释关系分类模型

author:Lars Klöser, Andre Büsgen, Philipp Kohl, Bodo Kraft, Albert Zündorf

publish:Accepted at DeLTA 2023: Deep Learning Theory and Applications
conference

date Time:2023-08-04

paper pdf:http://arxiv.org/pdf/2308.02193v1

摘要：
近年来，大型预训练语言模型（如 BERT 和 GPT）的开发极大地改进了各种任务的信息提取系统，包括关系分类。最先进的系统在科学基准上具有很高的准确性。目前，缺乏可解释性是许多实际应用中的一个复杂因素。为了防止出现有偏见、反直觉或有害的决策，可解释的系统是必不可少的。我们引入了语义外延这一概念，用于分析关系分类任务的决策模式。语义外延是文本中对分类决策影响最大的部分。通过我们的定义，可以采用类似的程序来确定人类和模型的语义范围。我们提供了一个注释工具和一个软件框架，可以方便地、可重复地确定人类和模型的语义范围。对两者进行比较后发现，模型倾向于从数据中学习快捷模式。目前的可解释性方法（如输入还原）很难检测到这些模式。我们的方法有助于在模型开发过程中发现并消除虚假的决策模式。语义外延可提高自然语言处理系统的可靠性和安全性。语义外延是实现医疗保健或金融等关键领域应用的重要一步。此外，我们的工作还为开发解释深度学习模型的方法开辟了新的研究方向。

24.Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER

标题:通过双向生成对齐学习隐含的实体-对象关系，实现多模态 NER

author:Feng Chen, Jiajia Liu, Kaixiang Ji, Wang Ren, Jian Wang, Jingdong Wang

date Time:2023-08-03

paper pdf:http://arxiv.org/pdf/2308.02570v1

摘要：
多模态命名实体识别（MNER）面临的挑战主要有两个方面：（1）弥合文本与图像之间的语义鸿沟；（2）将实体与图像中的相关对象进行匹配。由于缺乏相应的注释，现有方法无法捕捉隐含的实体-对象关系。本文提出了一种名为 BGA-MNER 的双向生成式配准方法来解决这些问题。我们的 BGA-MNER 包括针对两种模式下的实体-特征内容生成文本和文本。它共同优化了双向重构目标，从而在这种直接而强大的约束条件下调整了隐含的实体-对象关系。此外，图像-文本对通常包含不匹配的成分，这些成分对于生成是有噪声的。我们提出了一种阶段性精炼上下文采样器，用于提取匹配的跨模态内容进行生成。在两个基准上进行的广泛实验证明，我们的方法在推理过程中无需图像输入即可实现最先进的性能。