,

1 Named Entity Recognition

评估方法: 基于实体而非Token进行评估

1.1 Sequence Models for NER

  1. 编码方式:IO编码和IOB编码
  2. 特征工程
    1. 单词
      • current word
      • 上下文单词
    2. 语言学分类特征
      • 词性标注
    3. 单词内部与正字法特征
      • 前缀和后缀
      • 单词形状等
  3. 标签的上下文特征

1.1.1 HMMs

  • 生成式模型,最大化$P(X,Y)$
  • 假设特征是独立的
  • 优点:速度极快;缺点:仅具备局部归一化能力

1.1.2 CRFs

  • 判别式模型,也是 Stanford NER 使用的模型
  • 不假设特征是独立的
  • 优点:全局归一化,准确率通常更高;缺点:训练慢

2 Relation Extraction

识别出实体后,识别实体之间的语义关系,用来构建和扩充知识图谱,也可支持复杂的问答系统。

关系数据库标准

  1. ACE(Automated Content Extraction):定义了17种关系类型
  2. UMLS:生物学领域的统一语言系统
  3. WordNet:本体关系,如(IS-A上下位关系,Instance of 实例关系)

2.1 抽取方法

A. 手写模式(Hand-written patterns)

  • 利用固定句式提取关系(例如IS-A)
  • 优缺点:高精确度,低召回率,且费时费力

B. 监督学习(Supervised Machine Learning)

  • 流程
    1. 找出句子中的所有实体对
    2. 判断二者是否存在关系(二分类问题)
    3. 如果存在,分类具体关系类型
  • 特征
    • 词特征:中心词,实体间的词袋/二元组
    • 实体特征:实体类型、实体层级
    • 句法特征:句法块序列、句法树路径、依存路径
  • 分类器:MaxEnt, Naive Bayes,SVM

C. 神经关系抽取(Neural RE)

  • 使用CNN等深度学习网络
  • 引入位置潜入:编码词语距离实体1和实体2之间的相对距离
  • 使用Max pooling 自动提取特征

优缺点

优点: 只要有足够的高质量手工标注数据,且测试集与训练集领域相似,就能获得极高的准确率

缺点:成本高,跨领域泛化能力不足

3 Event Extraction

事件抽取是一个更具挑战性的任务,目的是识别文档中发生的事件及其详细信息。

事件的结构

  • 事件触发词(Event Trigger):最能表达清楚事件发生的词
  • 事件论元(Event Argument):参与事件的实体、事件或数值
  • 论元角色(Argument Role):论元再事件中扮演的角色(攻击者、受害者、工具等)

3.1 Basic Idea

  • Stage I
    • Trigger Detection
    • Event type identification
  • Stage II
    • Argument detection
    • Argument role identification

3.2 PipeLine

根据Basic Idea 进行多阶段任务

3.3 Machine Reading Comprehension

  • 背景:传统分类方法面临数据稀缺问题
  • 新思路:将事件转化为问答任务
    • 抽取触发词:向模型提问
    • 抽取论元:根据事件类型和角色生成问题,让模型从文本中寻找答案
    • 利用样式迁移生成自然的问题以提高效果