KBQA中的一些问题

QA知识来源:结构化知识(KB)、半结构化知识、非结构化知识、文本摘要、机器翻译

这里的KB主要有:Freebase,DBPedia,Yago 等现有知识库

知识库KB:RDF + SPARQL,问题—在高异质性的KB中写SPARQL语句很困难

KBQA : 由于缩写、同义词、数学换算等可能导致失配 —> 同义转换 —> 用CRF 计算候选匹配排名 —> 有反馈的特定排名(要与用户交互,实现困难)

统计方法和神经学习方法的主要区别:

  • 统计:人工设计规则和特征;从数据中学习权重
  • 神经:特征和权重都是从数据中学习来的,需要极大的训练数据集

同义问题转换:从原始问句中抽象出实体(基于主题实体和上下文寻找抽象),将含抽象实体的问题通过重排转为已有问题模板。通过问题类型接口(基于Bi-LSTM)获取答案。

答案的扩展:给出直接和相关答案。 —> 深拷贝?(这里没看懂)

冷启动问题:众包…(告辞)

QA进化:生成富多样性的问题集,依旧需要众包干预

总结:这篇论文讲的主要是在已有的知识库查询中,如何提高自然语句转为SQL语句准确率,由于我们并不打算在项目中用SQL语句,故不对实现做深入了解。后面还有根据问题对相应网页进行操作如填写表单,这种高级内容就不看了吧…也许以后的百度音箱能实现…

思考:也许需要重新审视一下端到端这个概念了,真正含义是给出一个复杂的包含各种条件约束的自然语句问题,直接给出确切答案。那么很显然传统的语句查询无法同时处理这么多的条件,而在KB中我们可以沿着关系用一种传递的方式去查询,那么问题来了,如果确定关系约束的先后顺序,不至于由于顺序错误中断查询过程,似乎是一个难度较大的问题。所以,我们的项目只能尽量简化问题了…

值得进一步学习:Bi -LSTM模型, CRF模型

本文内容学习自:CCKS19_ATT_XifengYan