1023日,微软亚洲研究院首席研究员、研究经理和知识计算组主任林钦佑到访极悦注册,做题为“数据到文本——从结构化数据中自动生成文本”(Data2Text Automatic Text Generation from Structured Data)的分享报告。报告由模式识别国家重点实验室赵军研究员主持。 

      报告围绕“结构化数据自动生成文本”这一主题进行。报告介绍说,以购物网站产品结构化数据的文本描述为例,统计发现,目前11%的产品只有结构化数据,没有描述信息,现有的描述信息50%不足30个词,难以得到产品的详细信息。报告将“数据到文本”的应用场景扩展到篮球赛况播报、会议概况、chatbot(聊天机器人)的结构化数据生成文本,从统计数据和应用场景说明这一主题的重要性。 

      在报告中,林钦佑研究员比较了“数据到文本”两种技术手段:生成模型和模板方法。报告指出,生成模型语言流畅度,不能保证正确性;而模板方法能同时保证准确性和流利度,并且限定领域的模板容易获取,广泛用于工业产品。报告重点介绍了这一任务的四个重大挑战:知识(knowledge)、多样化(variety)、视野(insight)、情境(contextual),并详细解释了这四个挑战的具体内容,并提供了可能的解决方案。报告介绍了其团队研发的“Data2Text Service”,从“说什么”到“怎么说”两个角度,讲解了属性排序、模板选择、属性依赖、知识写入等步骤。 

      最后,报告还介绍了“数据到文本”任务的评价,重点分析了现有评价标准的缺陷,并期望提出自动、有效的评价指标。 

       

       

     

     

    附件: