在信息碎片化的时代,如何做到短、平、快成为当下众多新媒体需要掌握的重要本领之一。新闻创作者往往需要高频、精准的进行信息收集、撰写和发布,特别是随着元宇宙概念的兴起,虚拟场景中热点事件的报道更是增加了新闻创作者的工作量。
为帮助新闻创作者更快、更准捕捉到新闻信息,马上消费金融股份有限公司(下称“马上消费”)举办的2022届“天马杯”全国高校科技创新大赛,聚焦NLP赛道,开设了“数字人播报资讯内容生成”赛题,以实现资讯内容自动生成。
据悉,资讯内容自动生成属于深度学习领域的端到端生成式任务,在给定新闻主题、新闻时间、新闻人物等要素的前提下自动生成一篇完整的新闻。不同于机器翻译和文本摘要(给定1篇长文输出摘要信息)任务,资讯内容自动生成需要在给定信息的前提下进行内容扩写,这需要智能机器人有一定的知识储备,并能够在特定的环境和场景中使用合适的语言进行陈述。
目前市场上的撰稿机器人多数是基于模板的方式进行新闻创作,或是对已发布新闻重组和改写。虽然内容流畅、可读性高,但并不是原创,而且如果严格按照模板来引导模型还会导致生成内容单调、多样性差的问题,与人工撰稿有着很大差距。
马上消费设置“数字人播报资讯内容生成”赛题的目的就是为了解决以上问题,同时不断挖掘和探讨如何将撰稿人的行文逻辑、文风等引入模型的生成风格当中。也就是说,“天马杯”大赛的参赛者需要掌握深度学习算法、机器学习算法,且对NLP中的文本生成任务(seq2seq)、预训练模型(Bert、GPT、BART等)有一定的了解。
随着核心技术愈加成熟,元宇宙也逐渐从概念走向台前。《“十四五”数字经济发展规划》也强调,我国将“深化虚拟现实、人工智能、8K高清视频等技术的融合,拓展社交、购物、娱乐及展览等领域的应用,支持实体消费场所建设数字化消费新场景,推广虚实交互体验等应用”。
作为一家科技驱动型金融机构,马上消费早在2017年就专门成立了人工智能研究院,在资讯内容生成方面也做出了很多探索性的工作,包括基于模板的资讯内容生成,如何根据历史新闻数据实现模板的自动化归纳;基于模型的生成式新闻,如何根据提示信息来控制新闻生成的主题方向、内容质量;通过模板与模型相结合的方式进行优势互补等,经多次实验,已初步形成了一套自动撰稿的流程方案。
且根据实验发现,从模型训练到新闻的生成与发布都体现了历史新闻的重要性,天马杯“数字人播报资讯内容生成”将为新闻的生成规律、陈述方式、写作模板、写作文风等提供更多可能。