欢迎来到手机上的老虎机!网站地图  |  XML地图

一种新闻稿件主题分类及审核方法与流程

更新时间:2020-07-21 04:52
 

  本发明属于人工智能和大数据应用领域,涉及一种新闻稿件主题分类及审核方法。

  在人工智能和大数据技术驱动下,为加快适应传统媒体和新兴媒体融合发展的需求,媒体行业急需开展前沿技术嵌入,积极运用人工智能和大数据技术进行媒体内容品质创新、采编流程重构。传统方式的新闻稿件审核完全依靠人工处理,采用人工智能和大数据技术对新闻稿件进行智能化审核,是媒体行业的发展趋势。

  S2:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;

  S3:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;

  S4:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;

  S5:基于步骤S3和S4的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;

  S6:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。

  步骤S1中构建的LDA主题模型可以不定期重新建立,不需要每次新闻稿件审核时都进行重建。LDA主题模型重新建立后,步骤S2中的可发布主题需要根据新建立的LDA主题模型输出的主题表述进行重新设置。

  进一步,在步骤S2中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。

  进一步,在步骤S2中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。

  进一步,在步骤S2中,可发布主题根据步骤S1所构建的LDA主题模型输出的主题表述进行设置。

  进一步,步骤S1中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。

  进一步,步骤S3中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。

  进一步,在步骤S5中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:

  a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;

  b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;

  本发明的有益效果在于:通过本发明的新闻稿件主题分类及审核方法,自动得到审核结果(是否通过),可用来作为新闻稿件预审核手段,减轻审核人员的工作量,提高工作效率;概率最大的前三个主题及其概率可提供待审稿件的总体判别,如果不符合当前新闻版块的主题要求,审稿人员可据此将该稿件推荐到其他相应的新闻版块,或者将此信息反馈给投稿人员;敏感词分析结果可用于规避新闻稿件发布后的负面社会影响。

  为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

  200:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;

  300:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;

  400:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;

  500:基于步骤300和400的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;

  600:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。

  步骤100中构建的LDA主题模型可以不定期重新建立,不需要每次新闻稿件审核时都进行重建。LDA主题模型重新建立后,步骤200中的可发布主题需要根据新建立的LDA主题模型输出的主题表述进行重新设置。

  设置可发布主题时,根据步骤100中所构建的LDA主题模型输出的主题表述进行设置,假如,在模型中“财经”主题表示为(股票,0.3;期货,0.2;基金,0.3),则将“财经”设置为可发布主题时按照该表述进行同样的设置。

  可选地,在步骤200中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。

  可选地,在步骤200中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。

  可选地,在步骤200中,可发布主题根据步骤100所构建的LDA主题模型输出的主题表述进行设置。

  可选地,步骤100中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。

  可选地,步骤300中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。

  可选地,在步骤500中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:

  a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;

  b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;

  作为替代方案,可以为每个敏感词设置一个命中次数阈值,审核时要求每个敏感词的命中次数不超过其对应的次数阈值。

  最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

 网站地图