您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
今日头条是怎么去辨别你的文章是原创还是伪原创的?
头条,内容,文章今日头条是怎么去辨别你的文章是原创还是伪原创的?
发布时间:2020-12-06加入收藏来源:互联网点击:
今日头条是怎么去辨别你的文章是原创还是伪原创的?
回答于 2019-09-11 08:43:50
回答于 2019-09-11 08:43:50
我觉得辨别原创和非原创方法非常简单。将抄袭者(骗子)任意一个帖子拿去百度一下,网站立马就会给出正确答案,会显示抄袭者文章来自哪里?来自哪个网站。无论骗子手段伎俩多高明,她有可能是断章取义,将原创者文章或者诗歌打乱,分段抄袭,然后敲一下回车键,就变成了骗子伪装的假文章,来蹭粉,蹭热度,骗粉丝信任和善良。
本身抄袭者(骗子)无才无德,文化肤浅,胸无半点墨水,她更不会懂得互联网大数据时代,行骗是有风险的,要使人不知,除非己莫为。骗子连这基本社会常识都不知道,足矣看得出是个脑残。
所以,做人堂堂正正,光明磊落,真实很好,不会被人笑话,而且活得也有骨气和尊严。抄袭者(骗子)像过街老鼠,人人喊打。活得卑微,永远没有出头之日。
回答于 2019-09-11 08:43:50
关于这个问题,论文狗有经验。这个世界上存在一种名为查重系统的东西,经常写论文的朋友们对它可以说是深恶痛绝。它可以在全网范围内查重,只要连续几个字和别人的文章重复了,那么恭喜你,你就被盯上了,认定为抄袭非原创。
今日头条的查重系统,我猜测可能与其类似,区别只在于认定抄袭非原创的条件不一样。比如说论文不能超过10%的重复率,不能连续超过7个字与其它论文中一样,今日头条可能是20%或者其它比例。这个在程序上完全可以更改设定,十分方便也十分可恶。
为什么?因为代码毕竟不是人,偶尔有重复,也可能是因为某个概念或者定义与网上的重复了啊哈哈……认倒霉吧。解决这个问题的办法也很简单,那就是尽量用通俗易懂自己的话来给读者描述一遍该定义,或者换词调顺序。论文狗必然熟悉这个操作,为了应付国内的查重系统,这个属于必备的生存技能。
以上知识举个栗子,外加猜测,如果其它朋友有其它猜测,欢迎评论大家一起共同探讨。
回答于 2019-09-11 08:43:50
首先要明确什么叫原创和非原创的界限。
原创:按传统出版行业行规,长篇文章,在内容核心有独创性,文字表述上,引用他人内容的比例不超过30%,也就是说,70%的内容得是自己写的,这是判断原创的前提,否则有可能被判定为抄袭。
非原创:主要内容直接使用他人的内容,内容核心没用独创性,东拼西凑。
如何判断原创与非原创?
在没用人工智能的机器判断之前,判断方式有两种,一是人工判断,限于判断者的记忆和经验,多见于比较专业的领域,判断者多为该领域专家,可利用行业资源协同判断。这种判断方式过于依赖人员的个人知识储备,比较片面,遗漏率比较高。二是互联网出现后的网络查重,原理比较简单,摘取内容中的片段(一句话,衣一个段落等),在互联网检索查询,如果跟互联网已有内容重合度比较高的,可能判断为非原创。这种判断机制的缺陷在于简单粗暴,对摘取检索的内容的依赖度高,容易出现误判。
头条的内容原创判断机制。
在目前大数据和人工智能自然语言深度学习技术两项热门技术的基础上,实现机器自动判断。
具体的算法不变探知,技术原理比较开源:一是大数据,即判断内容是否在互联网存在过的对比数据,除头条自己储备的数据外,主要是对比公网的开放数据,可以理解为头条要做一次类似内外部数据之间的“百度”搜索查重。
二是内容指纹构建。大家都知道每个人的指纹是不同的,有独特性的,一篇文章、一本书也存在独特性,将其中的独特性记录下来,这就是内容指纹构建。实现这一目标,依赖于自然语言技术的成熟,机器会对内容中的关键字词先做拆分处理,再通过前后调换顺序等多种组合(可以理解为算法模型),让机器理解有效的组合,再与其他内容对比。
这种技术的原创判断准确度会高一些,但自然语言处理技术是人工智能领域难度最大的,头条的技术并非无懈可击,也有很多疏漏,存在较大的优化空间。
回答于 2019-09-11 08:43:50
这个问题可以进一步抽象一下,就是判断给定的一段文字序列和系统数据库中已有文字序列的相似度。大体可以从如下几个步骤去处理:
1.使用机器学习算法对系统中海量数据(文章)进行训练,得到分词模型,并且持续的完善此模型。
2.对新发表的文章使用分词模型进行分词,得到这篇文章特有的特征集合。
3.计算新文章特征集合与系统已有文章的相似度。
4.设置相似度阈值,如果超过该阈值就认为不是原创。
其中需要大数据和人工智能的很多专业知识,而且也需要历史数据的支持,不过基本原理和论文查重是类似的。
回答于 2019-09-11 08:43:50
上一篇:调砂以后还是真的紫砂吗?
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |