<tt id="tubib"><noscript id="tubib"></noscript></tt>

    1. <wbr id="tubib"><menu id="tubib"></menu></wbr>

    2. <track id="tubib"><menu id="tubib"></menu></track>
        您的位置:首頁 > 科研經驗 > Crosscheck查重原理及算法
        科研經驗

        Crosscheck查重原理及算法

        作者:admin 來源:未知 日期:2020-06-27 21:57:41 人氣: 標簽:
        導讀:crosscheck(CrossCheckiThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過3…
        crosscheck(CrossCheck iThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。后果還是很嚴重的。那crosscheck到底是如何進行判定的呢?
        網上很多關于這些規則的說法,大部分是說連續六個單詞即判定重復,或者根據語言風格相似即判定重復。這些說法不夠準確,也沒有依據。
        一篇被crosscheck處理的文章,這個軟件第一步應該做的是進行文本的格式化。說來也很合理。因為一篇文章中,除了單詞以外,還有大量的符號(標點符號,數學符號及特殊符號等)。這些并不是crosscheck查重的對象,所以會把他們處理掉。這些符號會通通被替換為空格。
        其實,crosscheck查重的基本規則只有一條:不連續的六個單詞中間連續不重復的單詞小于四個(不包括四個)即判定這六個單詞重復(注意:這里的規則是軟件系統默認的規則,大部分期刊使用默認規則)。

        所有的查重結果都是基于這條進行的。這句話比較繞口。具體怎么理解,我們來看下具體的實例。

        先分析最極端也是最直白的重復。不連續的六個單詞中間不重復的單詞為0個,即六個連續重復的單詞。顯然這個肯定是會被判定重復了。下面我用1表示重復的單詞,0表示不重復的單詞。那么這種情況就是:111111。

        再分析中間有不重復單詞的情況。這點大家很多情況摸不著頭腦,有時候幾個單詞距離的很遠,也被判定重復了,很是苦惱。

        1)中間只有一個不重復的。例如:1011111;1101111;1111011等。
        實例:Computer science has been widely considered as ...(斜體表示和已有文獻重復)
        這里面單純插入一個widely單詞,是不足以騙過系統的。

        2)中間有兩個重復的。例如:1100110011;110010011001;1100110011等。
        實例1:Computer science has been widely percieved asan...
        這里替換兩個不重復單詞widely percieved,但是Computer, science, has, been, as, an已經是六個不連續的重復了。
        實例2:Computer science and technology has been widely percieved as an...
        在Computer science后面加上兩個不重復的單詞and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an這六個詞中間只有兩個是不重復的,不能判定為整句不重復。

        3)中間有三個不重復的。這個一眼乍看不覺得重復,但其實是重復了。例如:100010001111;100010001000100010001等。
        100010001000100010001這種情況是不是很刺激。對!按照規則,這個也算重復。因為六個不連續重復的單詞直接是三個重復的。
        實例1:Computer science, resulting from America, has been widely percieved as an...
        這種形式是11000110011模式,依舊是重復的。
        實例2:Computer science, resulting from America, has been widely percieved as one of most promising....
        好,我們把改成one of most。雖然這三個沒有重復,但緊接著后面的promising和已有文獻重復了,很不幸,整個句子還是重復了。重復形式為11000110010001。

        上面分析的是單純的單詞,不涉及符號和數字。大家的論文很多情況包含各種單位符合和數學符號的,系統該如何處理他們?
        1)單純的數字。比如123,25,1998等這些整數,他們都是連續的,中間沒有空格和特殊符號,系統不會進行處理,還會保持原來形式。算一個單詞。
        實例1:Computer science, developed from 1930, has been widely percieved as an..
        這句話是11000110011的重復,這里的1930算一個單詞。
        對于小數要特別注意,因為小數點系統處理后會被空格代替,所以小數是會被看作兩個單詞的。如1.23,在系統里面會看作1和23兩個單詞。
        實例2:Computer science, developed from 1,930, has been widely percieved as an.. 還是這句話,這里的1,930多加個了分隔符,就變成兩個單詞。所以句子中間就有四個連續不重復的單詞,整個句子就是不重復的(即developed, from, 1和930四個)。

        2)連接符。不少單詞或者專業詞匯會用連接符號連起來,系統會自動把連接符號替換成空格。所以被看作兩個單詞。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。

        3)科學單位。文章中難免會有g cm-3這個的有上標或者下標的單位。軟件系統其實不會識別上下標。直接按照正常大小處理,再替換特殊符號為空格,所以g cm-3算三個單詞。

        4)包括符號的專有名詞縮寫。比如化學中Ag包覆Au再包覆一層C。作者可能會縮寫成Ag@Au/C。這個經過系統處理后,其實是三個單詞的Ag,Au和C。所以有時候會發現系統把這類詞分開匹配查重。
        實例:The synthesized Ag@Au/Cnanoparticles exhibited good activities.
        可能會遇到這種重復,這里Ag@Au/C 算作三個單詞,所以是101011101重復類型。

        5)跨段落重復。有時候系統的重復可能不在于特定的一段,還會跨段落,因為在軟件眼里,整個文章就是一連串單詞被空格分割,不存在段落之分。
        實例:
        4. Experimental and methods
        4.1. Synthesis of ...
        這個是典型的文章中方法部分。這里猜猜系統判定重復的元素是幾個?嗯,8個。去掉點號,就是4, Experimental, and, methods, 4, 1, Synthesis, of 這8個單詞。

        6)總結起來,系統處理的特殊符號包括:標點符號;數學符號;特殊符號等一切非數字的符號。
        以上就是crosscheck查重的基本規則;灸依舜蠹矣龅降那闆r。了解了這些規則,修改起來就方便了。再舉幾個例子。

        Computer science, resulting from America, has been widely percieved as one of most promising....
        這句話是11000110010001重復,最簡單的修改就是把不重復的單詞提高到4個不連續。比如修改成110000110010001就不會被系統判斷重復了。
        修改為:Computer science, which results from America, has been widely percieved as one of most promising....
        這種是沒有問題的。
        單復數改變。從系統原理可知,單復數是不同的單詞,故可以達到避免重復的目的。
        The Au nanoparticleexhibited good catalytical activities and ...
        這里是10110111重復,剛好六個,那我們把nanoparticle變為復數nanoparticles變成五個了,不算重復。不過要注意的是修改之后,自己再想想會不會還和別人有重合,畢竟crosscheck系統的對比樣本實在是太豐富了。
        同義詞替換。這一招依舊是非常有效的方法。但是不能單純的使用,一定要結合整個句子來。
        句子單詞顛倒。不錯的辦法。還是那句話,注意句子的整體結構。
        亚洲AV无码专区亚洲AV
        <tt id="tubib"><noscript id="tubib"></noscript></tt>

          1. <wbr id="tubib"><menu id="tubib"></menu></wbr>

          2. <track id="tubib"><menu id="tubib"></menu></track>