專利信息統(tǒng)計統(tǒng)計公布檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索檢索
#本文僅代表作者觀點,不代表IPRdaily立場,未經作者許可,禁止轉載#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:陳曉磊 上海連尚網(wǎng)絡科技有限公司專利研究員 上海市專利管理工程師
原標題:談當前語義檢索的優(yōu)勢與局限
當前的語義檢索根據(jù)對比文件與本申請之間的要素重合度,來評估兩者整體的相似度,并不能真正理解專利技術的核心和技術組合要義。但語義檢索依托其對要素表達的語義擴展和建立關聯(lián)特征潛在的內在關系,可一次找出多篇相似的對比文件,相對于傳統(tǒng)檢索的特色和優(yōu)勢也是顯而易見的。本文對語義檢索結果進行了進一步的研究分析,探尋當前語義檢索的優(yōu)勢與局限,希望能提供另一個角度的觀點和參考建議。
2017年的專利信息年會(如今的知識產權年會)上,曾有國外的演講者說:現(xiàn)在人工智能技術已經便宜到專利圈也用得起了。然而多年過去了,專利圈談到“智能”能讓人有印象的似乎仍然只有起源于上個世紀90年代美國的語義檢索。由于語義檢索遠遠未達到強人工智能的程度,其基于相似性檢索無法真正理解專利技術的核心和技術組合要義,因此,用戶對“人工智能”的期望與實際檢索應用時的落差就催生了文章《由當前智能語義檢索的不足思考專利檢索的特質》【1】中的疑問:“在人工智能機器‘阿爾法狗’(AlphaGo)已經能夠擊敗圍棋頂級高手的時代,為什么智能語義檢索還不及一名初級審查員的檢索水平?”
本文以文章《由當前智能語義檢索的不足思考專利檢索的特質》中的案例為例,對語義檢索結果進行了進一步的研究分析,探尋當前語義檢索的優(yōu)勢與局限,希望能提供另一個角度的觀點和參考建議。
需要說明的是,專利檢索是一項復雜的工作,尤其是Y類文獻的選擇,專業(yè)檢索員的不可代替性顯著,而語義檢索可以在一定程度上輔助專業(yè)檢索員,提升工作效能。與此同時,語義檢索對廣大企業(yè)IPR來說,在檢索能力、數(shù)據(jù)庫資源與專業(yè)檢索員存在一定差距的情況下,可以通過語義檢索工具來縮小上述差距,從而更好地提升企業(yè)專利創(chuàng)新度。
一、語義檢索結果大有乾坤
案例:一種養(yǎng)豬用料槽(201710070290.0)中,原文主要焦點在于語義檢索所推薦的最接近的現(xiàn)有技術(推送的相關度最高的第一個檢索結果)與人工檢索到的最接近的現(xiàn)有技術相差較遠,無法作為對比文件使用。
與權利要求1相關的主要特征是:下料桶(1)沿長度方向的內壁垂直設有擋板(4)以及與所述擋板相適應的滑槽,所述擋板(4)可沿所述下料桶內壁在所述滑槽內滑動,所述擋板與所述出料口(3)同側,所述擋板側壁與所述下料桶頂部接觸處設有夾緊件(10)。
其帶來的主要有益效果是同設置可沿下料桶側壁滑動的擋板,間接的調節(jié)出料口的開口大小,實現(xiàn)出料可控制功能。
人工檢索到的最接近現(xiàn)有技術(對比文件1)是一種多孔料槽(CN20505248U),公開了可沿滑槽上下移動的擋板3及相關定位銷軸,但擋板的定位方式與本申請不同。而通過S系統(tǒng)智能輔助檢索,Patentics智能語義檢索所得的最接近的現(xiàn)有技術雖然領域相同,但都沒有涉及本案核心技術特征和技術效果,無法用于單篇或多篇組合否定權利要求1的創(chuàng)造性。
在原文中,作者僅對語義檢索推薦的最相關的一件專利進行了對比,得出了三個結論。經過筆者對智能檢索結果進行進一步的研究和分析后,對三個結論進行以下補充。
本次分析采用的語義檢索系統(tǒng)是Patentics(以下簡稱P系統(tǒng))和HimmPat(以下簡稱H系統(tǒng))兩個語義檢索系統(tǒng),兩者在官方網(wǎng)站上都公布過相近的語義檢索精度測試結果,從大數(shù)據(jù)統(tǒng)計測試的角度評價,基本可以代表當前的語義檢索技術水平。
使用本案的專利號碼進行語義檢索,雖然推薦的最相關的專利并不能作為對比文件,但如果繼續(xù)往后看,在大多數(shù)檢索員可承受的前300個檢索結果的瀏覽中,發(fā)現(xiàn)了以下專利。各專利號碼、附圖與相關描述如下:
CN201905118U 新型豬用雙面自動采食槽 | CN204104481U 羊飼喂裝置 |
|
|
所述流量調節(jié)板4頂端中部與流量調節(jié)桿5固定,流量調節(jié)桿5通過其上的條形孔7與料箱2側壁螺栓連接,通過在條形孔7內上或下移動螺栓6帶動流量調節(jié)桿5及流量調節(jié)板4升或降。便于調節(jié)下料量。 | 槽形的料斗(2)內縱向設有投料控制板(3),投料控制板(3)下部與料斗(2)邊沿之間設有下料縫隙,投料控制板(3)為一活動的板,所述活動的板設置于由一組限位件(31)構成的通道中,本實施例中限位件(31)由投料控制板(3)兩側的桿件構成上下的通道,所述的桿件上還可設置固定裝置(32)以固定投料控制板(3),固定裝置(32)為固定螺栓,通過該活動的板可以控制投料控制板(3)下部與料斗(2)邊沿之間設有下料縫隙大小,以控制下料量,還可以定時關閉或打開 |
CN205389902U 一種養(yǎng)豬用飼料槽 | CN205658176U 一種喂養(yǎng)食槽 |
|
|
養(yǎng)豬用飼料槽還設有放料調節(jié)桿4,放料調節(jié)桿4的一端設有控制開關組件3;另一端放置在分隔板5底端;控制開關組件包括與放料調節(jié)桿的橫軸桿3-1,橫軸桿3-1的左端設有突出軸3-2與設置在飼料主槽上的定位孔3-3;橫軸桿3-1的中部與放料調節(jié)桿4活動連接。 | 料箱框架上裝有調整整塊擋板高度的高度調整裝置,上述高度調整裝置包括螺接在在料箱框架上的調整桿5,調整桿5的底部固接在整塊擋板上,調整桿5上螺接有將其固定在料箱框架上的壓緊螺母6,本實施例使用時,將飼料自進料口投入到料箱1中,通過上述調整桿5的提拉或推下,可以調整整塊擋板的高度位置,從而調整出料口3的大小。 |
以下是兩個檢索系統(tǒng)對四件相關專利相關度的評價和相關專利在檢索結果中所在的位置。
最高相關度 | 相似專利 | CN201905118U | CN204104481U | CN205389902U | CN205658176U |
92% | P系統(tǒng) | 87% | 86% | 87% | 88% |
95% | H系統(tǒng) | 90% | 90% | 91% | 90% |
對比文件位置 | P系統(tǒng) | 193 | 286 | >400 | 94 |
H系統(tǒng) | 250 | 182 | 103 | 233 |
從智能檢索結果靠前位置獲得的以上4篇專利與人工檢索的對比文件1一樣,同樣公開了本案權利要求1的核心特征:設置擋板調節(jié)出料口開口大小,實現(xiàn)出料可控制功能,可用于結合評價權利要求1的創(chuàng)造性。四篇專利中,與權利要求1中的“擋板”對應的分別是“調節(jié)板”、“控制板”、“活動板”和“擋板”,可見,正如原文所述,語義檢索確實根據(jù)了對比文件與本申請之間的要素重合度,來評估兩者整體的相似度。而更進一步的是,其對要素的表達也進行了語義擴展。同時,四件專利中基本都包括了控制“擋板”高度的調節(jié)固定裝置,以及對“擋板”作用“調節(jié)出料口大小”的文字描述。這與本案對“擋板”配件以及“擋板”作用的描述也形成了重合度。也就是說即使不是“擋板”本身的技術特征,由于在此場景中,配件和作用效果描述等已經與“擋板”形成了特定情形下的綁定關系,因此,即使名稱不叫“擋板”,關聯(lián)特征的重合度也會間接拉近兩篇專利之間的相關度。依靠這些語義擴展和潛在的內在關系,使得語義檢索可以一次找出多篇相似的對比文件,而這在傳統(tǒng)檢索中是很難做到的。
二、當前語義檢索的優(yōu)化模式
然而,語義檢索始終不能理解發(fā)明本身,就像原文中提到的第三點:本案聲稱所要解決的技術問題、撰寫的權利要求方案,和聲稱所能實現(xiàn)的有益效果方面,三者之間多有出入。導致對于把握主旨、提煉要素產生較大的困擾。對此,兩個語義檢索系統(tǒng)也分別提出了自己的優(yōu)化模式。
1、多重語義檢索模式
H系統(tǒng)提出了多重語義檢索,也就是在使用號碼進行語義檢索的基礎上,繼續(xù)添加與核心發(fā)明內容相關的文字描述,增加核心發(fā)明內容的權重,可以讓檢索結果更偏向于核心發(fā)明內容。例如,本案的核心是調節(jié)出料口大小,因此,可以將關鍵詞“調節(jié)”作為第二重語義檢索條件繼續(xù)加入語義檢索中進行檢索。在檢索結果前100件專利中,就發(fā)現(xiàn)了如下7件新的相似的專利文獻。由此可見,加入人工挑選的核心發(fā)明點的多重語義檢索確實能起到積極的作用。
CN203226150U 一種可調節(jié)式雙面料箱 | CN206260530U 一種移動可調禽類飼喂裝置 |
|
|
如需改變進食槽3的進料量,通過調整調節(jié)板6就可以隨時實現(xiàn)。如果將調節(jié)板6向上提起,進料量就增加,如果將調節(jié)板6向下調整,進料量就減少 | 調節(jié)旋桿2可旋轉控制調節(jié)板3與槽體1底部內壁的閉合或打開狀態(tài),需要從槽體1中放出飼料時,旋轉調節(jié)旋桿2,調節(jié)板3下端被調節(jié)旋桿2提升,調節(jié)板3與槽體1底部內壁處于不接觸狀態(tài),使飼料通過開口落入料槽4,反方向旋轉調節(jié)旋桿2,調節(jié)板3與槽體1底部內壁閉合 |
CN203692150U 豬用食槽裝置 | CN204132148U 飼喂量可調的食槽裝置及其流量調節(jié)機構 |
|
|
流量調節(jié)板12設于料箱11底部的出料口處并且與流量調節(jié)桿13的下端連接,當旋動旋柄16時,其可通過流量調節(jié)桿13帶動流量調節(jié)板12活動,從而調節(jié)料箱11出料口的大小,進而實現(xiàn)對下料流量的調節(jié)。 | 當需要調節(jié)飼料的流量時,僅需拔出調節(jié)銷軸21然后轉動旋柄18,旋柄18在旋轉的同時將會通過過渡板20帶動流量調節(jié)桿14,流量調節(jié)桿14的活動將直接帶動流量調節(jié)板13上下活動,從而實現(xiàn)對飼料流量的調節(jié),調節(jié)到位后,將調節(jié)銷軸21插入至相應的調節(jié)孔中即可鎖定。 |
CN201667894U 哺乳豬自動食槽 | CN202773683U 一種動物飼料槽 |
|
|
流量調節(jié)板4通過頂端具有滑槽11的流量調節(jié)桿5和螺栓6固定在料箱2壁上,螺栓6穿過流量調節(jié)桿5上的滑槽11。通過調節(jié)螺栓6與滑槽11的位置來實現(xiàn)調節(jié)板4的上下移動,從而實現(xiàn)對進料量的控制。 | 擋板1d在飼料儲槽1的側板一1b表面滑動實現(xiàn)聯(lián)通通道3大小的調節(jié)??梢酝ㄟ^在側板一1b兩端設置滑槽等結構實現(xiàn)擋板1d的上下滑動,上下滑動的擋板1d可以根據(jù)動物進食需要調節(jié)聯(lián)通通道3的大小 |
CN203072607U 喂料器 | |
| |
下料控制開關2控制下料調節(jié)器5,調節(jié)器5控制儲料器1底部下料口的開口大小,飼料下溜量經過下料口受到控制 |
2、語義檢索人工干預模式
另一個方向的解決方案則是P系統(tǒng)提出的人工干預方案,將布爾檢索與語義檢索配合使用,使用布爾檢索排除噪音,同時使用語義檢索對布爾檢索結果進行排序,充分利用兩種檢索方式的優(yōu)勢。例如,在語義檢索基礎上,將本案的核心關鍵詞可以將關鍵詞“調節(jié) or 可調”加入布爾檢索條件。在檢索結果前100件專利中,也發(fā)現(xiàn)了如下4件原有的相似專利文獻,且出現(xiàn)的位置都有提前。由此可見,加入核心關鍵詞進行布爾檢索限定,也確實能起到積極的作用。
三、當前語義檢索的局限
從以上檢索結果來看,通過語義檢索和其優(yōu)化檢索模式,可以獲得更多的11件有效的對比文件1,從相關對比文件獲取的數(shù)量上,當前的語義檢索已經顯示出其相對于傳統(tǒng)檢索的特色和優(yōu)勢,多重語義以及人工干預等優(yōu)化模式也在提升檢索效果的同時賦予了語義檢索更廣泛的應用空間。但從以上兩個系統(tǒng)的檢索結果中也可看出,雖然都能獲取對比文件,但不同的語義檢索系統(tǒng)無論在相關度的判定、對比文件獲取數(shù)量和位置都有很大的不同。這些不同最終導致的則是,用戶有時輸入一個專利號碼很快就能找到X對比文件,對語義檢索贊嘆有加;有時又因為檢索結果差異太大而心生質疑。語義檢索在統(tǒng)計層面的優(yōu)勢在個案中可能失效。而究其原因,經筆者研究發(fā)現(xiàn),當前語義檢索的局限主要體現(xiàn)在以下三個方面。
1、 語義詞的選取會影響語義解讀效果
在H系統(tǒng)發(fā)布的《2019年局專利檢索大賽電學領域真題能教會你什么》【2】中提到了一種智能家居控制方法的案例,其核心方案為對于同一局域網(wǎng)下的多臺類型相同的物聯(lián)網(wǎng)設備,智能音箱設備可以根據(jù)用戶發(fā)出的語音指令確定聲源所處的位置,自動識別出距離聲源所處位置最近的設備,并控制該設備為用戶服務。
當筆者嘗試在第一次語義檢索后加入核心發(fā)明點關鍵詞“位置”進行多重語義檢索時,發(fā)現(xiàn)檢索結果沒有任何變化。而當僅使用“位置”進行語義檢索時,果然沒有任何檢索結果。
這一發(fā)現(xiàn)說明,H系統(tǒng)的語義檢索系統(tǒng)并未選取“位置”作為語義詞。而在P系統(tǒng)中輸入“位置”則可以檢索出“空間”、“位置”、“定位”等相關的專利文獻,說明P系統(tǒng)的語義檢索系統(tǒng)選取了“位置”作為語義詞。雖然在此場景中,與“位置”具有綁定關系的“距離”等詞也可增加文獻之間的特征重合度,但關鍵概念的缺失必然會對檢索結果產生影響。
2、 語義算法對語義詞的解讀偏差會帶偏檢索結果
漢語博大精深,在不同的領域,同樣的詞語所表達的意思可能會完全不同、也可能側重不同。在筆者實際檢索的過程中發(fā)現(xiàn),有時語義檢索系統(tǒng)對語義詞的解讀結果,會和我們日常認知的有所不同。這種解讀偏差,就會導致用戶并不能根據(jù)輸入的文本正確找到真正想要搜索的專利。
例如:在P系統(tǒng)中輸入“物流”進行語義檢索,檢索結果大多為化學方面的專利,根據(jù)頁面左側的相關語義詞和詞云顯示的信息,可以大概推斷其對“物流”的語義理解更偏向于化工生成過程的物質形態(tài)和流動。而在H系統(tǒng)中輸入“物流”進行語義檢索,檢索結果則偏向于與倉儲運輸相關的物流概念。然而,兩種概念都是真實的檢索場景,語義檢索系統(tǒng)能否區(qū)分不同場景下的不同含義則是體現(xiàn)算法水平的重要方面。
3、發(fā)散性詞語的聚焦度會影響語義的關聯(lián)表達效果
語義搜索的一個魅力就在于用戶不用精確的輸入原文中存在的文字就可以找到相似的專利,也即是具有一種關聯(lián)聯(lián)想的功能。那么對于一個語義詞而言,如果聚焦度太低,搜索的結果就會太過發(fā)散,很難命中需要的專利;而如果聚焦度太高,搜索的結果又可能會太過集中,導致漏檢。
不論是P系統(tǒng)還是H系統(tǒng),都沒有對算法做過詳細的解讀,筆者只能通過一些簡單的搜索對兩家算法在聚焦度上的表現(xiàn)進行測試。
例如當輸入“冬奧會”進行語義檢索時,P系統(tǒng)的檢索結果發(fā)散度較高,推送的最相關的專利分散在不同的領域,如體育用具、文具、樂器、景觀、廣告甚至導航,幾乎無法找出某個檢索指向。而H系統(tǒng)則集中在滑雪機方面,聚焦度較高。
使用“白宮”進行語義檢索,P系統(tǒng)的檢索結果指向了地圖導航和自然語言處理兩個檢索方向。而H系統(tǒng)則集中在與飛行器相關的專利,仍然表現(xiàn)出了較高的聚焦度。
在H系統(tǒng)官方給出的多重語義檢索案例中,均使用了關鍵詞或較短的文字描述進行第二重語義檢索,或許就與其關鍵詞語義檢索結果的聚焦效果有關。然而遺憾的是,P系統(tǒng)暫未推出多重語義檢索的功能,筆者不能進一步測試。
通過這個測試我們可以發(fā)現(xiàn),兩家算法在發(fā)散性詞語的聚焦度上差別很大。然而,并沒有一個客觀的衡量標準來評價到底焦距到什么程度才是最優(yōu)的。不同的聚焦度可能會在不同的場景下發(fā)揮較優(yōu)的效果,同時也就會在其他場景下效果較差。那么語義檢索本身選擇的聚焦度的不同,就會影響其本身的普適性。
綜上所述,語義詞選取的不同,算法對詞義理解的不同,以及算法聚焦度的不同都會對檢索結果造成不同的影響,各檢索系統(tǒng)如何保證語義詞覆蓋的全面性,對詞義理解的準確性(包括對一詞多義的理解),以及算法在聚焦與發(fā)散之間的平衡,從而保證每一次檢索都不失靈指向正確的檢索方向,仍是系統(tǒng)商們需要重點研究和突破的問題。
四、小結
當前的語義檢索根據(jù)對比文件與本申請之間的要素重合度,來評估兩者整體的相似度,并不能真正理解專利技術的核心和技術組合要義。但語義檢索依托其對要素表達的語義擴展和建立關聯(lián)特征潛在的內在關系,可一次找出多篇相似的對比文件,相對于傳統(tǒng)檢索的特色和優(yōu)勢也是顯而易見的。而無論是多重語義檢索還是結合布爾檢索的人工干預等優(yōu)化模式的出現(xiàn),也在一定程度上克服了語義檢索的局限,在提升檢索效果的同時賦予了語義檢索更廣泛的應用空間。而從改進空間來看,當前的語義檢索系統(tǒng)可以在語義詞選取、對詞義的理解以及在算法的聚焦與發(fā)散之間找到有效平衡方面努力嘗試,爭取每一次檢索都不失靈指向正確的檢索方向。
注:
【1】https://mp.weixin.qq.com/s?src=11×tamp=1596009585&ver=2489&signature=9liu4j-uK8q-YwO54AbCTlW*9EMDqmiW16F85kjWETGMogU-3-tTDjvVeHHzpRSWxsCczezM9SrmCbiM19dKRg0NUFX1FDgOnuOj4kzlr-nKcYHJZYyIEdZ8fSq-EJyY&new=1
【2】 https://mp.weixin.qq.com/s?src=11×tamp=1596009631&ver=2489&signature=-hDCZT8KNieXreh0iyuoOzie-QgAVJroQnBahj56YcLcl0*cnP0BsK-TMMeNDp-qoaVnh-eN0SqoSuugwwMxmEoT3dqT8p3GTMGf8usaAOWRy9pC2DIhnZ6Nj*3hIeyh&new=1
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:陳曉磊 上海連尚網(wǎng)絡科技有限公司專利研究員 上海市專利管理工程師
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
注:原文鏈接:當前專利語義檢索的優(yōu)勢與局限(點擊標題查看原文)
如有想看文章主題內容,歡迎留言評論~
「關于IPRdaily」
IPRdaily是具有全球影響力的知識產權媒體,致力于連接全球知識產權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經IPRdaily.cn中文網(wǎng)編輯。轉載此文章須經權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉載,請注明出處:“http://islanderfriend.com/”
文章不錯,犒勞下辛苦的作者吧