專利關(guān)聯(lián)度模型及應(yīng)用

專利

小知2024-06-07

#本文僅代表作者觀點，不代表IPRdaily立場，未經(jīng)作者許可，禁止轉(zhuǎn)載#

“基于專利關(guān)聯(lián)度分析的專利地圖有其特定價值，專利分析不是固定的模板，不是固定的標準，通過方法改進結(jié)論是一個有趣的過程?！?br/>

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：閆文龍

段曉玲蘇州京昀知識產(chǎn)權(quán)代理事務(wù)所

專利關(guān)聯(lián)度模型及應(yīng)用

PART 01
背景

“專利地圖”是將多件專利投射到二維空間的形象名稱，每件專利在二維空間的絕對坐標可以不具有實際含義，但彼此之間的位置關(guān)系應(yīng)該與專利之間的關(guān)系特征存在關(guān)聯(lián)。因此作者認為按照一維方向展開的柱狀圖、二維方向展開的氣泡圖、以及具有時間序列屬性的趨勢圖，甚至將地區(qū)申請量投射到世界地圖的地區(qū)熱力圖不符合上述“專利地圖”的定義。

目前為止，專利與二維空間的映射主要基于專利之間的關(guān)聯(lián)度信息創(chuàng)建，專利之間的距離是專利之間關(guān)聯(lián)度的函數(shù)。專利在二維空間中形成具有不同密度的區(qū)域分布，一個區(qū)域內(nèi)的專利可以具有相同的技術(shù)主題，不同區(qū)域的專利密度表征技術(shù)熱度。技術(shù)主題可以通過人工概括或利用算法抽取的方式得到。

基于專利關(guān)聯(lián)度的專利地圖相對于傳統(tǒng)的柱狀圖實現(xiàn)存在如下挑戰(zhàn)：

a.實現(xiàn)更復(fù)雜。

b.通常需要對原始數(shù)據(jù)進行預(yù)處理，實現(xiàn)過程中還需根據(jù)技術(shù)領(lǐng)域進行人工干預(yù)。

c.需要熟悉數(shù)據(jù)挖掘技術(shù)和工具。

d.了解專利數(shù)據(jù)與科技文獻、文學作品之間的差異，及其對數(shù)據(jù)挖掘技術(shù)造成的影響。

盡管如此，基于專利關(guān)聯(lián)度的專利地圖仍具有其他分析方法所無法比擬的優(yōu)勢：

a.從多維度展現(xiàn)專利之間的關(guān)系。

基于柱狀圖的分析需要對專利進行一維歸類，本質(zhì)相當于將每個專利放入對應(yīng)的封閉抽屜，一旦放入就再無法體現(xiàn)抽屜之間的關(guān)聯(lián)。

例如柱狀圖中橫坐標軸可以采用技術(shù)環(huán)節(jié)分類展開，如器件類，量測標定，軟件算法，驅(qū)動電路等，不同的分類之間的關(guān)聯(lián)被完全忽略。而在產(chǎn)品研發(fā)過程中，針對同一問題會有多個環(huán)節(jié)的部門共同參與討論，確認問題可能的原因有哪些，通常情況下，問題可能是多個環(huán)節(jié)共同作用的結(jié)果，例如需要器件方面、量測標定方面、軟件算法方面、驅(qū)動電路方面分別做出各自的改進，才能使得問題得到徹底解決。相應(yīng)輸出的專利中，同一個技術(shù)問題往往具有不同技術(shù)環(huán)節(jié)的專利方案。這類相關(guān)性信息無法通過柱狀圖體現(xiàn)。

當然二維氣泡圖可以實現(xiàn)兩個維度（如技術(shù)環(huán)節(jié)和技術(shù)問題）交叉點上的專利數(shù)量統(tǒng)計，但無法進一步展開交叉點氣泡內(nèi)的專利之間的關(guān)聯(lián)度和差異大小，因此其結(jié)果仍然是相對粗糙的。

b.作為統(tǒng)計圖表和專利全文展示之間的過渡

目前我們所熟知的專利分析框架中，第一部分是專利宏觀分析，包含趨勢、技術(shù)、主體類的分析，分析類型包括時間序列分析（如申請趨勢）、類別比較分析（如技術(shù)分布柱狀圖/雷達圖/餅狀圖、專利申請主體和發(fā)明人主體柱狀圖）、地理空間分析（如世界各區(qū)域?qū)＠暾垷崃D、同一國家內(nèi)各區(qū)域申請熱力圖）、層次關(guān)系分析（如技術(shù)分類魚骨圖/樹狀圖/旭日圖）。這部分的特點是“宏觀”，如果宏觀結(jié)論是已知的，又或者宏觀結(jié)論受外在環(huán)境影響而與實際產(chǎn)業(yè)發(fā)展情況不符，都會影響其實際價值，但這一部分在數(shù)據(jù)處理和標引所投入的時間和人力成本往往是最大的，為此需要進一步挖掘宏觀分析輸出數(shù)據(jù)的利用價值。

第二部分是微觀分析，涉及選取至少一個子主題、篩選業(yè)界關(guān)鍵/基礎(chǔ)專利或使用對象更關(guān)注的專利作為數(shù)據(jù)集，進行第二輪精細閱讀和分析。微觀分析是聚焦思想、和分階段項目推進理念的體現(xiàn)，也是有限時間預(yù)算內(nèi)輸出可用結(jié)論的現(xiàn)實選擇。這一部分的輸出盡管有技術(shù)路線圖等圖表的輔助，但最終仍然無法省略對專利全文或部分實現(xiàn)細節(jié)的展示。實際上，微觀分析目前證明切實有用的部分仍然是“展示全文”。

由此可見，宏觀分析和微觀分析在分析方法、結(jié)論、和展現(xiàn)形式方面存在巨大的差別，二者能夠被讀懂的對象群體完全不同，前者偏向技術(shù)管理人員，后者傾向技術(shù)實現(xiàn)人員。產(chǎn)品的成功離不開管理和實現(xiàn)的密切配合和相互了解，相應(yīng)地，專利分析報告中的宏觀分析和微觀分析應(yīng)該力求可以讓兩類人群都感興趣。專利關(guān)聯(lián)度分析的專利地圖可以在宏觀分析和微觀分析之間架起一座橋梁，讓報告使用者更容易理解報告的全部內(nèi)容。

PART 02

專利關(guān)聯(lián)度模型

本文采用的專利關(guān)聯(lián)度模型分為三類：

1.基于多維分類的專利關(guān)聯(lián)度模型；
2.基于文本的專利關(guān)聯(lián)度模型；
3.將1和2疊加的專利關(guān)聯(lián)度模型。

PART 03
基于多維分類的專利關(guān)聯(lián)度模型

在沒有文本挖掘技術(shù)基礎(chǔ)，或者沒有高質(zhì)量專利文本數(shù)據(jù)的情況下，基于多維分類的專利關(guān)聯(lián)度模型是一個不錯的選擇，其與目前的“宏觀分析”工作相兼容，幾乎無需額外數(shù)據(jù)加工工作，并且當多維分類標引由人工給出時，基于其進行計算的專利關(guān)聯(lián)度結(jié)果準確性也更高。

這里定義基于多維分類的專利關(guān)聯(lián)度Sc如下式

專利關(guān)聯(lián)度模型及應(yīng)用

（公式1）

ki為第i個維度近似度占總的專利關(guān)聯(lián)度Sc的權(quán)重系數(shù)，Si為專利之間在第i個維度上的近似度，由專利之間在第i個維度的分類計算得出。

以下圖示出的分類框架為例，每件專利至少從四個維度進行分類，包括技術(shù)領(lǐng)域，技術(shù)分類，技術(shù)問題和技術(shù)環(huán)節(jié)等。每個維度進一步以樹形結(jié)構(gòu)形成相應(yīng)的分類結(jié)構(gòu)。對每件專利進行分類的策略是：盡量分到樹形結(jié)構(gòu)中靠近葉子節(jié)點對應(yīng)的類別，除非專利涵蓋多個節(jié)點對應(yīng)的類別，這時可以賦予對應(yīng)的多個分類，也可以賦予其共同的父節(jié)點對應(yīng)的分類，例如一件專利的技術(shù)方案同時適用于快門式眼鏡和偏振眼鏡式3D產(chǎn)品，則可以將其技術(shù)分類賦予父節(jié)點對應(yīng)的分類“眼鏡式3D”。

專利關(guān)聯(lián)度模型及應(yīng)用

接下來將分類框架中的描述型文字轉(zhuǎn)換為代碼類型的標識，以方便后續(xù)定量計算。

如下圖所示，將四個分類維度對應(yīng)的代碼分別為F，T，P和S。每個維度下的樹形分類結(jié)構(gòu)的描述型文字及其對應(yīng)的代碼如每個方框中的第一行和第二行文本所示。例如領(lǐng)域A1對應(yīng)分類代碼F11。分類代碼的格式應(yīng)與其樹形分類框架存在對應(yīng)。如本文中的分類代碼通過字符串中從左到右逐位表示各層的分類標識。例如F111對應(yīng)技術(shù)領(lǐng)域的第三層節(jié)點，其是第二層節(jié)點F11的一個子節(jié)點，而節(jié)點F11又是第一層節(jié)點F1的一個子節(jié)點，F(xiàn)11和F12是兄弟節(jié)點。

專利關(guān)聯(lián)度模型及應(yīng)用

下面確定節(jié)點之間的近似度計算方法，即基于分類結(jié)果確定兩兩專利在每個維度上的近似度。

本文中定義同一維度內(nèi)節(jié)點之間近似度為：(節(jié)點向上最近的共同父節(jié)點所在的層數(shù))/(兩個節(jié)點所在層數(shù)的最大值)。

例如領(lǐng)域A11和領(lǐng)域A2節(jié)點之間的近似度可以定義為：2/3。本文將分類代碼的每一位含義定義為分類框架樹形結(jié)構(gòu)完全對應(yīng)，因此可以通過字符串逐位比對，計算上述近似度，以簡化實現(xiàn)邏輯。

簡化后的近似度計算公式為：(兩個節(jié)點代碼之間從左側(cè)第一位字符開始連續(xù)匹配的數(shù)量)/(兩個節(jié)點代碼長度的最大值)。

示例如下圖所示，左側(cè)的專利在四個維度的分類代碼分別為F111，T11，P1和S1，右側(cè)的專利在四個維度的分類代碼分別為F12，T12，P1和S2。需要說明的是，分類代碼中的第一位表示僅用于提示的維度信息，計算近似度時應(yīng)忽略。由此不斷得出，左右兩個專利在F代表的維度的近似度=1/3，在T代表的維度的近似度=1/2，在P代表的維度的近似度=1/1，在S代表的維度的近似度=0/1。

專利關(guān)聯(lián)度模型及應(yīng)用

通過上述過程確定各個維度的近似度后，可以代入公式1計算兩兩專利之間總的關(guān)聯(lián)度Sc。

當一件專利在同一個維度賦予多個分類時，兩兩專利之間在該維度上的近似度計算從兩個分類之間的近似度計算，擴展為兩個分類集合之間的近似度計算問題。本文采用的方案是將兩個專利的分類集合中的元素兩兩計算近似度，以最大的近似度數(shù)值作為兩個專利之間的近似度。

PART 04
專利地圖-基于專利關(guān)聯(lián)度的可視化

為了便于了解專利關(guān)聯(lián)度在專利可視化中的應(yīng)用，在介紹其他兩類專利關(guān)聯(lián)度模型之前，首先提供基于多維分類的專利關(guān)聯(lián)度進行可視化的示例結(jié)果，如下圖所示。

實驗條件如下：

a.輸入：帶有多維分類代碼結(jié)果的專利清單Excel文件，編寫VBA函數(shù)計算兩兩專利之間的關(guān)聯(lián)度。

b.工具支撐：本地網(wǎng)頁文件嵌入Javascript，導(dǎo)入Excel數(shù)據(jù)，完成數(shù)據(jù)預(yù)處理；嵌入Echarts組件，以專利數(shù)據(jù)作為節(jié)點，以關(guān)聯(lián)度數(shù)據(jù)做為節(jié)點之間的連接屬性，創(chuàng)建力導(dǎo)圖進行顯示。

c.主題提?。?/strong>人工完成，預(yù)覽各個簇內(nèi)部的專利摘要，確定各個簇的專利主題。

上述實現(xiàn)條件借助Excel+Javascript+Echarts的工具組合可以實現(xiàn)數(shù)據(jù)量小于300條以內(nèi)的專利地圖繪制，超過300條以上的數(shù)據(jù)集，建議更換為后文將介紹的R語言進行處理和可視化，否則可能出現(xiàn)渲染不成功的現(xiàn)象。

PART 05

基于專利IPC分類號計算專利近似度的陷阱

采用專利自有的IPC分類號作為上述模型中的分類代碼輸入，看起來可以省去人工標引的工作量，尤其專利數(shù)據(jù)量非常龐大的情況，但是需要正視如下問題：

a.專利IPC分類與產(chǎn)業(yè)界或報告使用者認同的分類體系有一定差異。

b.專利IPC分類號（即便同級別分類）之間存在涵義重疊問題，不能夠完全區(qū)分某些技術(shù)的多個技術(shù)分支。

c.專利IPC分類號整體上屬于一個維度的分類，無法映射多個維度的分類信息。

d.專利IPC分類號小組層面的樹形結(jié)構(gòu)分類體系依托于分類號中的“."點符號的層級構(gòu)建，而不是IPC分類號的號碼格式，因此無法直接使用本文中提到的字符串匹配方式計算近似度，仍需要根據(jù)小組內(nèi)的樹形結(jié)構(gòu)分類構(gòu)建一套直接對應(yīng)的分類代碼體系，考慮到前三點的問題，這類重建工作所耗費的精力未必有價值。

e.某些專利的IPC分類號不是很準。

因此，作者不推薦直接或間接使用IPC分類號計算專利之間近似度。

PART 06
基于文本的專利關(guān)聯(lián)度模型

基于文本的專利關(guān)聯(lián)度計算是將文本挖掘技術(shù)轉(zhuǎn)用到專利分析領(lǐng)域的產(chǎn)物。

文本挖掘是從文本數(shù)據(jù)中抽取有價值的信息和知識的計算機處理技術(shù)，是自然語言處理（NLP）的熱門話題。基于文本挖掘例如可以分析文章的情感信息、確認文章之間的相關(guān)性、對文章進行分類。計算文章之間的相關(guān)性的主要處理流程如下：

S1.對文章分詞，統(tǒng)計詞頻。

S2.去掉停用詞，以避免無實際含義的虛詞，連詞等對后續(xù)計算結(jié)果造成不利影響。

S3.利用文章的詞頻數(shù)據(jù)通過Pearson公式等相關(guān)性公式計算進文章之間的相關(guān)性。

S4.基于相關(guān)性數(shù)據(jù)進行可視化。

將文章替換為專利的文本數(shù)據(jù)，即可實現(xiàn)基于文本的專利關(guān)聯(lián)度計算。

由于R語言提供了豐富的文本挖掘工具包和完善的數(shù)據(jù)可視化工具包，作者建議在R語言環(huán)境下完成一站式專利文本導(dǎo)入、專利關(guān)聯(lián)度計算、以及力導(dǎo)圖渲染。

下圖是實際的一個算例。

基于文本的專利關(guān)聯(lián)度計算強烈依賴專利的文本特征，為此需要了解專利文本與常見的文章類文本之間的不同，以及對關(guān)聯(lián)度計算造成的影響，尤其是為了提升效率，只將專利摘要或權(quán)利要求作為專利文本參與計算的情況。

a.專利摘要，權(quán)利要求的語言抽象，部分詞匯含義需結(jié)合說明書上下文或附圖方可理解，與自然語言中的通常含義存在差別。

b.專利權(quán)利要求中的語言有上下位關(guān)系，而基于詞頻統(tǒng)計的專利近似度計算，無法識別上位詞匯和下位詞匯之間的關(guān)系，這使得上位專利和下位專利之間的關(guān)聯(lián)度計算不準確。

以上兩點可以看出需要重寫摘要的必要性，一方面實現(xiàn)統(tǒng)一的術(shù)語表述，另一方面將下位概念的列舉補入重寫的摘要中，當然也可以補入技術(shù)問題技術(shù)效果的描述。

c.文本挖掘技術(shù)中通用的停用詞集合，對于具體主題的專利分析是不夠用的。還需結(jié)合專利的檢索式，專利的詞頻統(tǒng)計結(jié)果增加一些額外的停用詞，例如檢索式中的關(guān)鍵詞、本主題專利普遍攜帶的詞匯（如“顯示”，“設(shè)備”“方法”……）。在實際操作中，停用詞的增補需要根據(jù)具體主題的專利實際情況進行人工干預(yù)，類似一種“調(diào)試”操作。

PART 07

基于多維分類和文本的專利關(guān)聯(lián)度模型

考慮基于多維分類和文本的兩種關(guān)聯(lián)度模型可以優(yōu)勢互補，在實際中可以將二者采用線性加權(quán)求和方式計算綜合專利關(guān)聯(lián)度信息。

以下是該方法的實際算例。

代碼下載
本文算例示例代碼已通過Gitee平臺開源，訪問鏈接如下：
https://gitee.com/yanwenlongair/patent-analysis-r

PART 08
小結(jié)

綜上，基于專利關(guān)聯(lián)度分析的專利地圖有其特定價值，專利分析不是固定的模板，不是固定的標準，通過方法改進結(jié)論是一個有趣的過程。目前的方法顯然不是專利分析的終點。

（原標題：專利關(guān)聯(lián)度模型及應(yīng)用）

來源：IPRdaily中文網(wǎng)（iprdaily.cn）

作者：閆文龍段曉玲

編輯：IPRdaily辛夷校對：IPRdaily縱橫君

注：原文鏈接：專利關(guān)聯(lián)度模型及應(yīng)用（點擊標題查看原文）

「關(guān)于IPRdaily」

IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商，致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負責人，還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構(gòu)的全球近100萬用戶（國內(nèi)70余萬+海外近30萬），2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。

（英文官網(wǎng)：iprdaily.com 中文官網(wǎng)：iprdaily.cn）

本文來自IPRdaily中文網(wǎng)（iprdaily.cn）并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意，并附上出處與作者信息。文章不代表IPRdaily.cn立場，如若轉(zhuǎn)載，請注明出處：“http://www.islanderfriend.com