« 2018年9月 | トップページ | 2018年11月 »

2018年10月

2018年10月28日 (日)

カバー率から考える検索式の作り方

前の記事で検索式について概略として言及しましたが、ここでは実際の作り方で考えます。
調査対象をある装置のある部分にある特徴を有する事が記載された資料とすると、この資料は装置に相当する集合、部分に相当する集合、特徴に相当する集合、のいずれにも含まれます。つまりこのような資料を検索する時の概念的な意味での検索式は「装置」*「部分」*「特徴」となります。

実際に検索する時は、「装置」「部分」「特徴」それぞれに対して検索キーをなるべく複数選抜し、それぞれの和集合によるカバー率を100%に近づけた上で、「装置」「部分」「特徴」それぞれの和集合の積集合をとってカバー率をなるべく100%近く維持した状態で集合を限定して件数を削減して調査を行います。世間一般で言われる「検索式で同義語や類義語を加える」と言う話は、和集合によるカバー率向上に他ならないのです。

これまでの記事では「ヒット率」ではなく「カバー率」という用語を用いてきました。このblogでは特許調査とは所望の資料があるかないかを見極める事であって、そのために必要かつ最小限の調査範囲を設定することが根本であると書いてきました。この考え方だと検索とは所望資料が(ほぼ)100%含まれるはずの集合の(積による)組合せであり、だからこそ検索キーの持つ確率は「ヒット率」ではなく「カバー率」と呼んでいます。

2018年10月26日 (金)

検索式とカバー率

ある概念範囲に該当する特許の全てに「ある用語が用いられている」「ある分類が付与されている」場合には、この用語や分類を用いて検索すれば所望の資料は100%の確率でヒットします。しかしながらそのような検索キーではヒット集団が莫大で実際上調査できなかったり、そもそも全てに含まれる検索キーが存在しない、と言うのが普通です。そこで通常の特許調査では検索式を用いるのですが、ではこの検索式によってヒットする確率はどう変わるのか、という観点から検索式を考えてみます。

ここでカバー率というものを設定します。ある概念範囲に該当する資料のうちCの割合(0≦C≦1)である用語が記載されている、またはある分類が付与されている時、用語/分類=検索キーKで検索するとCの確率で資料がヒットします。これを「検索キーKは所定の概念範囲の資料をCの割合でカバーする」と考えます。理想の特許調査はカバー率=1であり、検索式とは検索キーを複数用いてカバー率をなるべく1に近づける行為と言えます。

次に複数の検索キーによるカバー率について考えます。ある概念範囲の資料がn個の検索キーK1~Kn(それぞれのカバー率はC1~Cn)の全てに該当する確率は式Ⅰになります。
n
ΠCk = C1*C2*C3…*Cn  (Ⅰ)
K=1
それに対してある概念範囲の資料がn個の検索キーK1~Knのどれかに該当する確率は式Ⅱになります。
       n
1-Π(1-Ck) = 1-(1-C1)*(1-C2)*(1-C3)…*(1-Cn)  (Ⅱ)
      k=1

例えばカバー率99%の検索キー3つの「積」集合のカバー率は0.99^3=0.97…なのに対して、カバー率70%の検索キー3つの「和」集合のカバー率も1-(1-0.7)^3=0.97…とあまり変わりません。和集合や積集合によるカバー率の変化は予想以上に大きいのです。

つまりカバー率から考える理想的な検索式は、検索キーの和集合によるなるべくカバー率1に近い集合を作成し、それらの積集合をとってカバー率の減少を押さえながら集合を小さくする、という事になります。

« 2018年9月 | トップページ | 2018年11月 »