« 2018年11月 | トップページ | 2019年1月 »

2018年12月

2018年12月29日 (土)

カバー率とコスト

工学の観点で精度という考え方があります。例えばフォーナインと言えば0.9999のことであり10000個のうち不良品が1個(以下)という精度を意味します。ナインの数を増やそうとすればするほどもちろんコストが増加します。例えば精度90%を達成するために必要なコストと比較すると、精度90%を99%に向上するためには同程度のコストが必要になり、さらに99%を99.9%に向上するためには同程度のコストが必要~というのは通常よくあることです。精度をより向上させる事によって実際の精度の増加の絶対値は小さくなっていきますが、かかるコストが小さくて済むわけではありません。

特許調査もまさに同じことが言えます。もちろんカバー率を上げようとすると領域が大きくなる=ヒット件数が増大します。しかし前回書いたようにカバー率を犠牲にして「密度の濃い」効率的な領域で調査をした後の残りの部分は存在確率の低い領域なので、たとえ残部を継続して調査しても増大した件数程にカバー率の絶対値は向上してくれません。カバー率に対する必要なヒット件数は等比級数的と言えるでしょう。

僕の感覚ですが、日本の特許資料を対象にしてある単一のテーマに該当する資料を抽出するという場合、ヒット件数3桁もスクリーニングすれば8~9割のカバー率に達することは可能です。しかし件数4桁の調査でもカバー率は良くて99%程度に達する程度と思います。それが5桁になったからと言って目的の資料を完全にカバーすることを期待するのは無理でしょう。調査件数が一桁増えるという事はコストが一桁増えることに他ならず、カバー率を少し上げようとしただけで驚くほどコストが増大します。だからこそ特許調査は目的に応じてカバー率とコストの兼ね合いを見計らう事がとても大切だと思います。

2018年12月26日 (水)

カバー率と効率の関係…調査の「辞め時」という愚

(10/28の記事から続きます。)

ここまでをまとめますと、特許調査は所望の資料があるかないかを見極めるために特定の領域の資料に全て目を通すことであり、特に資料が存在しないことをいうためにはその資料が確実にあると考え得る領域を設定することが大切です。そしてその領域の設定こそが検索式になります。

しかしながら資料が確実に存在する=カバー率100%の領域を設定するのはそもそも困難です。また事実上100%と考えてよい領域になるように検索式を策定しても調査範囲がきわめて莫大になり、作業が現実的ではない事が通常でしょう。その場合には更なる積集合をとる、または和集合の構成要素を減らす等の処置によってカバー率の減少をなるべく少なくしてヒット件数を減らす=領域を縮小する必要があります。

模式的にこのような検索式を考えてみましょう。

「分類群」       …約20000件ヒット
×「キーワード群1」…約 5000件ヒット
×「キーワード群2」…約 1000件ヒット

こうして調査範囲を狭めていくということは、カバー率は小さくなりますが限定要素が増えているため、その領域内に所望の資料が存在する確率が領域外よりも高いことになります。言い換えると調査範囲をより限定していくという作業はカバー率を減らして存在確率(密度とも言える)を高める事に他なりません。

つまり検索式を重ねて調査範囲を限定すればするほど存在確率が高い=効率的な調査が可能だがカバー率は悪くなり、漏れる可能性がでてくる、ということになります。結局のところ検索式は「漏れのない大きな集団をつくる」か「漏れは許容して効率的な集団をつくる」か、という効率とカバー率の兼ね合いの問題と言えます。実際の調査では当然ながらかけられるコスト、つまり時間や費用が限られます。従ってコストに見合う範囲でなるべく高いカバー率にするのが良い検索式と言えます。

またこの方法だと、最初は狭い範囲を効率的に調査し、目的資料が検出できなかったら限定を外したより大きい領域を対象にして、残った部分=存在確率が一段階低い領域を探す、という段階的なやり方で作業を進める事ができます。

世間では特許調査の辞め時をどうするか、という議題がよく出てきます。それは特許調査を「探し出す」事だと認識しているので、資料がありそうな場所を虫食い的に探す作業になってしまい、資料が「存在しうる領域」という全体的な視野に欠けるが故に出てくる発想だと思います。最初から「カバー率」とコストの関係をふまえて調査を設計すればいつ辞めたらいいかわからないなんて事にはならないはずなのですが。

« 2018年11月 | トップページ | 2019年1月 »