東芝デジタルソリューションズ株式会社

データのプライバシー保護

個人情報保護法改正で重要性増す匿名化技術とその進化

先般、個人情報保護法の改正案が衆議院で可決されました。重要なポイントの一つが匿名加工情報という世界でも初めてのデータ類型が登場したこと。匿名化という加工を施すことで、個人情報を含んだビッグデータの利活用が可能になります。ただし、匿名化の度合いを高めると、データとしての有用性は低下します。両者のバランスのとり方は難しい課題ですが、できる限り両立させる工夫をすることはできます。こうして開発されたのが、「k-匿名化」の独自アルゴリズムです。

東芝デジタルソリューションズ株式会社
IoTテクノロジーセンター システム&セキュリティ技術部 主査(博士 工学)

小池 正修 - Masanobu Koike -

1998 年入社。以来、情報セキュリティ技術、特に暗号技術の研究開発に従事。近年は、パーソナル
データを利活用する事業向けのプライバシー保護技術開発に積極的に取り組んでいる。

photo

匿名加工情報が開くビッグデータ利活用への道

図1 データ利活用とプライバシー保護

 2015年5月、個人情報保護法の改正案が衆議院で可決されました。見直しのポイントはいくつかあります。
 第1に、個人情報の定義が明確化されました。従来の「特定の個人を識別することができるもの」に、個人を特定する「個人識別符号が含まれるもの」が加えられたのです。
 第2に、匿名加工情報という概念が新たに生まれました。これは特定の個人を識別できないように加工されており、加工後には元の個人情報を復元できないというもの。匿名化により、個人情報を含むビッグデータの利活用への道が大きく開かれることになります。
 そのほか、改正案には名簿業者に対する規制の厳格化や、個人情報保護委員会の新設などが記されています。
 こうした動きの背景にあるのが、政府の成長戦略です。2014年6月に発表された『「日本再興戦略」改訂2014』には、「ビッグデータ時代において、個人情報及びプライバシーを保護しつつパーソナルデータの利活用を促進する」という一文があります。パーソナルデータの利活用を進める上で、匿名加工情報は大きな意味を持っています。
 大量の個人情報を利活用するには、いくつかのフェーズをクリアする必要があります。そのプロセスにおける登場人物は4種類です(図1)。消費者をはじめとする情報提供者、ビジネス活動の中で個人情報を集めた情報保持者、専門事業者などのデータ分析者、そして分析結果を基に価値創造したいと考える情報利用者です。

IoT時代に重要な「k-匿名化」技術とは

 匿名加工情報に関する法律の規定がなければ、個人情報を取り扱うときの、収集・蓄積という前半、分析・利活用という後半のフェーズを、第三者と分担することができません。情報保持者が自社内で分析して利活用することはできますが、分析に関する専門知識がないという理由で諦めているケースも多いでしょう。例えば、IoTでセンサーが自動的に集めたデータの分析を第三者であるデータ分析者に依頼したいとします。現行法では、そのデータに含まれるすべての人から第三者に提供してよい旨の同意を得る必要がありますが、IoTでは個人が知らない間に収集されるデータもあり、本人の同意を得るのが困難という場合もあります。この場合、データ分析を第三者に依頼することはできません。
 匿名加工情報は、前半のフェーズと後半のフェーズをつなぐ役割を果たします。上のセンサーデータの例では、匿名加工情報にした上で提供される個人情報の項目と提供方法を公表していれば、第三者に提供する際の本人同意が不要になります。これにより、高い専門知識を持つ分析事業者が活躍する舞台が広がるとともに、ビッグデータ分析を新たなIoTサービスにつなげるさまざまなチャレンジが後押しされることでしょう。
 ただし、個人情報を匿名化すれば絶対に安全かというと、必ずしもそうではありません。匿名化技術は「個人の特定を難しくする技術」です。特定が全く不可能になるわけではありません。
 例えば、あるデータを別のデータと突き合わせることで、個人が特定される可能性があります。米国において、あるDVDレンタル会社が、 過去に投稿された50万人分のレビュー情報(映画タイトル、ユーザーID、日時、レビューの内容など)をレコメンデーションアルゴリズム開発のコンテスト用に匿名化して公開。このデータと別の映画サイトのデータを結び付けることで、個人が特定されてしまったのです。 DVDレンタル会社へのレビューと同時期に映画サイトにも似た内容の投稿が行われ、それが個人の特定につながったようです。こうした課題を解決するために、これまでさまざまな匿名化技術の研究・開発が進められてきました。その代表的なものとして、「k-匿名化」技術があります。この「k」は人数を表しており、個人を特定するための絞り込みを行っても「k人が限界」という意味です。例えば、kが10であれば、その個人のデータが10人分のデータの中のどれかというところまでは分かりますが、それ以上の絞り込みはできません。
 プライバシー保護のアプローチとして、k-匿名化は広く使われています。

匿名性を高めれば、有用性は低下 両者のバランスが大事

図2 「k-匿名化」技術の活用例

 図2は、「k=2」で匿名化した医療費関係の事例です。図の左側、匿名化前の元データには年齢や性別など詳細なデータがあります。これを匿名化した右側は年齢に幅を持たせてあり、住所は市区単位から都道府県単位に、医療費の金額も幅のある値に変更されています。
 匿名化後、「25〜29歳・女性・神奈川県・医療費5,000円以下」の人は2人います。2人までは絞り込めても、個人の特定はできません。このkの値が大きくなるほど匿名性は高まります。
 kの値をいくつにすれば妥当か、客観的に安全と見なせるかという線引きは存在しないのが現状です。例えば、ある小売チェーンが会員の購買情報を匿名化して、第三者に販売するとします。kの値は展開エリアの地域特性など、定性的かつ曖昧な条件をベースに決定せざるを得ません。ここが、匿名化の難しいところです。
 注意しなければならないのは、kの値を大きくして匿名性を高めるほど、データの情報量が減り、データとしての有用性が低下することです。したがって、ポイントは有用性と匿名性をいかにバランスさせるか。両方が100点の解答は存在しません。しかし、両立に近づける工夫はできます。それが私たちのテーマであり、k-匿名化技術を進化させることです。

従来比で情報量損失を3割削減 独自のアルゴリズムを開発

小池 正修
 匿名化による情報量の損失を最小化しつつ、匿名性を高める。私たちの開発したk-匿名化の独自アルゴリズムは、一定の成果を上げています。
 従来の手法と同じk値で比較した場合、情報量の損失を約3割削減することに成功しました。これは匿名性のレベルが同じときに、有用性が高いことを意味します。有用性のレベルを同じ(損失した情報量が同じ)とした場合には、従来の手法よりも高い匿名性を実現できるということでもあります。
 アルゴリズムの開発で工夫したのは、データの並べ方と属性の選び方です。考え方としては、できるだけ近い属性を持つ人をグループ化するというもの。例えば、年齢と住所の2軸で考えた場合、東京都に23歳の人が「k-1人」いたとすると、わざわざ北海道の30歳の人をグループに入れてk人という条件を満たす必要はありません。それよりも、東京都の24歳を1人加えたほうが、2軸トータルでの情報量の損失を抑えられます。
 このアルゴリズムをはじめ、私たちの匿名化技術はさまざまな分野で実用化されています。例えば、ヘルスケアの分野では、健康診断のデータとレセプトデータの匿名化などです。現在は保険会社といったほかの産業分野にも適用範囲を広げています。
 ビッグデータから新しい価値を創造するために、匿名化技術は重要な役割を担います。東芝グループが「モノ+こと」サービスの強化を進める上でも、欠かせない技術の一つになると考えています。
※本内容は東芝デジタルソリューションズ株式会社グループの情報誌「T-SOUL15号」の特集から転載しています。
※本記事に関する社名、部署名、役職名などは2015年7月現在のものです。
東芝のIoTサイト