準識別子
準識別子は、それ自体はユニーク識別子(直接識別情報)ではないが、ある主体について「他の準識別子と組み合わされてユニーク識別子となりうる」ように十分に関連づけられた属性情報である [1]。
それゆえ、準識別子は組み合わされたとき特定の個人を識別可能な情報(PII: personally identifying information)になる。このプロセスは、再識別(re-identification)と呼ばれる。例として、Latanya Sweeneyは、「性別、誕生日、郵便番号のいずれも一意(ユニーク)に個人を識別しないが、3つすべての組み合わせは、アメリカ合衆国において87%の個人を識別するのに十分であること」[2]を示した。
この用語は、1986年にTore Daleniusによって最初に用いられた [3]。以来、準識別子は、提供されたデータについての攻撃の基礎となってきた。例えば、Sweeneyは、当時のマサチューセッツ州知事の医療記録を得るために、氏名情報が無い医療記録と氏名情報がある有権者名簿情報とを結びつけて、一意に識別できる準識別子の組み合わせを使った[4] [5] 。また、Sweeney、AbuおよびWinnは、「パーソナル・ゲノム・プロジェクト(Personal Genome Project)」において参加者を再識別するために公的な有権者名簿を利用した [6]。さらに、Arvind NarayananとVitaly Shmatikovは、準識別子をNetflixによってリリースされたデータを、一意に特定できる条件を統計的に示すために利用した[7]。
MotwaniとYingは、準識別子を含む大量の政府やビジネスのデータの公表によって可能になる潜在的なプライバシー侵害について警告している [8]。
脚注
[編集]- ^ “Glossary of Statistical Terms: Quasi-identifier”. OECD (November 10, 2005). 29 September 2013閲覧。
- ^ Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf
- ^ Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329–336. http://www.jos.nu/Articles/abstract.asp?article=23329
- ^ Anderson, Nate. Anonymized data really isn’t—and here’s why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/
- ^ Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).
- ^ Sweeney, Latanya, Akua Abu, and Julia Winn. "Identifying participants in the personal genome project by name." Available at SSRN 2257732 (2013).
- ^ Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf
- ^ Rajeev Motwani and Ying Xu (2008). Efficient Algorithms for Masking and Finding Quasi-Identifiers (PDF). Proceedings of SDM’08 International Workshop on Practical Privacy-Preserving Data Mining.