区块链:连接基因组学与隐私保护的关键一环?

暴走时评:基因组学是当前医学界最前沿的学科之一,虽然它对医学进步有着极其重要的作用,但基因组数据的隐私和安全问题一直是人们密切关心的地方。文章选取了致力于开发基因组数据区块链解决方案的David Koepsell博士的一段访谈,详细解释了区块链在保护基因组数据安全方面的优势,表明基因组学与隐私保护间的冲突可以依靠这一新兴技术得到解决。

翻译:Ina

基因组测试的价格将降至100美元,它正在引领一个医学新时代的到来。患者可以得到更精确的治疗,医生将根据其个人的基因组成定制专门的治疗方案,以取得更好的疗效。但是这种彻底的变化(即时是为了造福社会),往往也会带来我们无法忽视的伦理和社会问题。

人们一个主要的担忧在于基因组数据的隐私和安全。例如,华盛顿的决策者最近就叫嚣个人的基因组数据要对雇主公开。而基因组数据没有明确的合法所有人,这一情况使其隐私问题更加复杂;这种数据是无法获取专利的,并且由于缺少(法律上的)来源或创建者,不受版权保护。

似乎掌控自己的基因组数据的唯一方法就是不接受测试,将数据藏匿在“自己的身体”中。但是,这就颠覆了最现代的医学基因组技术的意义。

哲学家David Koepsell近十年来一直在推进基因组数据所有权及保护的前沿。2009年,他的书“Who Owns You”预示了几个月后在美国公民自由联盟(ACLU)和其他方面就乳腺癌基因专利对Myriad公司提起的诉讼。这些专利可以使Myriad有效地垄断乳腺癌和卵巢癌的检测市场。

Myriad最终没能拥有这些专利;美国和澳大利亚最高法院宣布它们无效,因为这些专利所针对的是自然产物,而非公司自己的发明。但是,这些例子仍然没有解决一些关键问题,即Koepsell博士在努力研究的问题:鉴于如今个人不能合法地“拥有”自己的基因组信息,我们如何能最大限度地确保个人基因组数据的安全和隐私呢?

Koepsell和他的长期合作伙伴Vanessa Gonzalez博士共同撰写了许多有关基因组数据和隐私的著作,最近,二人创立了一家软件公司来解决这个问题。一位学者,特别是哲学家,在偏离自己领域的地方摸索了这么久是不寻常的,但他们已经有了一个计划,即开发一个基于区块链的技术解决方案。

David Koepsell

在下面的采访中,Koepsell对道德问题进行了详细说明,这个问题是科学进步的障碍:

问:是什么促使您决定告别往常的学术工作转而成立软件公司?

答:我做了十多年的学者,熟悉了关于抽象和实践问题的研究及出版的典型学术步骤。非常幸运的是,我的一本关于一个有趣的抽象和形而上学问题的书出版没多久,就发生了一场与主题相关的诉讼,这场诉讼旨在真正解决许多与基因专利有关的不公正。因此,我又研究起政策,诉讼结果非常令人满意,也具有教育意义。

虽然美国最高法院对Myriad的一致判决表明了基因不能申请专利,但仍然遗留了一些未解决的问题,这些问题会阻碍基因组学和医学的发展。我像往常一样,把它们写进文章里,带到课堂上,除此之外就没什么了。但在研究和教学的过程中,我意识到自己也发现了一个非常令人兴奋的解决方案,一个不依赖于政策的方案,一个可以用区块链技术解决问题的方案。

起初,我考虑采用往常的学术路线:申请资助,聘请博士后,然后写文章,写书。我找到了一些合作者,包括我的妻子,我们开始研究和撰写。但是我们很快就意识到,如果没有大量经费,我们就无法开发出解决方案,这将需要至少一年的时间(我们也不能确定)。同时,我们很清楚自己所想象的解决方案的架构。所以我们拉来了种子投资,雇了一个开发商,开始创建解决方案。为了使一切以合理的方式进行,我们需要成立一家公司,于是我们在弗罗里达州创立了Encrypgen公司。

问:您目前的工作有多少是通过学术工作积累的?

答:我之前在荷兰代尔夫特理工大学任教,当时我们关于技术和价值观的研究主要是“价值设计”的研究,有时也被称为“价值敏感设计”。传统工程学的观念是道德和技术是两个完全不同的领域,这是错误的。当我们设计产品和服务时,总是会将某些价值观纳入其中。

区块链在隐私、安全和所有权的价值观下运行。这就是经济学家Hernando de Soto开始接受追踪土地所有权的区块链解决方案时的见解。我们意识到自己也可以使用这种围绕着隐私、安全和所有权(这些价值观也是基因组数据保护不可或缺的)构建的技术,且不会阻碍科学进步。事实上,区块链可以安全地隐藏基因组,以免他人窥探,同时允许科学家收集大量人群的匿名信息,只有在捐赠者允许的情况下才会使用这些数据。

问:为什么要担心基因组数据的隐私或安全?

答:基因组数据非常敏感。大多数人并不知道DNA包含了很多信息,包括你的预期寿命、抑郁症或精神分裂症倾向、种族血统、预期智商,甚至是政治倾向。在未来十年或二十年内,基因组还可能揭示出更多信息。

例如,你可能因为携带乳腺癌基因而被剥夺健康保险,或者由于DNA显示你不具备从事某项工作的技能,你可能会失去晋升机会。你的基因组数据可能会被未来的雇主、不道德的公司和政府以任何意想不到的方式滥用,因此必须保密。

但匿名的基因组数据对于科学进步也至关重要。只有分析来自数千个捐助者的基因组数据,才能使个性化药物成为可能。基因组数据帮助科学家为特定群体创造更好的治疗方法,了解遗传学在疾病和免疫中的作用,并做一些重要的研究。当我们知道一个人的基因构成时,就有可能实现个性化医疗,这意味着我们可以为个人定制治疗方案。这样做可以降低成本并提高效率,并以最佳的方式治疗病人。

个人隐私与科学进步之间明显的冲突使得基因组学和医学的前景特别微妙。随着成本下降,更多的隐私被公开,这场冲突也会加剧。这个问题很快就会非常紧迫:我们该如何安全地存储自己用于医疗的数据而不存在被滥用的风险,特别是在敏感数据经常遭到入侵的情况下?幸运的是,符合这些价值观的区块链可以调和这种冲突。

问:区块链通常与比特币等数字货币联系在一起,那么它与保护基因组数据有什么关系呢?

答:越来越明显的是,区块链提供的强大应用远远超出了数字货币的范畴,这是目前公众关注的焦点。比特币是如此有用且可贵的原因在于区块链创建了一个分布式账本,这是一种不可变的分布式记录,想要入侵几乎是不可能的。比特币账户持有者对其资产拥有绝对控制。这是一种存储任何高度敏感数据的完美解决方案,并且人们非常有兴趣将该技术应用在数字货币之外的领域里。

例如,DARPA正在研究使用区块链来保护核武器数据。目前已经有一些用于追踪钻石、知识产权和现实物流的区块链解决方案。人们一直在考虑将区块链应用于基因组学;我们只想以某种方式实现这一点,首先要最大限度地进行我们认为最重要的道德保护。大家最大的障碍是处理这样大的数据集,并且确保这个庞大的区块链在其缓慢的数据处理之上能够发挥作用。

问:那么基因组区块链有什么用处?

答:对于个人而言,它将是存储基因组数据的安全场所。如果你进行了测试,并希望始终能够访问该数据,那么就将其免费存储在Gene-Chain上。这种方式将比大多数其他解决方案更能安全存储数据,比如可能会丢失的USB设备。在Gene-Chain上,你的数据被加了密,几乎不可破解,你可以为自己的医生或你想要或需要共享数据的其他人提供有时间限制的密钥。你还可以选择分享基因组的哪些部分。这些数据有独特的签名,我们还可以对数据的滥用进行追踪。

对于科学家来说,他们可以访问元数据——关于数据的数据,如年龄、种族、性别等信息,并且可以搜索可能对他们的研究有用的潜在对象的数据。这种搜索不会显示捐赠者的任何具体或个人资料,也不会使科学家获得捐赠者的基因组数据。但是,他们可以向捐赠者提出请求,然后捐赠者可以选择是否允许使用,也许会商讨获得有偿使用的条件,最终进入其所属管辖区所要求的道德认同程序。

这一切将意味着基因组学的真正变革,并为数据捐赠者提供比以往更好的保护。区块链能实现这种功能,还因为它除了极强的加密性之外,还具有管理交易的优势。拥有大量基因组数据的研究机构和公司可以获取许可证存储数据,而不用担心道德问题,从而使他们专注于科学。

问:我们怎么知道区块链是不可破解的?区块链难道不是一个被吹捧起来的老式加密数据库吗?

答:银行有一个加密数据库,其中包含你当前余额的唯一权威信息。虽然银行会备份和保护数据,但仍然可能被黑客入侵或操纵——这种现象比银行自己所揭露的情况还要严重。电视剧《黑客军团》讲述了一群黑客如何引发金融数据大灾难的故事。这在区块链领域(比如支持比特币的区块链)几乎是不可能的。因为一个节点被入侵,其余数万个节点将立即驳回被操纵的记录。

这就是美国银行、美林证券、桑坦德银行、加拿大皇家银行、普华永道和许多其他银行、保险公司及金融机构进行区块链技术密集研究的原因,即区块链难以入侵。

拜占庭将军问题证明需要协调至少三分之一的节点才能成功攻击一个区块链网络。这并不意味着数据是100%安全的,但是攻击区块链比攻击其他任何安全措施需要更多的时间和资源。这是军事和银行领域对区块链感兴趣的另一个原因。

其另一种好处是,区块链基本上是作为一种对等技术构建的,即无论何时何地都是可用的。区块链也有限制,主要是大小和速度方面的,但它们提供了前所未有的隐私保护、安全性和所有权。

问:基因组非常庞大。您觉得存储基因组数据时会遇到困难吗?

答:当然会有困难。存储和共享基因组数据是许多人试图解决的一个技术问题,计算对研究来说是一种福音。原始基因组数据文件大约有5到6GB的信息,因为人类基因组长度为30亿个碱基对,并且当基因组测序时,需要做很多重要的关联标记。

目前,全基因组测序还非常昂贵,因此这些数据的数量难以控制。千人基因组计划将所有的基因组测序结果放在网络上,可以免费下载这些序列并使用,但要通过数据进行管理和筛选是不方便的。他们对数据进行了压缩,因为人类基因组99.5%的部分都是相似的,所以我们基本上可以忽略所有相同的东西,只关注差异,这样可以使有用的数据集更小,更易于使用,是一种好方法。

即使如此,一旦你收到很多这些文件,就仍然需要处理大量的数据,所以我们必须找出更好的方法来压缩数据,避免丢失。以我们的实践为例,我们正在使用“深度学习”技术,基本上使用人工代理来为我们做数学计算。

问:法律能解决关于基因专利的问题,为什么不催促法律对基因组数据进行保护呢?

答:对基因组数据的法律保护意味着两件事:确保数据管理者对数据最大限度的保护,并惩罚那些滥用数据的人。确保保护数据的最佳手段在很大程度上是一个技术问题,到目前为止,解决方案尚不充分。可能会有惩罚数据入侵者和滥用者的社会需要,但是在技术足以应对这种任务风险之前,我们不能只指望法律实现妥善保护。

另外,由于Myraid公司的案例证明人们不可能拥有基因组数据,所以技术方案可能是为人们的数据提供某种财产保护的最佳途径。法律和技术可以携手解决这些类型的问题,但有时可能必须要技术来带路。

问:基因组数据现在是如何存储的,我们应该为此担心吗?

答:有些是公开存储的,就像千人基因组计划的数据一样,不过隐藏了捐赠者的姓名。但最近的一项哈佛研究显示,公共资料可能很容易重新识别,根据约一半的资料可以确定捐赠者的身份。这对于那些为帮助科学发展而贡献了数据,认为自己的敏感数据不会被透露的人来说绝对是值得担忧的。

依靠私人存储的数据的商业实体和研究机构使用Oracle云数据库中的任何内容将硬盘驱动器锁定在保险柜或文件柜中,这可能符合当前的道德准则,但跟区块链比起来肯定不是最先进的,也不适合在科学中的应用。我们当然要求自己所有重要的个人资料得到更好解决方案,而基因组学要发挥科学和医学潜力,则应该最大限度地满足我们的隐私和安全需求。