西西河

主题:【原创】就Google事件说说中国的数据安全问题 -- yaodao

共:💬24 🌺95 新:
分页树展主题 · 全看 下页
  • 家园 【原创】就Google事件说说中国的数据安全问题

    看了晨枫的<谷歌事件与希拉里>一文感慨良多

    链接出处[ 晨枫 ]

    尤其是这段:

    "但谷歌要是真的在中国市场做大,达到80%以上,同时占领gmail、doc、数据库等领域,那这是一个比CIA、NSA厉害千万倍的情报机关,连国安都望尘莫及。谁有那么大的数据库,可以精确地计算从民意项背、政治团体状态到个人习惯?"

    最后一句问的好.在搜集中国数据方面,谷歌还不算是最可怕的.可怕的是以各种科研名义在中国进行的关于人群,经济,疾病,基因等的研究.目前国内对这方面的管理实在太松懈了,再加上国内科研人员的麻木,甚至是为了一点蝇头小利而枉顾国家安全,把大量的原始人群,种族甚至是基因资料直接输往国外.这种情况随着国内对SCI要求的提高迅速恶化.前天跟朋友聊天,朋友说起这种种乱象,一上网查,果有其事,这可是不打自招的证据,呵呵,见下:

    "Data were entered through the Internet to a secure, central,

    password-protected database located at The George Institute for International Health in Sydney, Australia."

    外链出处(第二页)

    有兴趣的人可以看看,可以想想,这种大量的原始数据的直接输往境外意味这什么?除了文章中的(已经挺有意思了),其它的还有什么?病人的隐私如何保障?

    我想大家可能还记得那个哈佛的把大量中国血样偷往国外的案例.虽然暴光后国家收紧了生物样本出口.可这种更快捷,效率更高的用网络输出关于中国人群,种族,经济,军事,金融,医药,基因等大量,可靠,原始资料的手段,却并没有有力地管理起来.

    我不了解象The George Institute for International Health in Sydney这样的科研机构到底在中国做科研的目的是什么,也不可否认这样的科研机构为国内科研的提高做除了贡献,可问题是这样的机构拥有了威胁中国人,及国家安全的能力.即使我们不能对这些科研机构做什么,可我们国内的合作者呢?为什么要同意把数据直接输往国外呢?

    中国科研数据安全管理急需加强,提高科研人员数据安全意识刻不容缓.

    通宝推:唵啊吽,穆莱特,南方有嘉木,故园湾里,

    本帖一共被 3 帖 引用 (帖内工具实现)
    • 家园 我觉得引用的例子并不恰当

      "Data were entered through the Internet to a secure, central,

      password-protected database located at The George Institute for International Health in Sydney, Australia."

      从链接给出的文献看这是个由国际慈善基金和药厂资助的大型国际合作项目,经由各参与单位(国内的和国外的)的伦理委员会批准。文章的第一作者是澳大利亚的学者。通常文章第一作者是参与开展课题及数据分析的主要人员,当然需要接触原始数据。这些直接输出的原始数据是按课题设计方案(问卷)收集的调查数据。除此之外,这个课题没有收集病人的样本与遗传资料。按伦理委员会要求是不会包括病人隐私资料,病人一般会统一分配一个唯一的编码,并配有性别、年龄信息。原始的调查问卷是各自保存在参与的医院,病人隐私资料与编码的对应是对大部分课题参与人员保密的。按谁出钱资助谁应得数据的一般原则,不包含病人隐私资料的问卷资料(计算机资料)是可以传出的。如果连这种合作方式也要限制,那就不要谈国际合作了。

      • 家园 您说的是理想状态,而且不准确

        "这个课题没有收集病人的样本与遗传资料"

        确实如此.但关于涉及经济,地理,族群,发病的national wide的人群资料,其敏感性也一直被低估,尤其是国内的科研人员.因为你不知道这些资料会被用来干什么?给你举个与这个案例不相干的另一个例子,某机构收集了西藏近十年医院服务质量的数据,"没有收集病人的样本与遗传资料",也没有任何关于病人隐似的资料,您觉得这些资料能直接外输吗?

        "通常文章第一作者是参与开展课题及数据分析的主要人员,当然需要接触原始数据。"

        这可不一定,对敏感数据的分析完全可以找国内机构做,只要有PROTOCOL,文章第一作者,甚至所有作者根本没必要接触所有原始数据.有REPORT足够.

        "除此之外,这个课题没有收集病人的样本与遗传资料。按伦理委员会要求是不会包括病人隐私资料,病人一般会统一分配一个唯一的编码,并配有性别、年龄信息。原始的调查问卷是各自保存在参与的医院,病人隐私资料与编码的对应是对大部分课题参与人员保密的。"

        您确定这个REGISTRY是完全按照以上要求的?

        您确定"原始的调查问卷是各自保存在参与的医院,病人隐私资料与编码的对应是对大部分课题参与人员保密的。"?

        "按谁出钱资助谁应得数据的一般原则,不包含病人隐私资料的问卷资料(计算机资料)是可以传出的"

        您说的不准确,出钱资助不是"应得数据"理由.数据收集方完全可以拒绝原始资料的传出.原始资料与STUDY REPORT是完全不同的两个概念.

        "如果连这种合作方式也要限制,那就不要谈国际合作了。"

        您又说的极端了.以上所举的例子确有不合规范之处.数据敏感性先不论,已有明确证据证明本人所举的例子并不完全按您所说规范操作的.不能因为要国际合作就忽视数据安全,不是吗?况且只要操作规范合理,谁说国际合作非得一定要原始数据的?这不正是证明国内有关科研人员的无知和麻木吗?

        "Data were entered through the Internet to a secure, central,password-protected database located at The George Institute for International Health in Sydney, Australia."

        您确认您知道这句话后面到底发生了什么吗?

        国内科研人员有这样想法的太多了.对人群数据敏感性基本没什么概念(您可能例外).

        象这样的话题,关注的人也不会太多.没有任何针对您本人的意思,只是借着您的回言就事论事,发发牢骚.请包涵.上花.

        • 家园 你得到和使用过类似的数据吗?

          你知道美国全国的医院使用数据(不包含病人隐私资料)只要付一点手续费就可以获得吗?我最近刚得到最近几年的数据,里面的数据项比你关心的经济,地理,族群,发病信息多的多也详细的多。好像没有限制外国人不能接触这类数据。

          另外,你认为“完全可以找国内机构做”数据分析,你见识过他们的分析水平吗?

          对不太了解的领域,也许多问比直接评论更有用点儿。

          • 家园 咱就是做医用数据库的

            "美国全国的医院使用数据(不包含病人隐私资料)只要付一点手续费就可以获得吗"

            不知一点是多少?是什么样的全国医院使用数据?去年刚做的一个项目,一份MEIDICAL RECORD review >$300, 一份.

            我也不认为什么数据都不能共享,我本文想要强调的是:不能对所有类的数据都认为可以共享.

            "里面的数据项比你关心的经济,地理,族群,发病信息多的多也详细的多"因为不了解您所说的数据库的内容,没法做判断.不过您可以试试能不能接触(甭说现役)Vet的data?

            您所得的数据可以共享.并不能说明我文中所指的数据一定也可以共享.同样的数据出自美国可以对美国无害并不意味着同类的数据对中国无害,您说是吗?比如我上文中的西藏的例子,无论正反面,都会被有心人作为攻击中国民族政策的借口,这不是凭空臆测吧?还有,里面包括部分驻藏军人的体检资料,是不是也可以直接外输呢?

            "另外,你认为“完全可以找国内机构做”数据分析,你见识过他们的分析水平吗?"

            太见过了.很可笑.但也不是无视数据安全的借口,不是吗?

            但有好的(本人亲自同事过).最主要的(我个人认为)是国内科研人员不重视,一个国家几千万的项目没有统计和数据管理的预算.前几个月还有人找上我,说一个国家XXX计划的项目(大样本)要结题,数据还没清理,给一个月的时间,RMB5,000出报告.您说可笑不?所以想要出东西,就只有把原始的全给人家,因为自己不懂嘛!

            "对不太了解的领域,也许多问比直接评论更有用点儿。"

            不知您指哪个领域?咱评论的东西自己都干了快十年了.在自己的领域被人说"不太了解"还真是第一次,真没面子,呵呵.

            我想咱俩说的是两回事,我说的是不能把所有的原始资料都一股脑给出去,尤其是敏感的人群资料.您说的是要交流就得信息共享.感觉两者没矛盾啊????!!!!!

            • 家园 同意你最后的观点

              我说的是不能把所有的原始资料都一股脑给出去

              这是合作的常识,一方将全部原始资料给出就没有什么可玩的了。所以我很少见到将原始资料全给合作方的情形。

              医用数据库和临床调查研究的数据还是有很大的不同的,不能等同起来。

              另外,你提到

              某机构收集了西藏近十年医院服务质量的数据

              你知道这个数据有多详细?涉及多少家医疗机构(医院)的数据?你知道国内数能将多家医院的医用数据库统一起来,而且还近十年?我了解的是:没有。所以这个某机构能收集的只是普查资料。

              • 家园 看来是同行啊!

                这是合作的常识,一方将全部原始资料给出就没有什么可玩的了。所以我很少见到将原始资料全给合作方的情形。

                这样的我见太多了.关键是国内的人就是这么做的,首文中就是个例子.我整个担心的也是这个.我之所以写这个文,就是针对这种情况的.

                医用数据库和临床调查研究的数据还是有很大的不同的,不能等同起来。

                同意,意义不同应区别对待.数据的安全规范应明确话,并应有效监管起来.

                你知道这个数据有多详细?涉及多少家医疗机构(医院)的数据?你知道国内数能将多家医院的医用数据库统一起来,而且还近十年?我了解的是:没有。

                三年前我会和你一样的结论,可现在不会了.

                我提的其中一个数据库,>1xx家医院,>1xxx variables. 有x年的资料是RETRO reviewed.花了两年时间.这几年国家真正开始重视了.

                • 家园 多谢解释

                  不知道你是做数据库,数据处(管)理,还是数据分析的?

                  我主要是数据分析。

    • 家园 因为在中国做医学实验伦理方面的顾忌

      很少。病人的隐私也很少需要考虑。所以很多CRO打着这种旗号到西方揽生意。而且成了一个主要买点。没办法国情/现状。

    • 家园 科技杂志的目的就是收集信息,

      如果免费那可以互相交流,可是现在有几个免费的?我这个行业一般25美元到35美元一篇文章,很贵。

      我们发表到国外杂志上的文章,国内自己人再想要就得购买。

      而大部分的科技杂志都在欧美。国内最近几年也有进步,自己的英文技刊开始有,还是太少。

      • 家园 这是另一个角度

        也不错.

        "我们发表到国外杂志上的文章,国内自己人再想要就得购买。"

        这也是话语权的有力体现.看看国内有多少真正有影响的科研杂志?

        对比欧美的科技杂志(也许有些片面),我们能对中国在全球中到底是个什么位置会有清醒的认识.

        G2? 还是歇歇吧.任重道远啊!

        • 家园 别说中国人自己办好杂志了

          在我这个学科,只要中国人文章发得最多的杂志,都可以把这个杂志的水平给往下拉

          中国人都可以把国外的杂志水平往下拉,呵呵,自己怎么可能办好杂志??

    • 家园 安全是靠自己争取的

      不是谷哥太强,是国内厂商太差。百度如果只抱着中文市场,早晚得像当年的中文外挂平台一样,趋于没落。

      人家有技术,有钱,有市场都不可怕,最可怕的是人家有更受用户支持的信念,而我们的厂商没有。

      想想看,如果百度不搞竞价排名,他还会这么让用户疏离吗?

      按照这个趋势,将来搜索就会变成,要么头1-10页中随机N页全是广告;如果不看广告,可以,包月10元起,另送本地天气预报...

      获得安全的最好办法不是拒绝交流,而是通过努力登上制高点。

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河