联邦学习或可破解机器学习数据获取难题

作者: 时间:2019-09-05 点击数:

随着人工智能的不断发展与落地,用户隐私问题越来越受到重视。近日,人工智能大数据公司因为违反相关法规而被罚巨额罚款,用户隐私问题再次回归大众视野。人工智能企业在分享数据的同时应遵守哪些道德原则?隐私保护法规对于AI的发展与落地而言是机遇还是挑战?更强大的数据保护法规是否会减缓AI的发展速度?在日前召开的第28届国际人工智能联合会议(IJCAI)上,业内专家提出了当今各行业在处理数据、实现AI落地需要共同面对的多个问题。

“在《通用数据保护条例》等隐私保护条款实施的前提下,数据处理与隐私保护并不是一场‘零和博弈’的关系,二者的关系需要被正确对待,以实现双赢的局面。”华盛顿大学教授、D. E. Shaw机器学习团队董事总经理兼负责人佩德罗·多明戈斯认为,企业在处理数据时,不要被数据的力量冲昏了头脑,需要重点考虑用户的知情权,承担起相应的社会责任。

如何解决AI应用中出现的“数据孤岛”和用户隐私难题?国际人工智能联合会议2019理事会主席、微众银行首席人工智能官杨强给出了解决方案:“联邦学习或是解决这两个核心问题的同一个解决思路。”

什么是联邦学习?“在保护数据隐私、满足合法合规要求的前提下,继续进行机器学习,这部分研究被称为联邦学习。”杨强说,开始联邦学习的背景是欧盟通过了《数据隐私保护条例》。该条例要求公司在使用数据前要先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎,这对于极度依赖数据的机器学习是一个巨大的挑战。

“联邦学习希望在不共享数据的前提下,利用双方的数据实现模型增长。”杨强举例,假设两家公司想要建立一个用户画像模型,其中部分用户是重合的。联邦学习的做法是,首先通过加密交换的手段,建立用户的识别符并进行沟通,在加密状态下用减法找出共有的部分用户。因为关键用户信息并没有得到交换,交换的只是共有的识别符,因此这并不违反《数据隐私保护条例》。然后,双方将这部分数据提取出来,将各自拥有的同样用户的不同特征作为输入,迭代地进行训练模型、交换参数的过程。多项测试证明了给定模型参数,双方不能互相反推出对方拥有的、自己没有的特征,因此用户隐私仍然得到了保护。在不违反《数据隐私保护条例》的情况下,双方的模型性能都得到了提高。

“数据安全和用户隐私目前已成为大数据时代的两大挑战,对于金融、医疗及法律等数据敏感行业更甚,联邦学习可以解决这两大问题。”微众银行AI部高级研究员刘洋介绍。

目前,联邦学习已经应用于多个行业的业务板块。未来,AI与用户隐私的平衡问题会持续伴随AI的发展。杨强表示,新一代的机器学习算法框架,需以保护隐私、安全合规为出发点,用透明的机制来保障人工智能的健康发展,联邦学习的发展提供了新思路。

文章来源:国家网信办

版权所有:河北农业大学信息中心   联系电话:0312-7526813,0312-7526800