首页 >> 科技 >>列表

如何让“算法公平”成为机器学习的一部分?(原创)

网络整理 2020-01-13 16:00:11 作者:乱世惊梦

也许每一个还在追求模型效率与性能的算法工程师,都应该开始考虑将设计公平性引入自己的工作当中。

如何让“算法公平”成为机器学习的一部分?(原创)

大数据和人工智能的崛起,为我们的生活带来了许多的便利。

当我们打开新闻客户端,看到的不再是千篇一律的编辑推荐,而是AI引擎对我们日常喜好进行学习后精心准备的新闻;当我们打开电商 App,看到的不再是商家想要卖什么,而是我们想要买什么;当我们打开旅游网站,看到的也不再是那些人满为患的旅游经典而是为我们量身定制的旅游路线。

但同时,这也为我们带来了一些隐忧——由于每个人看到的内容都是不同的,那么AI是否会把更贵的产品卖给我,或是更偏激的观点推送给我?

事实上,这是完全有可能的,在国内甚至已经有了一个专有名词来形容这一现象“大数据杀熟”

但有时,算法不止决定了商品的价格和推送的内容,随着人工智能被应用于反恐、征税、案件预审、医疗、保险等公共领域,算法的判断还决定着我们每个人的公民福祉。

这样的例子在全世界已经多次发生,比如Twtter的聊天机器人在上线一天之后就被网友“教”成了满嘴脏话的坏孩子,不得不被迫下线;Google Photos 的照片智能识别功能将黑人与黑猩猩分成了一组;求职网站的广告会默认为女性用户推送比男性用户薪水更低的广告等等……

在美国,甚至有法官对一个仅有偷车行为的嫌犯下达了 8 年有期徒刑的判决,理由只是因为协助审判的人工智能工具 COMPAS 认为此人“极具危险”。

正如我们之前在《西部世界,能给现实世界的人工智能带来怎样的启示》一文中提到的,由于人工智能(无论是现实中还是科幻作品中)总是通过一个快速且脱离人类社会与历史的学习来完成自我构建,所以他们存在天生的“道德缺陷”。

那么,在现实中是否有一种方法,能够将反歧视——或者说算法公平——植入到机器学习模型的设计中呢?

答案是:或许可行。

在最近的一期哈佛商业评论上,弗吉尼亚大学麦金泰尔商学院商业分析中心的副院长 Ahmed Abbasi、弗吉尼亚大学麦克因泰尔商学院的信息技术助理教授李晶晶、埃默里大学生物医学信息学系主任 Gari Clifford 和默尔豪斯医学院的医学教授和心血管研究所所长 Herman Taylor 联合署名发表了文章 Make “Fairness by Design” Part of Machine Learning,文章从产品构建的角度阐释了一些防止算法歧视的思路。

之所以这篇文章的作者中有几位医学专家,是因为这些经验是他们在一个与美国联邦政府合作的物联网医疗平台设计中总结出来的。

该项目通过移动终端和各种物联网设备搜集数据,通过机器学习模型对这些数据进行处理并形成中风和早期心血管疾病的预测,并帮助医生做出诊疗判断。

在项目设计中,他们采用了这些步骤来减少算法形成种族、性别歧视的可能性:

1. 将数据科学家与社会科学家组队

通常来说,数据科学家与社会科学家有着不同的话语体系。

对于数据科学家来说,“bias”(偏差/偏见)具有特定的技术含义——它特指的是分类模型中的分割水平。

类似地,术语“discriminatory potential”(判别潜力/歧视性潜力)是指模型能够准确区分数据类别(例如,判断心血管疾病高风险和低风险的患者)的程度。

在科学数据中,找到更大的“歧视潜力”是首要目标。相比之下,当社会科学家谈论 bias 或 discriminatory potential 时,他们更可能是指公平问题。社会科学家通常能够更好地提供关于公平和偏见的人文观点。

在他们的项目中,从一开始就确保包括心理学家、心理计量师、流行病学家以及专门处理不同人群健康的人在一起工作。这使整个项目团队能够更好、更及时地了解可能蔓延到机器学习过程中的人口偏差。

2. 谨慎打标签

在构建模型之前,团队拿到的原始大数据往往并非是结构化的,比如用户输入的大段文字或是一些影像学检查的图片。

而这些非结构化的数据会先经由人类进行一次结构化的打标签,再用于训练机器学习模型。

这种做法在机器学习领域十分常见,比如 Google Photos 就有一个页面允许你帮助判断一张图片是否是猫。

如何让“算法公平”成为机器学习的一部分?(原创)

在更复杂的情况下,可能还需要让人工来判断哪些文本带有正面情绪,哪些是负面情绪。

人工打标签服务已经成为一种大数据时代的典型商业模式,许多众包平台和外包公司都会承接科技公司海量的数据流水打标签。

但由于人类本身就存在基于文化、种族和宗教的偏见,因此在打标签过程中这种偏见可能被转移到结构化的数据上。

在文章作者的项目中,他们预计这可能会给最终模型带来偏见。

上海联通信息港 - 为网友提供互联网每日热点内容
上海联通信息港是一个自媒体内容聚合分享平台,为网友提供互联网每日新闻和热点内容分享,今日看点新闻头条增长知识!