陪审团的危机!法律界的“阿法狗”将找到犯罪真相

来源:彭博商业周刊 | 发布: | 发布时间:2016-07-30,星期六 | 阅读:1,345


撰文:Joshua Brustein

计算机会分析梳理被捕情况、犯罪类型以及人口统计学信息,从而生成风险指数
“给电脑输入足够多的数据,它就能自己算出结果”

在回顾过去几年来美国国内由于偏见和治安执法所引发的骚乱时,历史学家们不大可能注意到埃里克·卢米斯(Eric Loomis)的案子。2013年2月,威斯康辛州拉克罗斯市的警察逮捕了卢米斯,理由是他驾驶的车子有飞车枪击记录。在那之前,他曾被捕过十几次。卢米斯认罪,结果被判处6年监禁、缓刑5年。

和死在警方之手的菲尔兰多·卡斯蒂尔(Philando Castile)以及阿尔顿·斯特林(Alton Sterling)相比,卢米斯的遭遇并不引人注意——前两者遇害的过程都被拍了下来,并在网上广泛传播。但在一场围绕着执法过程中的技术应用所发起的辩论中,卢米斯的故事点出了一个关键的问题:在对他做出判决前,此案的法官收到了一个自动生成的风险评分,判定卢米斯很可能会在未来实施暴力犯罪。

风险评分

美国各地的判决过程中已经频繁使用由算法生成的风险评分。计算机会分析梳理被捕情况、犯罪类型以及人口统计学信息,然后生成风险分数。这么做的目的,是要提供一个指导意见,而且这个意见不太可能被偏见、法官情绪或者其他人类固有缺陷所左右。使用类似的工具,还可以判断警官该巡逻哪片街区、犯人该被关到监狱的哪个监区,以及应该让谁获得假释。此类工具的支持者称,它们将有助于解决由来已久的不公正问题,对此持批评态度的人则说,通过把旧的偏见隐藏在电脑化精确操控的外衣之下,这些工具将有可能加剧司法不公。一些人认为,司法不公是抗议者参加“黑人的命也是命”(Black Lives Matter)集会活动背后的诱因。

卢米斯是这场争论中一个出人意料的支点:他是白人。当卢米斯就其风险评分提出抗诉时,他引述了许多从根本上批评此类工具的论点,比如它们的算法太神秘、不适合在法庭上使用。近期,威斯康辛州最高法院驳回了卢米斯的抗诉,但高院的裁决也认可了他的一些核心诉求。法律专家说,如果有人想对使用此类技术是否违宪进行探讨,该案提供了一个起点。

宾夕法尼亚大学教授理查德·伯克

要想理解这些在全美范围内应用的算法,最好和理查德·伯克(Richard Berk)聊一聊。几十年来,他一直在编写这类算法(不过给卢米斯打分的工具并不是他写的)。伯克是宾夕法尼亚大学(University of Pennsylvania)教授,他个头不高、剃着光头、身材结实,散发出一种“谅你也不敢说不”的强大气场,可能会让人们误以为他曾经当过警察。事实上,他一直以来都是个统计学家。

监狱使用他的工具确定该把哪些犯人关到高度警戒区,假释部门用他的工具判断该对哪类假释人员采取更严格的监视手段,警官则用来预测曾因家庭暴力被捕的人是否会再次犯罪。他编写过一个算法,可以告诉美国职业安全与卫生管理局(Occupational Safety and Health Administration),哪些工作场所可能违反安全方面的规定,但他也说,该局从来没有用它来解决过任何问题。从2016年秋天开始,宾夕法尼亚州计划运行一个试点项目,在做出量刑裁决时使用伯克编写的系统。

随着伯克的成果在全美得到应用,他的想法也显得越来越大胆。他目前正在致力于一种算法,据他说,这种算法将能在人出生的那一刻便预测出他/她是否会在18岁那年犯罪。伯克认为,只要他能取得所需数据,此类算法在应用上就毫无障碍。

“现在的政策采取的立场是,和把天行者卢克关禁闭相比,把达斯·维达放出来要危险得多”

这类讨论显然会让人们感到不适。5月一个阳光明媚的周四早晨,当伯克走进宾大校园里一处地下室参加会议时,他很明显地感觉到了这一点——因为他成为了会场最不受欢迎的人。那天他被安排参加第一小组的讨论,而事实上,那场讨论是要针对他的成果展开批评。伯克坐在会场里,摩拳擦掌,准备就他的学术成果和大家展开激烈辩论。

《少数派报告》(Minority Report) 电影片段

站在讲台那里主持辩论的是一位名叫桑德拉·梅森(Sandra Mayson)的研究人员。“这场讨论的主题是‘少数派报告’(Minority Report),”她说。少数派报告原本是汤姆·克鲁斯主演的一部电影,讲的是政府雇佣了三个心理特异人士去甄别有可能实施谋杀的人,并在这些“预谋犯罪人员”采取行动之前就将其逮捕。伯克会后说:“偶尔我也会用它来打比方,因为没办法避免人们联想到它。”

在接下来的一个小时里,讨论组的其他成员轮番质疑了以伯克算法为代表的预测性技术的科学诚信度、实用性和基本公正性。随着讨论深入,伯克开始显得烦燥不安。他一会儿瘫坐着、双手交叉搁在肚子上,一会儿又身体前倾、十指不停地屈伸;他记了几行笔记,接着用手撑着下巴,望向远处。

最后,他终于受够了这场辩论。他说:“下面是我从这场辩论中得出的结论:数据都没什么好,刑事司法体系烂透了,刑事司法体系中的各色人等都带有种族和性别偏见。如果以上就是此次讨论的要点,我们最好还是各回各家吧,没什么好讨论的了。”会场上发出了一阵讪笑。

伯克对犯罪的研究

伯克对于犯罪的研究始于1960年代末,当时他一边读研究生,一边在巴尔的摩做社工。在马丁·路德·金(Martin Luther King Jr.)遇刺后,巴尔的摩暴力事件大举爆发。伯克的研究生毕业论文研究了动乱中抢劫案的模式。他说:“你在当时不可能马上敏锐地感知到其中的深意,也不可能意识到刑事司法领域里出现的问题。这很像如今美国多地发生的骚乱。”

1990年代中期,伯克开始关注机器学习,也就是让计算机在大到人工无法筛选的数据集中寻找模式。为了设计一个模型,伯克得把数万份犯人的简历输进电脑。数据包括了犯罪者首次被捕的年龄、来自哪个街区、坐了多久的牢、是否是惯犯等。电脑会找出其中的模式,而以这些模式为基础,就可以对哪些犯人有可能再犯做出预测。

在伯克看来,机器学习的一大优势就在于人们因此不必揣测犯罪者的动机和原因。他说:“我们还没有很好的理论来解释这些问题。”给电脑输入足够多的数据,它就能自己算出结果,而不必根据犯罪倾向来源这种玄之又玄的理论来做出判断。这是一个很有吸引力的点子,但每当本该中立的算法产生了不中立的结果时,这种点子都会遭到批评。在一项被广泛引述的研究中,研究人员发现,谷歌的自动广告服务软件更有可能把薪水较高的工作推送给男性而非女性。另一项研究则发现,和在网上搜索明显是白人名字的名字相比,在搜索明显是黑人名字的名字时,更有可能显示查询逮捕记录的广告。

计算机科学家有一句格言:“垃圾进,垃圾出”(Garbage in, garbage out)。套用到这个例子里,其中的垃圾便是刑事司法体系几十年来形成的种族和社会经济方面的巨大差异。基于历史犯罪统计数据预测未来的犯罪行为,有可能把过去的执法模式和认为特定人群(几乎全部是穷人和非白人)有犯罪倾向的想法划上等号。

伯克毫不迟疑地承认了这种担心的合理性,不过很快又不把它当回事了。在他编写的任何一个系统里,种族都不是输入项,而且他说,他自己的研究表明,无论是哪个种族,他的算法都会得出类似的风险评分。他还说,他做出来的工具并不会被用来实施惩罚,更多的时候是用来甄别出那些不会为法官和缓刑官添乱子的人,因此可以改变判罚殊高、审判期过长的问题。

费城项目

2006年,伯克开始和费城成人缓刑与假释处(Adult Probation and Parole Department)合作。当时,费城面临着谋杀案多发而预算很少的难题,市里的缓刑和假释项目需要监控大量人口。市政府想知道哪些人才是真正需要严格监管的。伯克和来自宾夕法尼亚大学的一个小型研究团队编写了一个模型,以确定哪些人最有可能在缓刑或者假释期间企图实施谋杀。伯克基本上是在义务工作,没从费城领过分文报酬。

当然,人们也经常会问,风险评分的准确度有多高。伯克说,根据他自己的研究成果,在针对某人是否属于低风险人士的预测中,错误概率大概在29%到38%之间。但他说,一味关注准确度反倒没有抓住它的精髓。在犯罪这件事情上,有时候最好的答案并不是统计学上最精确的那个。就好像天气预报员宁可预报有雨,因为没有谁想在下雨时恰好没有带伞一样,法院系统想要的也是那种会有意过度放大风险、认为所有人都有犯罪可能的技术。同一个人即可以被视为高犯罪风险,也可以视为低风险,这都取决于政府把区分高低风险的线划在哪儿。伯克说:“现在的政策采取的立场认为,和把卢克天行者关禁闭相比,把达斯·维达放出来要危险得多。”

费城的计划是向那些犯罪风险较高的人提供认知行为治疗,并通过减少花在其他人身上的监视费用来抵消这部分成本。当伯克提出达斯·维达的问题时,假释处负责该项目的乔弗里·巴尼斯(Geoffrey Barnes)起初认为,把达斯·维达放出来比把卢克天行者关禁闭危险十倍。伯克认为,如果以这个数字作为起点,他的算法将把8000到9000人划为预备杀人犯。政府官员发现他们负担不起那么多人的治疗费,于是请伯克编写一个没那么严格的模型,因此伯克的团队进行了相应的调整。巴尼斯说:“我们有意让模型没那么精确,但同时也努力确保它即使在出错时也产生正确的错误。”

星球大战角色达斯·维达

后来,这个项目把费城市所有缓刑和假释的人都划分到了高犯罪风险、中犯罪风险和低犯罪风险三个档次里,对于被伯克的系统认定为低犯罪风险的人,市政府大幅降低了对他们的监视强度。在2010年的一次研究中,伯克和费城政府官员称,在风险评分类似的情况下,和处于传统假释和缓刑状态下的人相比,那些被给予更为宽大对待的人因暴力犯罪而被捕的可能性更小。而被划定为高犯罪风险的人被提起暴力犯罪指控的可能性则要高几乎四倍。

自费城项目之后,伯克在马里兰州和宾夕法尼亚州全州范围内的假释体系都搭建了类似的项目。宾州的一份内部分析显示,在2011年和2014年之间,大约有15%的假释申请人基于风险评分得到了不同的假释裁决。和以往的假释人员相比,在此期间获假释的人员被再次逮捕的情况大大减少。结论是:伯克的软件帮助州政府做出了更明智的决策。

宾夕法尼亚州缓刑和假释委员会(Board of Probation and Parole)发言人劳拉·崔斯特(Laura Treaster)说,宾州并不确定种族是否会影响到软件打出的风险评分。她说:“我们还没有分析到这一点,不过需要指出的是,假释和判决很不一样。委员会并不是在确定有罪或者无罪,我们关注的是犯罪的风险。”

不过,法院判决是伯克风险评分应用的下一个前沿领域。事实证明,使用算法来决定一个人要坐多久牢,比用它们来决定让谁提前出狱更具争议性。

Compas

威斯康辛州的法院用的是Compas,它是一款颇为流行的商业工具,由密歇根一家名叫Northpointe的公司开发。根据该公司的介绍,在被这款软件认定为高犯罪风险的人里面,大约有70%的人被再次逮捕。在卢米斯的抗诉申请中,有一部分内容针对的就是Northpointe拒绝分享其算法细则——公司称这涉及到公司间的竞争。卢米斯说,不允许被告人检视针对自己的证据,这违反了既定的法庭程序。(伯克分享了自己系统的代码,并批评了Northpointe的做法。)

就在法院还在考虑卢米斯的上诉时,新闻网站ProPublica发布了一份调查报告,他们查看了佛罗里达州一家法院在2013年和2014年使用过的Compas风险评分,发现黑人被标注为高犯罪风险、但后来并没有犯罪的可能性几乎是白人的两倍,同时,当都被评定为低犯罪风险时,白人再次犯罪的情况则比黑人常见得多。Northpointe对这些发现表示了怀疑,称ProPublica对许多风险评分分类有误,该公司对同一批数据进行了自查,并没有发现种族之间的差异。

尽管维持了对卢米斯的判决,但威斯康辛州最高法院还是引述了这篇针对风险评分种族差异的研究,对Compas等工具表示关切。最高法院还更进一步要求在风险评分之外附上免责声明,说明其算法不透明的问题,并对其结论提出相应的警示信息。最高法院还说,风险评分不得被用作确定裁决时的决定性因素。最高法院的这份裁决,也是这一级别的法院首次对判决时使用风险评分一事表示出矛盾的心态。

密歇根大学法学院教授、著名风险评估评论家桑加·斯塔尔(Sonja Starr)认为,卢米斯的案子预示着更激烈的法律论证即将到来。卢米斯在人口统计学方面提出了自己的理由,说Compas之所以认为他的犯罪风险更高是基于他的性别,也就是说历史上男性被捕的概率高于女性。但他并没有把这件事说成是Compas违反了宪法第14条修正案中的平等保护条款(Equal Protection Clause)——该条款允许法院回避核心问题。

卢米斯也没说风险评分歧视穷人的事。斯塔尔说:“每一种贫穷的表征都是一个风险因子,这种算法似乎也让法官感到困扰。我想很快就会有更多其他案子抗诉成功。”

在过去的6年里,宾州官员一直准备在法庭判决中应用风险评估,他们对这些潜在的隐患也很敏感。宾州的经验显示出通过公共政策流程开发算法的复杂性。为了打造一个政治上可以接受的风险评估工具,宾夕法尼亚州成立了一个判决委员会。它很快拒绝了Compas这样的商业产品,认为它们太贵也太神秘,所以委员会开始打造自己的评估系统。

种族因素是否为变量

“如果你想让我做出完全与种族无关的预测,就必须告诉我你能让我使用哪些变量,但是没人能做到这一点,因为一切变量都和种族以及性别有关”

宾州方面一开始就不同意将种族作为输入变量,但所有其他因素是否成立都值得一辩。这个州一开始想把地理位置作为变量,因为它认为地理位置在预测谁会再次犯罪方面具有统计学意义,但宾夕法尼亚刑事辩护律师协会(Pennsylvania Association of Criminal Defense Lawyers)称,由于一些社区事实上出现了纯白人或纯黑人的局面,因此地理位置也是种族的代名词。还有一个问题在于,评估系统使用了逮捕而非定罪作为指标,对于那些生活在监管较为严厉的社区的人似乎有不公之嫌。

伯克辩称,消除敏感因素会降低算法的预测能力。他说:“如果你想让我做出完全与种族无关的预测,就必须告诉我你能让我使用哪些变量,但是没人能做到这点,因为一切变量都和种族与性别有关。”

斯塔尔说,这一理由混淆了学术研究和司法体系中存在的不同标准。在社会科学中,计算特定群体成员做出特定行为的相对似然性是有用的,但这并不意味着某一特定个人的未来应当根据针对整体人群的犯罪统计数据计算出来,当使用的数据集反映出数十年来种族和社会经济的差异时,尤其不能这么做。斯塔尔说,这样做的结果就是一个计算机版的种族形象定性。她说:“如果变量不合适,就不应该依靠这些变量。”

2016年春末,伯克去了趟挪威,会见了来自奥斯陆大学的一群研究人员。挪威政府收集了大量关于挪威公民的信息,并让每一条信息都和一个独立的身份文档连接在了一起,从而储备了一个很有吸引力的潜在输入变量集。

托比昂·斯卡德哈玛(Torbjørn Skardhamar)是奥斯陆大学的教授,他对使用机器学习做长期预测很感兴趣,安排伯克访问的也是他。在将预测分析手段应用到刑事司法实践方面,挪威已经落在了美国的后面,于是他们二人交换了一些想法。

伯克想基于环境以及新生儿父母的过往,在一个人出生的时候就预测出他/她是否会在年满18岁时犯罪。这在美国几乎是不可能的,因为一个人大部分的个人信息都分散在许多机构、受到许多限制。伯克不确定在挪威是否能收集到这么多的信息,他承认自己也还没有完全想清楚怎么使用这些信息才是最好的。

尽管收到了很多警示信息,但这个项目有可能会成为伯克职业生涯中成就最高的那个。该项目还要考虑到所有伦理和政治上的疑问,并给它们一个符合逻辑的结论。即使是在电影《少数派报告》中,政府也只能窥探到未来几个小时、而不是几年的情况。刚刚接触这些预测技术的斯卡德哈玛说,他不怕犯错误:他说他们现在正在讨论这些技术,所以可以避免未来犯错。他正在思考项目可能犯的所有错误,并说:“这些问题都很复杂,把它们搞明白了,就是好事。”

编辑:王冰妍、黄雨洁



 

版权声明

文章编辑: ( 点击名字查看他发布的更多文章 )
文章标题:陪审团的危机!法律界的“阿法狗”将找到犯罪真相
文章链接:http://ccdigs.com/83365.html

分类: IT观察, 国际观察, 新闻视线, 科技新闻.
标签: , , ,

发表评论