智东西(公众号:zhidxcom)
编 | 子佩
智东西11月4日消息,随着越来越多关于人脸识别和图像分类中“种族歧(qi)视”的讨论,科学(xue)家(jia)们(men)也开始研究(jiu)如何量化(hua)评(ping)估图像模型和数据集中的“偏(pian)见(jian)”。
ImageNet图(tu)像(xiang)数据(ju)集(ji)(ji)通常被图(tu)像(xiang)分(fen)类AI模型用(yong)作(zuo)训练集(ji)(ji),它包(bao)含大(da)量(liang)从互联网中抓取的(de)照片,这也意味着如果模型是基于该数据(ju)集(ji)(ji)训练,那有(you)极大(da)可(ke)能会(hui)自动“继承”其在种(zhong)族(zu)、性别、体重等方(fang)面的(de)偏(pian)见(jian)。
卡内(nei)基梅隆大(da)学(xue)和(he)乔治华盛顿大(da)学(xue)的(de)科学(xue)家们近期开发(fa)(fa)出了(le)一种(zhong)新颖的(de)方法(fa),用于量化如种(zhong)族和(he)性别(bie)等(deng)社会偏见与图(tu)像之间的(de)关联,并在(zai)研究过程中发(fa)(fa)现图(tu)像模型确实在(zai)网络图(tu)片(pian)中自动(dong)学(xue)会“刻板印象”。

论文链接://arxiv.org/pdf/2010.15052.pdf
一、加入词嵌入技术,设计基准测试iEAT
很多公司(si)和研(yan)究(jiu)人(ren)员(yuan)会(hui)定期通过互联网中的(de)(de)图像(xiang)数据(ju)集训练机器学(xue)(xue)习模型(xing)(xing)。为了降低成本,许多公司(si)采用(yong)了迁移学(xue)(xue)习的(de)(de)方法(fa),也就(jiu)是先通过大型(xing)(xing)语料库(ku)训练最新模型(xing)(xing),再将训练过的(de)(de)模型(xing)(xing)转(zhuan)移到其他(ta)应用(yong)场景(jing),实(shi)现其他(ta)目标(biao)。
计算机视觉领域无监(jian)督训(xun)练越来越普遍,这意味着它们在(zai)训(xun)练过程中(zhong)不会使用任何(he)标签。只需参数(shu)微调(diao),研究人(ren)员在(zai)无监(jian)督学习产(chan)生的(de)类(lei)别(bie)中(zhong)挑选出所(suo)需的(de)类(lei)别(bie),以完成人(ren)脸识(shi)别(bie)、求职者筛选、自(zi)动驾驶和在(zai)线广告投放等工作。
为了量化不同模型(xing)产生(sheng)(sheng)的“偏(pian)(pian)见”,研究人员(yuan)基于词嵌入技术设计(ji)了基准测试(shi)——图像嵌入关联测试(shi)(Image Embedding Association Test,简(jian)称iEAT)。即对图像分类模型(xing)生(sheng)(sheng)成(cheng)的文(wen)本标(biao)签,进行一次词嵌入处理,将文(wen)本中的词转(zhuan)化为数字(zi)向量,通过(guo)比(bi)较不同模型(xing)生(sheng)(sheng)成(cheng)的向量结果(guo)来评估(gu)模型(xing)偏(pian)(pian)差。
二、基准测试实战:iGPT、SimCLRv2两模型battle
为了搞清楚在无(wu)监督预训(xun)练(lian)阶段(duan),图像(xiang)标签(qian)会产生哪些类型的(de)(de)偏差,研究人员(yuan)对去年夏天发布(bu)的(de)(de)两个计(ji)算机视觉模型进行了测(ce)试:OpenAI的(de)(de)iGPT和Google的(de)(de)SimCLRv2。
两者不仅预训练数(shu)据集(ji)是相同(tong)的(de),都采(cai)用包含来自Flickr和其(qi)他(ta)200个照片(pian)分(fen)享网(wang)站120万张已(yi)标记图(tu)(tu)像的(de)ImageNet 2012,而且生成标签的(de)方式也(ye)相同(tong),均基于图(tu)(tu)像特征训练集(ji)中的(de)隐性模式。
为了比(bi)较(jiao)两个模型中(zhong)的偏(pian)见,研究(jiu)人(ren)员从Google、CIFAR-100数据集等(deng)数据源中(zhong)找出针(zhen)对“年(nian)龄”、“性(xing)别”、“宗教信仰(yang)”、“性(xing)生(sheng)活”、“体重”、“残疾”和“种族”等(deng)极具(ju)争议(yi)话(hua)题的相关(guan)图片。
研究人员表示在iGPT和SimCLRv2中(zhong)都含(han)有“显著”偏差(cha),这可能由(you)于ImageNet中(zhong)数据的缺失。先前的研究曾表明,ImageNet在种(zhong)族和性别方(fang)面并(bing)不“公(gong)平”,例如(ru),在“新郎”的类别里,白人图片(pian)占大多数。
iGPT和SimCLRv2都在情感倾向和社会印(yin)象中都表现出种族偏见(jian)。
例如,当研(yan)究人员(yuan)使用阿拉(la)伯(bo)穆(mu)斯(si)林(lin)的相关(guan)图(tu)片(pian)进(jin)行iEAT基准(zhun)测试,就会发现两个(ge)模型都更倾向于将“阿拉(la)伯(bo)穆(mu)斯(si)林(lin)”定性(xing)为“令人不愉快”。
两个模型都将“白人(ren)”与“工(gong)具”、“黑人(ren)”与“武器”标(biao)记为相关,就像Google的计算机(ji)视觉服务Google Cloud Vision,曾把持有(you)温度计的黑人(ren)男(nan)子标(biao)记为“枪”一样。
除种族偏(pian)见外,研究人员也报告(gao)说,在预(yu)训练的iGPT和SimCLRv2模(mo)型中(zhong)性别(bie)和体重偏(pian)见也是很严重的问(wen)题(ti)。
当使用iEAT测试性别和职业的(de)相关性时,“男性”更倾向(xiang)于(yu)跟“企业”、“办公室”相挂钩(gou),“女(nv)性”与“孩子”和“家庭(ting)”等标签(qian)接近度更大。
基准测试也显示(shi)iGPT会将各学科与性(xing)(xing)别相关联,例如,“男性(xing)(xing)”更(geng)倾向(xiang)于“数学、工科等科学”,而“女性(xing)(xing)”更(geng)倾向(xiang)于“自由、艺术”。
无论所有性别和种族(zu),iGPT在基准测试(shi)中(zhong)都表示(shi),瘦弱的人“令人愉悦(yue)”,而超(chao)重的人“让人不适”。
研究人员还(hai)报(bao)告说,iGPT的图(tu)像预测(ce)功能更偏向于将输入图(tu)片(pian)定义为女性。
在测试中,研究人员向iGPT模型输入的男女头像,以生成全身图像。
无论原图中的男女是穿着常规的常务套装还是休闲运动服,iGPT都更倾向于为不同的头像“接上”丰满胸部或者泳衣。
三、解决刻板印象,需要更多突破
不幸的(de)是,这些(xie)结果(guo)都并不令人惊讶(ya),已经有数不清的(de)研究表明人脸识别中“偏见”盛行。
科罗拉多大学博尔德分校的研究人员去年秋天发表的一篇论文表明,来自亚马逊、克拉里菲、微软和其他公司的AI识别男女的准确率超95%,但将跨性别男性误认为女性的几率高达38%。
Gender Shades项目和美国国家标(biao)准与技术研(yan)究院(yuan)(NIST)对主(zhu)要供应商(shang)系统进行的独立基准测(ce)试也(ye)表明,人脸(lian)识别普遍表现出(chu)种(zhong)族和性别偏(pian)见。
但是,也有很多研(yan)究机构正努力使ImageNet等数(shu)据集更(geng)具包容性(xing)。去年,ImageNet开发者斯坦福大学、普林斯顿大学和北(bei)卡罗莱纳大学团队就(jiu)使用众包来识别和清除(chu)因为“偏见”而产生的(de)负面(mian)标(biao)签。
为了(le)消除数据集中的(de)(de)偏见,他们评(ping)估了(le)ImageNet的(de)(de)人种和地域多样性(xing),并开发了(le)一种工具来挖(wa)掘在(zai)性(xing)别、种族和年龄上更加多样化的(de)(de)图像。
结语:无公正,不标签
由于大(da)规模模型训(xun)练(lian)的(de)高计算量和能量消(xiao)耗,大(da)部分(fen)公司都会采用无(wu)监督(du)的(de)转移(yi)学习(xi)(xi),但(dan)也(ye)正(zheng)因(yin)为无(wu)监督(du)学习(xi)(xi)中不需要标(biao)签标(biao)注(zhu),所以获取的(de)数(shu)据极易(yi)带(dai)上网络中的(de)刻(ke)板(ban)偏见。
“通过分析这些(xie)图像分类模(mo)(mo)型(xing),我(wo)们能很明(ming)显地看(kan)出当今社(she)会对性别(bie)、种族有什么样的偏见(jian)。我(wo)们的iEAT基准测(ce)试(shi)也证(zheng)实,具(ju)有‘偏见(jian)’的图像模(mo)(mo)型(xing)会在社(she)会上(shang)传播刻(ke)板印象。”乔治华盛顿大学的研究人员(yuan)Carnegie Mellon强(qiang)调。
参考信源(yuan): VentureBeat