人工智能背后的“人”

来源:当代财经网时间:2017-04-05 17:19:15

当代财经网4月5日讯 在大部分人看来,人工智能是个有些「科幻」的词汇,代表小说电影中和人类长相相似、或温柔或冷酷的机器人。

稍微熟悉一点,这份印象又变成冷冰冰的GPU阵列、复杂多层的神经网络和一大串佶屈聱牙的专有名词。能接触它们的除了工程师,就是科学家。

也许这份印象需要再度刷新一次——人工智能,真的需要不少「人工」。

秦娇今年刚满30岁,几个月前刚刚从呼叫中心跳槽到一家「数据加工」公司。虽然跨了行业,她并不觉得两份工作有什么不同,都是按照甲方的要求和己方的工作节奏,把人手安排到一个又一个项目中去。

公司刚成立不到一年,眼下业务大多是标注数据,即根据项目方要求,人工为图片、视频和语音内容打标签、做标记。标注好的数据会被人工智能公司用来训练算法模型,然后应用到图像识别、语音识别等不同领域。

通常来说,数据标注得越准确、数量越多,模型的效果就越好。自然,产品的效果就会更好。

一旦要求质量,每个人的产出量就不会太多。熟练者平均一天可以标注40张图片,前提是只需要为图片中的物体打框、标注类别和前后关系。如果涉及到刻画建筑物边缘等复杂细节,一天标注 10 张已是极限。

人工智能背后的人,默默奉献不曾被提起

图片为简单标注方式的一种

但需要处理的数据订单往往以「万」为单位。最新的需求是 6 万张图片,7 天内完成。理论上这个订单需要 214 个人共同工作 7 天,秦娇手头只有不到 100 个人,其中一部分还要完成其它项目。几次秦娇都对着电话那头摆出不耐烦的神情,「你跟他说,要我去死好不好」。

与拥有 1,500 万张标注图片的数据集ImageNet相比,只有 6 万张图片的项目显得十分渺小。不过大部分人可能很难想象,是来自 167 个国家的 48,940 名工作者,花费了 2 年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片,才得到这个有 1,500 万张图片的数据集。其所耗费的时间与人力,远非一般项目可比。

数据庞大又开源,ImageNet很快成为成为研究图像识别的首选。不论Andrew Ng(吴恩达)还是 Jeff Dean,涉足这一领域研究者都使用过 ImageNet。但 ImageNet 有自己的弱点,标注框太大、标注方式少和不时出现的错误,使它难以被用来训练实际应用的算法模型。

人工智能公司们必须想尽办法,积累符合自身应用方向,标注得更细致、更准确的数据。在初创公司招聘工程师的需求中,「有收集标注数据的能力」有时也会被写进其中。某种程度上,高质量的标注数据决定了一家人工智能公司竞争力。

尽管互联网的确催生了浩如烟海的内容,但标注这件需要耐心和专注的「小事」,暂且还要靠人的帮忙。

在专业的数据标注公司出现前,众包平台往往是大部分公司的选择。

人们认为灵活性更高的众包方式能适应不稳定的数据需求,价格成本也更低。某知名数据众包平台据称拥有超过 5,000 名数据标注专员,单日可处理超过 200 万条数据,能「稳定提供数据标注服务」。

人工智能背后的人,默默奉献不曾被提起

数据标注是所有数据众包平台的核心业务,除此之外还有数据清洗、数据采集等等

不过从单日单人数据比(400 条数据/人)可以推测出,其标注质量也许并非所说的那么可靠。由于参与众包标注的工作者数量很多,专业背景和工作能力参差不齐,「收集到的标注内容中存在噪声甚至错误,不能直接作为正确的标注使用」早已是不争的事实。如何解决众包平台的质量缺陷,已经成为近年来博硕士论文的议题之一。

通过数据交易平台购买已标注好的数据包也是一种选择。但问题似乎又绕回为什么人工智能公司要自己标注数据:不同的应用方向需要的数据内容不同,甚至标注方式也不同。

秦娇目前所在的这家公司,瞄准的就是这片市场——人工智能公司需要的数据既要根据需求定制,又要保证标注质量,同时数量还十分庞大。大部分人工智能公司自身和众包平台都无法同时满足这三种要求,因而诞生了专业的数据标注公司。

这家「数据加工」公司的一二层,全部是负责标注数据的员工。为满足不同订单需求,员工们被划分成不同小组:

有的小组负责勾画图片中人体的关节点,将复杂的瑜伽姿势抽象成点和线,可以用来训练识别人体体态的模型;

有的小组要为路况图片中的车辆、摩托车、自行车和行人打上边框,并标注行进方向和是否有遮挡,这类图片多用来训练智能安防摄像头的识别能力;

有的小组需要分毫不差的描绘建筑物的边缘,将静止画面中鳞次栉比的大楼一一分割,标注成不同的色块,这类数据多用在自动驾驶中车辆对环境的认知;

有的正将雷达扫描出的障碍物 3D 线条一一还原成实物,长方体是建筑、绿色的是树木,这些内容会被用来训练雷达数据和真实世界的关联性。

人工智能背后的人,默默奉献不曾被提起

标注作业有时并不简单,比如这种关联性标注

除图片外,这里还有负责视频标注的员工。她们需要从每段视频中抽出 10 帧,标注相近两帧中物体的方向和坐标的变化。这些数据也许会被用来训练机器对物体连贯性的感知,也许用来训练机器预判物体的位置变化。

与大部分制造业类似,这里的各个小组都有自己的管理者。管理者之上是项目经理,然后才是秦娇这样为数不多的高层管理者。员工「生产」的内容会经过质检人员的核验,全部合格后才会最终交付项目方。严格的流程和管理制度,保证了稳定的标注效率和质量。

「很多人认为大数据就是呼叫中心,我们发展的大数据和其他人不一样,整个贵州只有我们做数据精加工。」对于公司目前在做的业务,秦娇显得非常骄傲。

的确,这些结构化后数据,将成为这场人工智能大潮中的公司们的立足之本。不仅帮助它们提升模型的准确度、提升产品的可靠性,甚至影响它们的发展轨迹和融资进程。

「数据加工」公司所在地距「大数据之城」贵阳五十多公里,是一座只接受科技公司入驻的「数字小镇」。刚刚落成入驻率不高,加上位置偏远、人迹罕至,园区显得十分安静。

人工智能背后的人,默默奉献不曾被提起

小镇多是这样的彩色尖顶小楼,绿化丰富,十分安静

有趣的是尽管位处山林之中,小镇的隔壁有一间规模不小的高职学校,学校的学生构成了这家公司目前主要的员工来源。除上课外,学生们每天有大约 6 个小时可以工作,「易于管理、尽职尽责」是秦娇给这些学生的评价。

高职学校初建的目的是教育扶贫,因此学生们大多来自贫困山区,学校会提供不少补助和奖学金。在数据加工公司兼职赚来的钱不仅足够生活,有些学生还会拿出一部分补贴家用。偶尔这份工作还能成为职业跳板,「我们的学生踏实又努力,有的去北京实习,因为熟悉标注工作、又认真,反馈回来说比同样实习的北京大学生强得多」。

学校走廊的墙上也贴着不少相似的学生案例。在描述学生们入学前情况的文字中,不可避免的包含着「贫穷」、「双亡」、「残疾」等词汇。其中一张照片中父亲、母亲和学生坐在寨楼的木板地上,身后昏暗的空间里没有任何摆设;另一张照片中的学生搂着患病的哥哥;还有一张照片,面无表情的学生正坐在床一样的地方,背景是用黑白报纸糊着的墙。后来,她们都凭努力改变了自己和家庭的命运。

对这份工作能带给学生的机会与回报,「数据加工」公司的 COO 李政同样十分笃定。但比起秦娇对于数据标注行业的信心满满,他则显得有些忧心忡忡。毕业于北京航空航天大学的他清晰的意识到,现阶段的数据标注还是劳动密集型产业,和南方工厂没什么不同。学生们都只是流水线上来料加工的一环,处在价值链的底端。只有向前一步,找到更深入行业的业务模式,才能从已经开始热络的数据加工行业中脱颖而出。

摸索了近一年,李政拓展了包括采集数据在内的不少业务。所谓采集数据,是指自主拍摄符合项目方要求的人像图片,如一个人正面、45 度、60 度以及佩戴各类装饰物的照片。这些图片可以用来训练计算机对于同一张人脸在不同状态下识别的准确性和关联性,是目前大部分专注人脸的计算机视觉公司都有的需求。

人工智能背后的人,默默奉献不曾被提起

有时,表情也在规定在数据采集的要求中

在自己搭建的摄影棚中,「数据加工」公司已经完成了好几份订单。主角当然还是学生们,她们排队依次进入影棚,按照要求摆好姿势拍下几张照片后,再分别戴上口罩、墨镜、帽子继续拍摄。一套照片往往包含 10 几张,一天能拍摄 100 多套。比起安防公司自己搜集或拍摄照片,这套标准流程和足够的样本数(学校至少有上千个学生)的确有不小竞争力。

除此之外,她们还可以承接小语种的语料收集工作。地处西南、临近东南亚,当地的人际关系链和频繁的商务交往能提供不少便利。

「只做来料加工肯定不行,」李政非常坚定,「我们最近正在培训一些技术人员,懂技术才能和项目方更好的沟通需求,把需求更好的描述出来,我们才能更好的满足。」

「标注真的是个辛苦活。」提起「数据标注」四个字,华院数据的首席科学家尹相志不禁咧了咧嘴。

几个月前,华院数据刚刚举办过一次大数据应用比赛,包含识别复杂图像中的动物、通过行车纪录仪的图像还原驾车操作场景等多个环节。在「通过卖场货架图片自动计算产品的货架占有率」这项测试中,她们拍摄了 1600 多张真实的货架图片作为原始数据。

比赛的目的,是通过不到两千张的「小数据样本」,实现往往需要大量样本才能实现的图像识别。为了让比赛的难度不那么「变态」,她们还为选手们提供了「精细化标注」后的货架图片——所谓精细化标注,就是货架上每一包紧挨着的零食、泡面,都要延边缘仔细划分。

人工智能背后的人,默默奉献不曾被提起

图中左侧为从真实货架照片中挖取出的同类商品碎片;右侧为对货架上不同商品的标注,每种灰度对应一种商品

「深度学习最大的问题还是样本数,这里考的其实是怎样通过小样本进行学习。」通过这项挑战的诀窍之一,是将原本 1000 多张图片根据提供的边缘裁切保留纯粹的产品图像,透过数据增强技术放大到数十万张,再根据这些增强后的图片建模就可以减少误差。精细化标注不仅能帮助解决样本稀少的问题,对于过往需要几十万图片才能训练模型的模式也带来了启发。

不过精细化标注并不是什么容易事,这一千多张图片的标注耗费了 12 个人大半个月时间,负责标注工作的组员「几近崩溃」。如果有人能承担复杂标注这项令人「崩溃」的工作,并善于满足复杂的标注要求,人工数据标注能成为一项长远发展的产业吗?

「近期需求还是很大,」尹相志想了想,「但这个行业可能只有 5 年时间,大家都在想各种办法,比如开源,比如小样本学习本身。」

除了小样本学习,人们也在思考是否能合成数据。图像识别领域的研究者们正在尝试通过图形学方法,制造出逼真的、和真正训练图像非常相似的图片。理论上这种方法能够产生大量直接带有标注的数据,但能不能「真实」,还需要图形学上的进步。

人工智能背后的人,默默奉献不曾被提起

ImageNet 的缔造者李飞飞同样意识到精细化标注的力量,正在进行一份名为「Visual Genome」的工作。Visual Genome 有更多、更窄的框,更详细的名词标注,以及位置关系和动作关系。目前 Visual Genome 中有 10.8 万张图片。

对于数据标注这件不大不小的麻烦事,每个从业者都有自己的看法。有人讳莫如深,将话题转换成互联网是最庞大的数据集;但事实上所有人都知道采集到的数据无法直接使用。有人坦诚不少数据需要学生兼职或靠自己的员工标注,对质量的不满促使有些公司干脆成立了数据标注部门;还有人透露,如果用对了关键词,在淘宝也能找到不少外包商。

不过每个人或多或少都乐观相信,5 年后就不再需要这么多人力,无监督学习、小样本或者自动生成数据会发挥更大作用。

可那些倾注人们心血标记而成、精巧如艺术品的标注图片,5 年后的计算机,真的不再需要它们了吗?

在知乎「大公司里面有人专门负责标注数据吗?」问题下,共有 21 个回答。来自大公司的回答者们表示曾「发动全部门人对几万张图进行人肉打标」,或是将工作「安排在人力成本比较低的分公司」。小公司们则将数据「交给隔壁全是女性的部门标」,或是「省钱就自己人标了」。除此之外,交给外包公司是频率最高的选项。

从招聘网站发布的职位需求也可略窥一二。在智联招聘中键入「数据标注」,可以找到 60 个直接相关职位。在拉勾网则能找到近 400 个——管理外包团队等相关职位也被算入其中。以兼职为主题的豆瓣小组和百度贴吧,也从满屏的写软文、写小说、写评论,开始夹杂数据标注的兼职招募。

看起来,在人工智能行业火热、大量创业公司涌现的当下,数据标注是一门不错的好生意。

2009 年,张彤禾曾在《打工女孩》中描述过一群背井离乡,来到东莞独自打拼的女孩。她们刚刚十八九岁,甚至尚未成年,便离开学校在工厂里不分昼夜的工作。流水线上的女工,既不了解自己正在生产什么,也不知道自己的工作「秋西」(QC)就是「质量检测」。不论工作还是生存环境都相当恶劣,晚上去小吃街就算改善生活,往往也缺乏精神娱乐。

但与印象中打工者的刻板形象不同,她们既不短视,也不压抑。她们不在乎 15 个人共用一个房间,50 个人共用一个洗手间。占据她们头脑的是,多久才能存够买房子的钱?该如何晋升或者干脆跳到更有前景的岗位?所剩无几的周末,是该学习计算机、英语还是别的什么?

与马克思那份工人与生产物分离后,失去了满足和快乐的「资本主义的悲哀」不同,「分离」改变的不一定是她们的社会地位,而是她们的思想。花费时间制造的东西并不能代表制造者本身,赚来的钱花在了哪儿、让她们学会了什么技能、如何改变了她们,才更加重要。

「我们手上的 iPod、脚上的 Nike、肩上的 Coach,无形中改变了数百万人的工作、婚姻、生活和思想。」

也许数据标注同样如此。在探讨这个行业存在的合理性与是否能长久发展之前,能带给从业者的改变就已足够振奋人心。

但我们仍不能忘记这些人的付出。尽管她们面目不清,从未被人提起。

相关阅读

推荐阅读

两连阳为啥还没回本?买入绩优、白马、中大盘股才能轻松获利

两连阳为啥还没回本?买入绩优、白马、中大盘股才

一、大盘点评展望周二沪深两市小幅低开后,沪深300权重带动指数震荡上行。最终沪指上涨0 53%报收3410点,K线上收出一根中阳线;深成指上涨1 更多

2017-11-22 16:17:00
2017百度世界大会李彦宏透露无人车2018年量产 无人驾驶概念股备受期待

2017百度世界大会李彦宏透露无人车2018年量产 无

一年一度的百度世界大会11月16日在北京举行,每年的百度世界大会,百度创始人李彦宏都会带来他对过去,现在和未来关于互联网和整个IT领域的 更多

2017-11-16 11:17:37
贵州茅台股价突破700元 贵州茅台股价为什么那么高?

贵州茅台股价突破700元 贵州茅台股价为什么那么

今日贵州茅台延续昨日强势走势,继续大幅攀升,盘中最高价突破700元整数关口,刷新上市新高纪录,截至发稿,最高价报704 97元,总市值超越8 更多

2017-11-16 10:32:47
百度世界大会今日召开聚焦智能硬件 百度世界大会受益概念股一览

百度世界大会今日召开聚焦智能硬件 百度世界大会

据怀新资讯报道,2017百度世界大会将于16日在北京举行。从邀请函上出现的神秘的盒子推测,本次百度将会有AI硬件以及诸多AI新技术发布。从今 更多

2017-11-16 10:17:03
中国财富总值全球第二但是超4亿人家庭没有卫生厕所 你拖后腿了吗?

中国财富总值全球第二但是超4亿人家庭没有卫生厕

瑞士信贷研究所(CSRI)最新出炉的《全球财富报告》显示,全球财富总额现已达到280万亿美元,比十年前金融危机爆发时高出27%。美国占全球财 更多

2017-11-16 10:07:07
比特币今日价格大幅反弹逾9% 比特币价格再次突破7000美元

比特币今日价格大幅反弹逾9% 比特币价格再次突破

在短短两周时间内,比特币价格呈现了非常惊险的过山车。由于对于这款加密货币未来趋势存在争议,上周比特币价格出现暴跌,曾一度低于6000美 更多

2017-11-16 10:04:14
油价调整最新消息:国内油价今日24时或迎年内最大涨幅 附92号/93号汽油最新价格

油价调整最新消息:国内油价今日24时或迎年内最大

新一轮成品油调价窗口将于16日24时开启。国际原油价格一度涨至近两年高位,受此影响,国内油价或迎年内最大涨幅。隆众资讯统计数据显示,以 更多

2017-11-16 09:22:17
国际油价调整最新消息:EIA原油及汽油库存双双增长 延长减产协议预期支撑油市反弹

国际油价调整最新消息:EIA原油及汽油库存双双增

美国能源信息署(EIA)周三(11月15日)公布的数据显示,上周美国原油库存意外录得增加,同时汽油库存也意外增长。EIA公布,截至11月10日当 更多

2017-11-16 09:21:49
+ 点击查看更多精彩
今年政策方向没有变,“三去一降一补”具体该怎么干?
    2018年,我国开启高质量发展新征途。中央经济工作会议把深化供给...
蓝筹股带动大盘继续上攻 沪指重返3400点
    【盘面简述】今日早盘,随着油气股的拉升上涨,中国石油和中国石...
白马股崛起补涨强烈 短期恐慌性抛盘并不大
    今日市场点评:沪深两市早盘各股指纷纷小幅低开,开盘之后一度呈...
市场再度面临重要的时间窗口 一板块有望迎来年末行情
    【今日小结】今日,两市小幅高开,开盘回撤后快速上行翻红,金融...
不离谱的回落 三理由力挺节后机会
    今日市场点评:大盘在节后第一天走出了高开低走的行情。在国庆期...
第三批混改试点企业名单不久后推出 军工、民航、通信混改机会尤为突出
    国新办今日举行新闻发布会,国资委副秘书长彭华岗在回答记者关于...