數(shù)據(jù)工廠里的年輕人
2018-07-08 09:13:27 來(lái)源: 解放日?qǐng)?bào)
關(guān)注新華網(wǎng)
微博
Qzone
評(píng)論
圖集

  數(shù)據(jù)標(biāo)注是一項(xiàng)枯燥的工作,不少數(shù)據(jù)標(biāo)注員喜歡戴著耳機(jī)聽音樂。向凱 攝

  在上海徐家匯一家廣告公司做文案的索琳,從未想過(guò)自己也能參與打磨人工智能的應(yīng)用。她最近接到任務(wù),教一位只存在于手機(jī)應(yīng)用程序里的“老爺爺”與用戶對(duì)話。比如,當(dāng)用戶問(wèn)“世界上誰(shuí)最美”,他就會(huì)回答“當(dāng)然是你最美”。一問(wèn)一答均由索琳事先寫好,再由一家擅長(zhǎng)語(yǔ)音識(shí)別的人工智能(AI)公司植入。索琳編寫了近3000條問(wèn)答,一心想把“老爺爺”培養(yǎng)得更風(fēng)趣、睿智。不過(guò),實(shí)際上她只是提供了最基礎(chǔ)的數(shù)據(jù)。

  一千多公里之外的貴州惠水縣百鳥河數(shù)字小鎮(zhèn),一家提供數(shù)據(jù)服務(wù)的公司,22歲的吳潘威正對(duì)著電腦用鼠標(biāo)“貼標(biāo)簽”:將一張普通道路交通圖中的機(jī)動(dòng)車、行人、非機(jī)動(dòng)車逐一框中……和索琳教機(jī)器對(duì)話一樣,吳潘威貼標(biāo)簽的目的是教人工智能看圖識(shí)物,他們被叫作“數(shù)據(jù)標(biāo)注員”。

  當(dāng)前,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)日新月異。人工智能在去年、今年兩度被寫入政府工作報(bào)告;而大數(shù)據(jù),已經(jīng)成為世界認(rèn)識(shí)貴州的新名片。在脫貧攻堅(jiān)主戰(zhàn)場(chǎng)的貴州,大數(shù)據(jù)的經(jīng)濟(jì)增速已連續(xù)7年位居全國(guó)前列。

  產(chǎn)業(yè)勃興,數(shù)據(jù)標(biāo)注員因此成為新興職業(yè)。多名業(yè)內(nèi)人士告訴記者,目前國(guó)內(nèi)至少有大小近千家標(biāo)注公司,共20余萬(wàn)名數(shù)據(jù)標(biāo)注員。

  在百鳥河數(shù)字小鎮(zhèn),僅吳潘威所在的夢(mèng)動(dòng)科技有限公司就有400多名標(biāo)注員。他們是踩著信息技術(shù)浪潮的流水線工人。

  “教機(jī)器認(rèn)識(shí)這個(gè)世界”

  這是一張微笑的普通女性的臉,她的鼻子、嘴巴、眼睛、眉毛和臉部輪廓布滿了點(diǎn),一共有149個(gè),它們被叫做“人臉關(guān)鍵點(diǎn)”。

  在百鳥河數(shù)字小鎮(zhèn),吳潘威與同事們坐在電腦前,將圖片放大,用鼠標(biāo)移動(dòng)這些小點(diǎn),使它們落在合適的位置。吳潘威瀏覽了成千上萬(wàn)張人臉圖片,在他的眼中,這些人臉沒有膚色、性別、老少之分,只有清晰與模糊的區(qū)別,一張像是從監(jiān)控?cái)z像里截取的模糊圖片會(huì)讓他多花幾倍時(shí)間。

  人工智能本身不會(huì)識(shí)別物體,而要依靠海量訓(xùn)練。當(dāng)人臉關(guān)鍵點(diǎn)被一一標(biāo)注之后,計(jì)算機(jī)才能建立起對(duì)人臉的認(rèn)知。而人臉關(guān)鍵點(diǎn)的數(shù)目并不固定,不同數(shù)目的背后連接的是不同的算法?!皡桥送儭敝恍璋凑杖斯ぶ悄芄こ處焸?cè)O(shè)定的數(shù)目規(guī)范來(lái)標(biāo)注。換言之,這些數(shù)據(jù)標(biāo)注員并不需要了解算法之復(fù)雜,他們所做的,更像在工廠流水線重復(fù)作業(yè)。

  百度無(wú)人駕駛汽車,是夢(mèng)動(dòng)科技接手的第一個(gè)項(xiàng)目。公司人工智能服務(wù)部總監(jiān)曾蕓說(shuō):“剛接到無(wú)人車項(xiàng)目時(shí),我們所有人都是蒙的,覺得這個(gè)事情不大靠譜,畢竟無(wú)人駕駛在我們眼里是高精尖的科技?!?/p>

  2016年5月,百度派技術(shù)人員來(lái)開講座,開誠(chéng)布公——“你們就是在訓(xùn)導(dǎo)機(jī)器,教機(jī)器認(rèn)識(shí)這個(gè)世界?!蹦菚r(shí),所有人都不知道有“數(shù)據(jù)標(biāo)注員”這個(gè)職業(yè),吳潘威和一起實(shí)習(xí)的小伙伴們互相稱呼“畫框的”。

  可不就是“畫框的”?幾十個(gè)人坐在電腦前按動(dòng)鼠標(biāo)畫框,機(jī)動(dòng)車分成大型車、小型車,非機(jī)動(dòng)車分成自行車、摩托車、三輪車,還有行人、交通信號(hào)燈,都要一一框起來(lái)。

  “標(biāo)注員都是‘滾雪球’帶教帶出來(lái)的,那時(shí)一個(gè)人一天要畫幾百個(gè)框,以至于后來(lái)走在路上看什么東西都想畫個(gè)框把它框住?!痹|回憶說(shuō)。

  “后來(lái),看到無(wú)人駕駛汽車在美國(guó)的硅谷跑,在烏鎮(zhèn)的世界互聯(lián)網(wǎng)大會(huì)跑,說(shuō)實(shí)話還是蠻振奮的?!眳桥送t腆地笑著說(shuō),不管科技有多先進(jìn),至少無(wú)人車?yán)锍霈F(xiàn)的路況掃描圖像他是熟悉的,“也許那就是我之前標(biāo)注過(guò)的?!?/p>

  那種感覺,就像一不小心踩到了時(shí)代潮流的浪尖上。

  “指數(shù)級(jí)增長(zhǎng)”

  吳潘威是貴州盛華職業(yè)學(xué)院新近畢業(yè)的大學(xué)生,2016年初到夢(mèng)動(dòng)科技當(dāng)實(shí)習(xí)生。在這里,一間辦公室大約能容納60名數(shù)據(jù)標(biāo)注員,每張辦公桌后面都藏著一張稚嫩的臉,幾乎每個(gè)人都戴著耳機(jī)聽音樂,同時(shí)不停地切換圖片、移動(dòng)鼠標(biāo),在屏幕上打點(diǎn)或者畫框。

  他們大多是像吳潘威一樣年輕的大學(xué)生。除了盛華職業(yè)學(xué)院,還有來(lái)自黔南民族醫(yī)學(xué)高等??茖W(xué)校等4所學(xué)校的實(shí)習(xí)生。

  但最早,這項(xiàng)工作并不是由實(shí)習(xí)生來(lái)做,而是那些年薪百萬(wàn)的人工智能工程師。

  31歲的杜霖是倍賽(北京深度搜索科技有限公司)的首席執(zhí)行官,公司在北京、山西、山東、河南、四川、貴州、福建等地建設(shè)數(shù)據(jù)標(biāo)注工廠,有近3000人的數(shù)據(jù)標(biāo)注員團(tuán)隊(duì)?!皩?duì)AI 和數(shù)據(jù)的研究,我們很早就開始了。”畢業(yè)自上海交通大學(xué)的杜霖告知,他的創(chuàng)始團(tuán)隊(duì)均來(lái)自上海交大。

  最早在2014年,杜霖注意到,隨著人工智能在商業(yè)場(chǎng)景的應(yīng)用逐漸落地,原來(lái)由工程師在實(shí)驗(yàn)室完成的數(shù)據(jù)標(biāo)注呈“指數(shù)級(jí)增長(zhǎng)”,工程師們應(yīng)接不暇,專業(yè)的數(shù)據(jù)加工服務(wù)公司應(yīng)運(yùn)而生。

  國(guó)務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》顯示,到2020年,我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)1500億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模超過(guò)1萬(wàn)億元。杜霖判斷,未來(lái)人工智能領(lǐng)域一定會(huì)出現(xiàn)巨大缺口——對(duì)于由人標(biāo)注的數(shù)據(jù)的需求?!耙?yàn)楝F(xiàn)在的人工智能還只是兩三歲的孩子,需要我們不斷地教它認(rèn)識(shí)杯子、水果、玩具和汽車?!?/p>

  作為人工智能產(chǎn)業(yè)的下游端,“吳潘威們”對(duì)行業(yè)勃興的感知或許是最敏感的。

  “從去年起,一個(gè)個(gè)項(xiàng)目接踵而至?!痹|說(shuō),“目前夢(mèng)動(dòng)所承接的項(xiàng)目幾乎囊括所有人工智能領(lǐng)域:圖片、文本信息、語(yǔ)音、視頻、在線審核等,其中圖片是最大的一塊?!?/p>

  吳潘威已經(jīng)記不清標(biāo)注過(guò)多少項(xiàng)目,“五花八門,難以想象”。無(wú)人售貨超市里,商品種類數(shù)以萬(wàn)計(jì),光背包就有十幾種;甚至有美甲店要求訓(xùn)練能識(shí)別指甲區(qū)域的機(jī)器人,那樣就不會(huì)把指甲油涂到指甲外……

  6月29日,在夢(mèng)動(dòng)科技,記者看到辦公室的柜子上擺放著幾十種可口可樂飲料。項(xiàng)目組長(zhǎng)蔣純潔介紹,標(biāo)注員需要先記住所有產(chǎn)品的類別、口味、容積,同一款產(chǎn)品要仔細(xì)看包裝顏色和圖案細(xì)微的不同之處,“否則標(biāo)注的時(shí)候再去看就太慢了”。

  “最奇怪的是給貓臉和狗臉打點(diǎn)。”項(xiàng)目主管賈如松說(shuō)。兩個(gè)多月前,他們花了整整兩個(gè)星期給一萬(wàn)多張貓和狗的圖片打點(diǎn),每張臉上要打34個(gè)點(diǎn),“想來(lái)想去也沒想明白這到底是用來(lái)干啥的”。

  “大學(xué)生為什么要來(lái)做這個(gè)”

  吳潘威是最早一批來(lái)夢(mèng)動(dòng)科技的實(shí)習(xí)生之一。做數(shù)據(jù)標(biāo)注員兩年多,當(dāng)初和他一起實(shí)習(xí)的同學(xué)大多都離開了;而在他實(shí)習(xí)期間,數(shù)不清的實(shí)習(xí)生來(lái)來(lái)往往。他們抱怨工作枯燥乏味,沒什么前途。

  “大學(xué)生為什么要來(lái)做這個(gè)事情?”吳潘威也不止一次問(wèn)過(guò)自己。

  出生于1999年的陸森霖是貴州盛華職業(yè)學(xué)院計(jì)算機(jī)專業(yè)的大一學(xué)生,實(shí)習(xí)近3個(gè)月了。學(xué)校離公司只有1公里左右,這是學(xué)校在產(chǎn)教融合方面的部署。

  陸森霖正在做的項(xiàng)目是語(yǔ)音識(shí)別,每天的基本任務(wù)是將約1800秒的語(yǔ)音輸出成文字,將重疊在一起的幾個(gè)音色分開,這會(huì)花費(fèi)他五六個(gè)小時(shí);最麻煩的是專業(yè)術(shù)語(yǔ),不懂的名詞要上網(wǎng)查;做完之后由質(zhì)檢員核對(duì),如果有錯(cuò)誤就會(huì)被打回來(lái)重新修改。

  “我完全不知道意義在哪里。”陸森霖說(shuō),“你看我開著音樂,聽?zhēng)装倜刖颓羞^(guò)來(lái)放首歌放松,否則一直聽會(huì)受不了?!?/p>

  標(biāo)注工作單調(diào)重復(fù)。“再難的項(xiàng)目3天之內(nèi)就能隨便耍了。”標(biāo)注員梁紅說(shuō),他是記者碰到的少有的對(duì)人工智能感興趣才來(lái)實(shí)習(xí)的學(xué)生。

  數(shù)據(jù)標(biāo)注行業(yè)有一套明確流程:上游的人工智能公司將項(xiàng)目交給中游的數(shù)據(jù)加工公司或眾包平臺(tái),后者自行加工或分包給下游的小公司、小作坊,有的小作坊還會(huì)分發(fā)給“散兵游勇”,比如學(xué)生或二三線城市的兼職人員。

  而到了下游,項(xiàng)目經(jīng)過(guò)層層轉(zhuǎn)包,利潤(rùn)已經(jīng)低得嚇人?!斑@與我們一線標(biāo)注員的付出是不對(duì)等的?!痹|說(shuō),早期夢(mèng)動(dòng)科技只能從中游的眾包平臺(tái)獲取項(xiàng)目,現(xiàn)在則盡量直接對(duì)接上游客戶。

  如今,上游的人工智能公司仍保留少量數(shù)據(jù)標(biāo)注員?!拔覀兊娜殬?biāo)注團(tuán)隊(duì)主要是處理隱私性高和有特殊要求的數(shù)據(jù),比如處理醫(yī)療領(lǐng)域的數(shù)據(jù)就需要有一定專業(yè)背景。”云從科技研究院副院長(zhǎng)周翔介紹,“其余的數(shù)據(jù)處理便交給下游幾十家數(shù)據(jù)標(biāo)注團(tuán)隊(duì)?!痹诒环Q作“國(guó)內(nèi)首檔人工智能挑戰(zhàn)類節(jié)目”的央視熱門節(jié)目《機(jī)智過(guò)人》中,曾與模擬畫像專家林宇輝在同一舞臺(tái)競(jìng)技的,就是云從科技所打造的人工智能“御眼重明”。

  對(duì)一般的數(shù)據(jù)標(biāo)注員而言,職業(yè)生涯是一眼望得見頭的:從一線標(biāo)注員做起,然后是質(zhì)培專員(相當(dāng)于質(zhì)檢)、項(xiàng)目組長(zhǎng)、項(xiàng)目主管、項(xiàng)目經(jīng)理,最后是部門總監(jiān)。

  “簡(jiǎn)而言之,就像上世紀(jì)80年代的來(lái)料加工,大工廠可以,家庭作坊也可以?!眽?mèng)動(dòng)科技聯(lián)合創(chuàng)始人農(nóng)政說(shuō),“甚至有人把數(shù)據(jù)標(biāo)注員比作流水線上的工人,幾個(gè)學(xué)生、幾個(gè)零散人員都可以接單。”

  農(nóng)政并不否認(rèn)目前數(shù)據(jù)標(biāo)注確實(shí)是一個(gè)需要大量勞動(dòng)力的行業(yè),但他強(qiáng)調(diào),應(yīng)該看到行業(yè)發(fā)展的未來(lái),“不能現(xiàn)在看到他們?cè)诋嬁颍团袛辔磥?lái)十年他們還在畫框。”

  今年7月,吳潘威終于作為正式員工與公司簽約,成為一名商務(wù)助理。實(shí)際上,他從未想過(guò)自己能留下來(lái)。當(dāng)初一起實(shí)習(xí)的有近百人,和他一樣最終成為正式職工的僅有11人。他們不再做標(biāo)注員,而是走上項(xiàng)目組長(zhǎng)等管理崗位。

  “也許這是我們接觸最前沿科技唯一的機(jī)會(huì)。”吳潘威說(shuō),他的大多數(shù)同學(xué)畢業(yè)后都去從事銷售、中介等工作,而在夢(mèng)動(dòng),他能與最先進(jìn)的科技公司對(duì)接,感受信息技術(shù)帶來(lái)的震撼。

  “不如我們發(fā)明標(biāo)注機(jī)器人來(lái)解放自己”

  每天早上9時(shí),吳潘威準(zhǔn)時(shí)到公司。一旦進(jìn)入工作角色,每個(gè)人都是緊張而嚴(yán)肅的,相互之間很少交流,若遇到緊急項(xiàng)目,他們還需要加班加點(diǎn)完成。

  短短兩年間,從小小的鼠標(biāo)一端,吳潘威便感受到了另一端世界前沿科技進(jìn)步的速度,“以前無(wú)人駕駛汽車框出基本輪廓就可以了,現(xiàn)在不只是從2D平面進(jìn)化到3D立體,還要標(biāo)注車頭的方向?!?/p>

  在夢(mèng)動(dòng)科技,“大數(shù)據(jù),讓一切變得更智慧”等標(biāo)語(yǔ)隨處可見。醫(yī)療、金融等人工智能近年來(lái)踏進(jìn)的領(lǐng)域,都在日新月異地改變,而起點(diǎn)就在小鎮(zhèn)年輕人的手指尖。百鳥河數(shù)字小鎮(zhèn)聚集了大數(shù)據(jù)、教育文化、健康養(yǎng)老、文化旅游等眾多公司,是當(dāng)?shù)刂Πl(fā)展大數(shù)據(jù)產(chǎn)業(yè)所建的新型園區(qū)。一幢幢彩色尖頂?shù)臍W式小樓,令小鎮(zhèn)充滿異域風(fēng)情。

  實(shí)際上,數(shù)據(jù)標(biāo)注本身也是一個(gè)要用人工智能來(lái)改造的行業(yè),標(biāo)注工具也正在迭代升級(jí)。比如,人臉識(shí)別最早均由人工標(biāo)注關(guān)鍵點(diǎn),但眼下吳潘威接到的項(xiàng)目里,機(jī)器已經(jīng)打好點(diǎn),標(biāo)注員要做的只是最后的校正。

  在杜霖看來(lái),其實(shí)不必把數(shù)據(jù)標(biāo)注看得過(guò)于神秘,“說(shuō)到底人工智能數(shù)據(jù)標(biāo)注只是商業(yè)外包行業(yè)一個(gè)非常細(xì)的分類,幾十年前這種數(shù)據(jù)外包業(yè)務(wù)就已存在,比如替銀行處理電子表格的公司,但因?yàn)槿斯ぶ悄埽瑪?shù)據(jù)標(biāo)注才變成了一個(gè)獨(dú)立的行業(yè)”。

  在數(shù)據(jù)標(biāo)注領(lǐng)域,更大的潛在威脅可能并非同行競(jìng)爭(zhēng),而是來(lái)自機(jī)器——當(dāng)算法足夠先進(jìn)時(shí),少量的數(shù)據(jù)就能達(dá)到效果,到那時(shí),還需要這么多的數(shù)據(jù)標(biāo)注員嗎?

  “也許有一天人工智能會(huì)全面取代人類,但數(shù)據(jù)標(biāo)注員一定是最后被取代的那批人。”杜霖對(duì)此保持樂觀態(tài)度,“最高明的算法也需要基礎(chǔ)的數(shù)據(jù)學(xué)習(xí),而數(shù)據(jù)標(biāo)注員,一定是堅(jiān)持到最后一班崗才把數(shù)據(jù)交付給機(jī)器模型的?!?/p>

  夢(mèng)動(dòng)科技人工智能服務(wù)部助理總監(jiān)龔芳芳也說(shuō):“想象把人工智能當(dāng)作嬰兒,而我們可以把他訓(xùn)練成天才?!?/p>

  人們似乎樂意見到“機(jī)器天才”與人類的競(jìng)爭(zhēng)。根據(jù)百度搜索指數(shù),公眾對(duì)人工智能的關(guān)注從2016年起呈顯著上升趨勢(shì),當(dāng)年3月的圍棋人機(jī)大戰(zhàn)——AlphaGo擊敗圍棋世界冠軍李世石,第一次將人工智能帶入大眾視野。

  人工智能是否會(huì)替代人類?

  對(duì)吳潘威來(lái)說(shuō),這并不是個(gè)沉重的話題。“標(biāo)注員之間還常常開玩笑,不如我們自己發(fā)明一個(gè)標(biāo)注機(jī)器人來(lái)解放我們自己?!彼χf(shuō),“畢竟,人都是懶惰的?!?/p>

  而在通往未來(lái)無(wú)限可能性的路上,數(shù)據(jù)標(biāo)注員們最大的挑戰(zhàn)依舊是克服乏味與寂寞。

  一名年輕的標(biāo)注員說(shuō),以前他與一位小伙伴會(huì)在一起比,誰(shuí)今天畫的框多,“他框了300個(gè)我框了400個(gè),第二天他就不跟我說(shuō)話,一直框。但是現(xiàn)在,他走了,我才覺得這個(gè)工作真是無(wú)趣”。(見習(xí)記者 向凱)

+1
【糾錯(cuò)】 責(zé)任編輯: 楊婷
新聞評(píng)論
加載更多
華盛頓民俗節(jié)上演疊羅漢
華盛頓民俗節(jié)上演疊羅漢
哺育
哺育
新華社國(guó)內(nèi)照片一周精選
新華社國(guó)內(nèi)照片一周精選
俯瞰夏日西湖
俯瞰夏日西湖

?
010020020110000000000000011199701123094026