4月25日消息,據(jù)連線雜志報道,在美國有這么一群人,他們每天的工作內(nèi)容就是打開電腦觀看Youtube視頻。這些人專門查看視頻中是否含有暴力和仇恨言論等內(nèi)容,并據(jù)此對視頻作出“攻擊性”或“敏感”等不同評級。他們便是谷歌所謂的“廣告質(zhì)量評級員”,幫助谷歌彌補機器算法不足的臨時工。在自動算法未完善的今天,谷歌亟需這些人工評級員的幫助。
谷歌旗下的視頻網(wǎng)站Youtube每天投放數(shù)百萬條廣告。谷歌用自動化的系統(tǒng)安排廣告投放,廣告客戶并不知曉也不能決定自己廣告伴隨哪些視頻展示。不過,最近這種不確定性給谷歌帶來麻煩。許多報告顯示Youtube竟然會在宣傳仇恨和恐怖主義的視頻上投放廣告。由于這個原因,沃爾瑪、百事可樂和Verizon等廣告客戶紛紛拋棄這個平臺,谷歌更廣泛的廣告網(wǎng)絡(luò)也遭遇信任危機。
谷歌回應(yīng)稱媒體夸大了廣告丑聞。公司發(fā)言人表示,伴隨極端視頻展示的廣告不到廣告主總展示次數(shù)的千分之一。谷歌全球銷售與運營副總裁菲利普·辛德勒(Philipp Schindler)也稱廣告問題只涉及到非常非常小的一部分視頻。但廣告評級員透露谷歌正通過加大人工評級員隊伍建設(shè)來防治問題惡化。
廣告收入占到谷歌總收入的九成,因此找到問題視頻,杜絕廣告丑聞顯得尤為關(guān)鍵。但每天有將近60萬小時的新視頻被上傳到Y(jié)outube,需要一個城市的人口全天候觀看才能保證完全的人工審查。這顯然不現(xiàn)實。谷歌稱正在努力開發(fā)用人工智能來幫助識別問題視頻。“這一問題無法用人力解決,也不應(yīng)該由人力解決。”辛德勒在最近接受彭博社采訪時說。
問題是,AI的訓(xùn)練離不開人工。因此,谷歌在現(xiàn)階段仍然依賴人工分級來識別并標(biāo)記令人反感的視頻,從而構(gòu)建數(shù)據(jù)庫用于AI學(xué)習(xí)。八名現(xiàn)職和前評級員對《連線》雜志表示谷歌一度變得越來越依賴人工評級員的工作,與谷歌公司溝通不足以及工作缺乏穩(wěn)定性都損害了他們做好自己工作的能力。
人工評級
科技企業(yè)一直以來都有雇傭內(nèi)容管理員的傳統(tǒng)。隨著人們在網(wǎng)上上傳和分享的內(nèi)容越來越多,這一職位對互聯(lián)網(wǎng)巨頭而言也變得越來越重要?!哆B線》采訪到的評級員表示,除了對視頻進行審查,他們還會檢視評論區(qū),標(biāo)記言辭粗魯?shù)幕恿粞?。評級員們檢查谷歌廣告網(wǎng)絡(luò)涵蓋的各種網(wǎng)站,以確保他們符合公司的質(zhì)量標(biāo)準(zhǔn)。他們按類別(比如“零售”或“新聞”)給網(wǎng)站分類,然后點擊頁面廣告中的鏈接,看其是否運行正常。而且,正如“廣告質(zhì)量評級員”這一名稱所示,他們還對廣告本身的質(zhì)量進行評級。
在三月份的廣告丑聞?wù)兄驴蛻舻种浦?,谷歌要求評級員們暫緩其他工作,集中人手處理“高優(yōu)先級評級項目”。這一新項目意味著幾乎完全專注于 Youtube 上,根據(jù)客戶投訴檢查視頻乃至整個播放列表。“這是一個巨大轉(zhuǎn)變。”一位廣告評級員說。
評級員表示龐大的工作量意味著數(shù)量和速度被放到比精確度更優(yōu)先度位置。某些情況下,系統(tǒng)會要求在不到兩分鐘內(nèi)審查完幾小時長度的視頻。不堪重負(fù)的評級者們紛紛在匿名論壇上交流各種增效法門。比如查看 Rap MV的歌詞以快速檢索褻瀆詞語,或以10s 快進速覽全片。谷歌使用計時器監(jiān)督每個視頻的審查時間,這也增加了評級員的壓力。“我擔(dān)心如果我一下子審查太多視頻,會被解雇。”一位評級員告訴《連線》雜志。
除了簡單標(biāo)記視頻良莠,評級員還被要求對視頻標(biāo)題和內(nèi)容做更細(xì)致的評級,并進行分類,例如包含“褻瀆”、“仇恨言論”或“其他”等“不適當(dāng)言論”。又或包含“恐怖主義”、“戰(zhàn)爭與沖突”、“死亡悲劇”或“其他”等“暴力”內(nèi)容。此外的分類還有“毒品”和“性/裸露”(具體分類為“虐待”、“裸體”和“其他”)。系統(tǒng)還為評級員提供了“其他敏感內(nèi)容”選項,宣揚極端政治觀點的視頻即可歸為此類。(AdAge 最近報道稱,谷歌現(xiàn)在允許客戶拒絕在“性暗示”和“聳人聽聞”的視頻上投放廣告。)
不過評級員表示,并非所有的材料都能被恰當(dāng)?shù)胤珠T別類。在這種時候,評級者就將視頻標(biāo)注為“無法評級”。比如一名評級員因不懂西班牙語而將一段西語 Rap 標(biāo)為“無法評級”,不過他同時盡責(zé)地附上一句評論,表示對話內(nèi)容有可能帶有侮辱性。(最近的評級員招募顯示,谷歌正在優(yōu)先聘用雙語應(yīng)聘者。并在評級系統(tǒng)中提供“未知語言”的選項。)
多位評級員表示他們被要求觀看令人震驚的視頻。一位評級員談到一個男人在卡車?yán)餁⒐返囊曨l,視頻中的人將卡車點燃,然后走出卡車朝自己腦袋開了一槍。在評級員論壇上,還有更多聳人聽聞的視頻內(nèi)容,包括虐待婦女、兒童和動物的視頻。有人表示他們每看幾個視頻就得休息一下才能緩過勁兒來。評級員無從得知谷歌如何分發(fā)每個人的任務(wù)內(nèi)容,每個人都是在評級之前才能看到視頻的標(biāo)題和縮略圖。其他一些評級員經(jīng)??吹降囊曨l還包括談?wù)撾娮佑螒?、政治和陰謀論的視頻。
總而言之,極盡其詳?shù)墓ぷ鞣秶头旨壍奈⒚畈顒e都顯示谷歌仍然需要人工協(xié)助來處理 Youtube 的廣告問題。“我們的信息來源眾多,但你們是我們最重要的來源之一。”谷歌在給評級員的文件中如此說道。谷歌高管和代表多次強調(diào)只有機器智能才能解決 Youtube 這種規(guī)模的問題,但在谷歌實現(xiàn)真正實用的機器算法之前,這些工作仍然依賴人工完成。
“我們一直依靠技術(shù)和人工評級的結(jié)合來分析被標(biāo)記給我們的內(nèi)容,因為對視頻內(nèi)容的理解可能因人而異。”谷歌發(fā)言人 Chi Hea Cho 說。“近來,我們增加了人手來加速評級工作。人工評級幫助訓(xùn)練我們的算法,使之隨時間推移而不斷改進。”
人力資源
人工廣告評級員項目始于2004年,效仿谷歌搜索引擎的搜索質(zhì)量改進項目而設(shè)立。廣告評級最初服務(wù)于谷歌的核心廣告業(yè)務(wù):AdWords。AdWords負(fù)責(zé)生成與用戶搜索結(jié)果和 AdSense 相匹配的廣告。AdSense 是谷歌面向網(wǎng)站站長的廣告服務(wù),讓客戶在第三方網(wǎng)站上投放廣告。最初代理招聘的機構(gòu) ABE 支付給廣告評級員每小時20美元的薪酬。評級員可以一天干 8小時,還可以加班賺錢。2006年,WorkForceLogic 收購了 ABE 之后,有評級員表示工作待遇略有下降。之后另一家名叫 ZeroChaos 的公司在 2012 年吞并了 WorkForceLogic,如今所有的廣告評級員都?xì)w ZeroChaos 管理。
沒有時間限制的廣告評級工作對那些喜歡靈活工作條件的人群很有吸引力,其中包括剛開始工作的大學(xué)畢業(yè)生、退休工、閑居的老人和殘障人士。評級員只需要一臺臺式電腦和移動設(shè)備就可隨時隨地進行工作,每周最低工時不得低于 10 小時。
但這份工作本質(zhì)上的不穩(wěn)定性可能會給許多從業(yè)者帶來風(fēng)險。“我們大多數(shù)人都喜歡這份工作,但我們沒有機會成為永久的全職員工。”一位廣告評級員告訴《連線》雜志。
ZeroChaos 是數(shù)家專門向科技企業(yè)提供臨時工的機構(gòu)之一,《連線》所采訪到的員工便來自于它。ZeroChaos 以一年期合同簽員工,連續(xù)工作兩年后不得留職。(今年 4 月,ZeroChaos 已經(jīng)廢除了最長兩年的連續(xù)雇傭期限。)評級員待遇沒有指望得到提升,永遠(yuǎn)都是 15 美元的時薪。每周工時上限為 29 個小時,無帶薪休假。每周工作超過 25 小時的員工可申請公司福利,但另一方面公司又無法保證有足夠多的任務(wù)讓他們干滿這么長時間。公司經(jīng)常毫無預(yù)兆地突然終止合同,沒有事先警告也沒有解雇理由。有員工才入職一周便收到解雇郵件。
“谷歌努力與提供良好工作條件的供應(yīng)商合作。”Cho 說。“當(dāng)問題引起我們的注意時,我們會就員工的憂慮向供應(yīng)商提出警告,并同他們合作解決任何問題。我們會進一步研究這個問題。” ZeroChaos 則拒絕就此置評。
評級員稱與谷歌缺乏溝通加劇了評級員的工作不安全感。評級員們無緣得見他們所服務(wù)的幕后雇主,即便在面試環(huán)節(jié)也是如此。谷歌會向“谷歌廣告評級管理小組”發(fā)送例行郵件,告之評級員僅將其用于與任務(wù)相關(guān)的問題。員工發(fā)往谷歌郵箱的郵件只會收到自動回復(fù)。“由于收到的報告數(shù)量龐大,管理員不會回復(fù)單獨的問題報告。不過我們對收到的報告進行監(jiān)控,以盡快發(fā)現(xiàn)系統(tǒng)級別的問題。”谷歌回復(fù)道。“如果您需要個性化的回復(fù),或?qū)δ愕馁~戶采取特定行動,請聯(lián)系您的合同管理員。”
“來自谷歌的交流完全不存在。”一位前評級員說。“谷歌是出了名的難溝通。”
“位于網(wǎng)絡(luò)另一頭的山景城的人就像幕后的巫師。我們非常希望與他們溝通,成為真正的同事,但不可能。”另一位評級員說。
另一方面,谷歌只是通知評級員他們在做重要工作,此外便沒有更詳細(xì)說明。
“我們無法對每個任務(wù)的目的都作出解釋,但這些任務(wù)對我們而言的重要性是毋庸置疑的。”谷歌在給評級員們的培訓(xùn)材料中說。“你不會經(jīng)常能聽到你工作的結(jié)果。實際上,有時你的工作看起來可能仿佛一個黑洞……不過即便你不總是能看到工作的成效,你的工作確實非常重要,并且許多谷歌員工會十分十分密切地檢查它。”
有時候這些檢查也會密切地讓評級員吃不消。谷歌會將評級員審查過的材料偽裝成未分級材料,分配給評級員進二次審查,以衡量其績效。“我們用測試來評估你的表現(xiàn)。分?jǐn)?shù)過低可能導(dǎo)致您的任務(wù)終止。”
根據(jù)佐治亞理工大學(xué)研究員馬克·里德爾(Mark Riedl)的說法,將已知問題經(jīng)過偽裝“明知故問”是眾包研究中的常見做法。研究人員通過這種手段排除那些不負(fù)責(zé)任的蒙混過關(guān)者或機器作弊行為。這種做法經(jīng)常被戲稱為圖靈測試。
里德爾認(rèn)為在真人團體中使用這種手法存在不妥:“工人不是機器。我們需要認(rèn)識到那些員工是人類,我們有倫理和道德責(zé)任來設(shè)計任務(wù)以尊重工作者的尊嚴(yán)。”
同時也需要指出的是并非所有評級員都對待遇心有不滿。15 美元的時薪仍然比大多數(shù)城市的最低工資要高。一位員工感謝 ZeroChaos 給他工作的機會,此前他曾因犯罪前科被麥當(dāng)勞拒聘。許多評級員在窮困潦倒接近無家可歸,要靠食品補助券度日的時候得到這份工作,并對此心存感激。
其他人表示,評級員工作的靈活性并不意味著能被充分利用。隨時隨地在家工作確實是極大的便利,但 ZeroChaos FAQ 禁止員工同時為其他公司工作。一名前評級員希望在從事當(dāng)前工作的業(yè)余時間重拾廣告評審的工作補貼家用,卻被 ZeroChaos 拒絕。“如果我可以同時做兩份工作,收入會很可觀?,F(xiàn)在我每周比失業(yè)階段多掙 40 美元,不過這是不可持續(xù)的。”
人機關(guān)系
《連線》雜志采訪到的廣告評級員表示,雇傭臨時工來承擔(dān)培訓(xùn)AI系統(tǒng)所需的重復(fù)性任務(wù),是整個科技行業(yè)的大公司都在采用的做法。一位評級員講述了早些年自己參與微軟 Bing 搜索引擎的評估工作,當(dāng)時的人工評審員需要每小時瀏覽多達 80 多頁的搜索結(jié)果。評級人員透露,LinkedIn(數(shù)據(jù)注解)和 Facebook(評估粉絲頁面贊助商的帖子)也雇傭臨時工進行類似的任務(wù)。
(微軟拒絕對此置評。LinkedIn無法確認(rèn)存在此類項目,F(xiàn)acebook 沒有回復(fù)置評請求。)
評級員工作整體的不穩(wěn)定性和普遍的非自愿解雇現(xiàn)象讓許多現(xiàn)職和離職工人感到不滿,他們表示自己工作的不穩(wěn)定性也會讓谷歌等幕后雇主失去熟練員工的積累。“他們白花時間訓(xùn)練新員工,然后又趕他們出門。”一位前雇員說。
不過,對科技公司而言,不斷使用新的臨時工做人工評估反而可能是提升 AI 智能的最佳做法。AI 專家稱定期更換人工數(shù)據(jù)來源更適合培訓(xùn) AI。“AI 需要眾多觀察事情的角度,特別是在引人反感的內(nèi)容等方面。”人工智能創(chuàng)業(yè)公司 Nara Logics CEO 亞娜·艾格斯(Jana Eggers)說。她還引用最高法院和色情的著名故事。聯(lián)邦法官稱自己不知道如何界定色情,但“讓我看一眼我就知道了”(I know it when I see it)。同理,給機器更多的視角會得到更好的結(jié)果。
盡管 AI 研究人員普遍認(rèn)為,訓(xùn)練人員的不良習(xí)氣不會隨著訓(xùn)練數(shù)據(jù)一同傳染給 AI。但工作環(huán)境和個人經(jīng)驗之外,一些更微妙的影響實難控制。“人們經(jīng)常聽到的觀點講大量不同的數(shù)據(jù)是培訓(xùn) AI 模型的途徑。”康奈爾大學(xué) AI 教授巴特·塞爾曼(Bart Selman)說。“這是一個很好的指導(dǎo)方針,但當(dāng)涉及道德判斷時,群體中根深蒂固的偏見也是需要注意的。”例如,人們往往認(rèn)為男人比女人更能勝任某些工作(或相反)。“如果使用來自一個特定群體的數(shù)據(jù)來訓(xùn)練 AI,人群中隱藏的偏見也會一并被 AI 習(xí)得。”同理,使用一群焦慮的臨時工來訓(xùn)練 AI,臨時工特有的偏見也可能被吸收到系統(tǒng)中。
“你不會想通過讓機器觀察普通人在日常生活中的做法來訓(xùn)練 AI 倫理模塊。”塞爾曼說。“你想從那些對偏見和倫理問題有更深入思考的人身上獲得數(shù)據(jù)。”
谷歌山景城總部以待遇優(yōu)越著稱,風(fēng)景如畫的園區(qū)內(nèi)設(shè)免費自助餐廳,游泳池和桌球室也是應(yīng)有盡有。這與廣告評級員的境遇形成鮮明對比。不無諷刺的是,在如今這個時代,為世界上最具價值的科技企業(yè)工作可能意味著豪華福利和天價工資,也可能意味著作為招之即來揮之即去的臨時工,從事千篇一律的工作,工作的意義只是培訓(xùn)公司的機器取代自己。