您所在的位置:紅商網(wǎng)·新零售陣線 >> 零售業(yè)頻道 >> 正文
海深科技CEO戴劍彬博士:詳解商品識(shí)別在零售行業(yè)的應(yīng)用

  化繁為簡(jiǎn),是科技發(fā)展的核心目的之一,在零售行業(yè),消費(fèi)和運(yùn)營(yíng)流程的簡(jiǎn)化、人員結(jié)構(gòu)的優(yōu)化,在一次次的技術(shù)變革中獲得不斷的突破。近幾年,人工智能圖像識(shí)別技術(shù)帶動(dòng)新零售經(jīng)歷了新一輪升級(jí),其中極具科技感與未來(lái)感的人臉識(shí)別技術(shù)開(kāi)始深入我們的生活。而在智慧零售的背后,圖像識(shí)別的另一個(gè)分支——商品識(shí)別技術(shù)可能并不為人熟知,但卻同樣承載著線下零售數(shù)字化的重任。

  9月3日晚,智東西公開(kāi)課邀請(qǐng)到在商品識(shí)別領(lǐng)域有豐富經(jīng)驗(yàn)的海深科技創(chuàng)始人、CEO戴劍彬博士,就商品識(shí)別在零售行業(yè)的應(yīng)用,進(jìn)行了詳細(xì)講解,并現(xiàn)場(chǎng)解答眾多相關(guān)從業(yè)者在實(shí)際應(yīng)用中遇到的難題。

  以下為課程內(nèi)容實(shí)錄。

  一、圖像識(shí)別的應(yīng)用場(chǎng)景,以及對(duì)零售行業(yè)的變革

  1.以圖搜圖,拍照購(gòu)物

  說(shuō)到圖像識(shí)別,大家可能馬上能想到以圖搜圖的方式,也就是“拍照購(gòu)”。這個(gè)想法出現(xiàn)的很早,在零幾年的時(shí)候就有很多公司開(kāi)始做這方面的嘗試。

  美國(guó)硅谷的snaptell,他們?cè)缭诹懔甑臅r(shí)候就開(kāi)始做拍照購(gòu)物的應(yīng)用場(chǎng)景,他們做的大部分是一些書籍和CD類的簡(jiǎn)單物品識(shí)別,2009年被Amazon收購(gòu)。2015年Amazon收購(gòu)了另一家做圖像識(shí)別相關(guān)的華人公司Orbeus。到2016年后,像Google、Pinterest、Instagram,都開(kāi)發(fā)了一些類似的功能。

  國(guó)內(nèi),淘寶是比較早開(kāi)始涉及這個(gè)領(lǐng)域的。2014年,淘寶自己開(kāi)始研發(fā)了拍立淘的功能,而另一家電商巨頭——京東,在2017年上線的“拍照購(gòu)”采用的是海深科技的算法。同時(shí)海深科技還服務(wù)了小紅書、搜狗圖像搜索等一些一線的互聯(lián)網(wǎng)企業(yè)。

  2.貨架排面管理

  貨架排面管理的需求主要來(lái)自品牌方,以前會(huì)有巡店的業(yè)務(wù)需求。比如商品擺到貨架上,需要知道占了多大的排面,是不是整齊擺放,以前是派員工巡店,后來(lái)是通過(guò)拍照的方式。現(xiàn)在出現(xiàn)了很多眾包公司,專門幫助品牌方拍攝門店的照片。

  照片收到后如何處理是一個(gè)問(wèn)題,如果以人力來(lái)處理這些照片效率很低,無(wú)法及時(shí)反饋,所以在這樣的場(chǎng)景下,商品識(shí)別技術(shù)有很大的應(yīng)用需求。眾包公司負(fù)責(zé)拍照的人差異很大,拍照的方式、用的相機(jī)、照片的像素都不一樣,回傳圖片后審核,可能一周后發(fā)現(xiàn)有不符合要求的門店,需要再次跑到店里去解決。如果能在拍照后,實(shí)時(shí)通過(guò)圖像識(shí)別知道這個(gè)結(jié)果,對(duì)眾包的人員來(lái)說(shuō),是非常高效和節(jié)省成本的方式。

  這個(gè)領(lǐng)域有一家公司叫TRAX,他們用的是一個(gè)機(jī)器人來(lái)巡店,這是一家目前有一定規(guī)模的公司,總部在新加坡,核心研發(fā)人員是以色列的,與以色列的幾個(gè)學(xué)校在聯(lián)合做這個(gè)項(xiàng)目。國(guó)內(nèi)目前也有一些同行在做類似的自動(dòng)貨架拍攝的相關(guān)項(xiàng)目。

  3.無(wú)人超市

  說(shuō)到無(wú)人超市,Amazon Go是近幾年都很火的。當(dāng)然,Amazon Go用到的核心技術(shù)不止是圖像識(shí)別,更不止于商品識(shí)別。他們采取了很多手段,包括他們稱之為smart shelf,是采用了重力感應(yīng)技術(shù),也有紅外技術(shù),頂部是攝像頭用來(lái)跟拍店里的用戶,也做了很多Re-ID的工作。

  Amazon Go的方案成本非常高,核心難點(diǎn)是人與貨的關(guān)聯(lián)。圖像識(shí)別的一個(gè)核心技術(shù)就是Re-ID——人的跟蹤,他們用了一些像紅外技術(shù)這樣的輔助手段來(lái)探測(cè)手的位置,用重量感應(yīng)來(lái)判斷商品是否被拿起來(lái),然后后攝像頭來(lái)跟蹤人的位置。

  我們也在研發(fā)類似的技術(shù),目前在與百聯(lián)合作嘗試落地,但總體還是一個(gè)計(jì)算量非常大而且成本很高的項(xiàng)目。但是Amazon Go具體核心算法是怎么做的,我們也只能是一些猜測(cè),他們做了這么長(zhǎng)時(shí)間,很多技術(shù)細(xì)節(jié)都是很值得研究的。Amazon Go是一個(gè)開(kāi)放性的環(huán)境,雖然做了很多定制性的優(yōu)化,但整個(gè)店面環(huán)境以及與人的交互,實(shí)際問(wèn)題是非常難解決的。

  4.無(wú)人零售柜

  現(xiàn)在出現(xiàn)了一些無(wú)人零售柜,跟無(wú)人超市相比,是一個(gè)更小的單元,環(huán)境是更可控的。從應(yīng)用場(chǎng)景來(lái)看,很多人會(huì)跟以前傳統(tǒng)的販賣機(jī)Vending Machine去比較,其實(shí)在我的理解下它是一個(gè)新的形態(tài),更像一個(gè)小的便利店,但是是一個(gè)更靈活的形態(tài),商品的品類和擺放也會(huì)更自由,這是跟傳統(tǒng)販賣機(jī)最大的區(qū)別。

  現(xiàn)在無(wú)人零售柜的技術(shù)實(shí)現(xiàn)有靜態(tài)圖像和動(dòng)態(tài)視覺(jué)兩種,海深科技采用的是靜態(tài)的方案,就是在關(guān)門之后拍照,跟關(guān)門前的圖片進(jìn)行對(duì)比,確認(rèn)用戶拿走哪些商品。因?yàn)檫@個(gè)方案用的是云端服務(wù),所以成本會(huì)比較低。而動(dòng)態(tài)視頻無(wú)論是線上傳輸還是本地計(jì)算,都會(huì)產(chǎn)生更高的成本,而且準(zhǔn)確率無(wú)法保證。

  5.無(wú)人結(jié)算臺(tái)

  目前我們還在做的另一個(gè)設(shè)備,是無(wú)人結(jié)算臺(tái)。這樣的產(chǎn)品也有幾家公司在做,我們的不同點(diǎn)是,它是一個(gè)半封閉的場(chǎng)景,周圍的環(huán)境影響會(huì)更小,在技術(shù)實(shí)現(xiàn)上會(huì)更有優(yōu)勢(shì)。目前的深度學(xué)習(xí)模型的泛化能力還是比較有限的,我們會(huì)通過(guò)一些物理手段,或者其他技術(shù)手段來(lái)對(duì)環(huán)境做一些控制,會(huì)更有利于技術(shù)實(shí)現(xiàn),或者是效率、準(zhǔn)確率的提升。

  無(wú)人結(jié)算臺(tái)的商業(yè)化落地還在探索階段,并且還是會(huì)有一些限制。比如說(shuō)很大的商品,都沒(méi)有辦法放到這個(gè)結(jié)算臺(tái)上,當(dāng)然也沒(méi)有辦法做結(jié)算。未來(lái)的結(jié)算會(huì)以什么樣的方式,是人工的,還是需要把商品放在一個(gè)設(shè)備里,還是像Amazon Go這樣的完全無(wú)感知的結(jié)算方式,我們都不知道。當(dāng)然,從長(zhǎng)遠(yuǎn)來(lái)看,Amozon Go的方式肯定是一個(gè)方向,但是短期內(nèi)商業(yè)化落地是非常困難的,最大的問(wèn)題就是過(guò)高的成本。

  6.線下數(shù)字化

  在線上,所有的用戶信息是數(shù)字化的,比如購(gòu)物時(shí),瀏覽過(guò)什么商品,點(diǎn)擊、停留時(shí)長(zhǎng)、購(gòu)買等等信息都是有記錄的。這方面今日頭條號(hào)稱是做的最好的,給用戶的內(nèi)容推薦相對(duì)比較精準(zhǔn)。對(duì)電商來(lái)說(shuō),這樣的數(shù)字化數(shù)據(jù)可以幫助優(yōu)化運(yùn)營(yíng)策略,是很重要的一個(gè)方面。

  在線下,用戶信息的數(shù)字化是很困難的。最早的時(shí)候,線下數(shù)字化是用探針的方式來(lái)做。探針最大的問(wèn)題就是精度,定位不準(zhǔn)確,即使是用兩三個(gè)點(diǎn)來(lái)共同定位,也只能簡(jiǎn)單定位人的位置,誤差還是比較大。

  2017年開(kāi)始,很多公司開(kāi)始通過(guò)視頻分析用戶的行為,來(lái)做線下數(shù)字化。有一家海外數(shù)一數(shù)二的連鎖店希望跟我們合作,去做用戶路徑跟蹤、人與物的交互分析。這有點(diǎn)像Amazon Go的技術(shù),但是他們需要做到結(jié)算,這樣的線下數(shù)字化只是做數(shù)據(jù)分析。

  除此之外,線下還有兩個(gè)很大的需求就是防盜和員工管理。防盜的需求比較清晰,員工管理其實(shí)也很重要,比如員工與客戶溝通的熱情,甚至員工的異常行為等等。

  做線下數(shù)字化的原因是什么呢?其實(shí)無(wú)人店的核心不是有人和無(wú)人,而是強(qiáng)制的會(huì)員制。Costaco為什么這么火爆,他做的最好的就是明確的用戶定位+會(huì)員制,然后只服務(wù)于這個(gè)群體。無(wú)人店通過(guò)強(qiáng)制的會(huì)員制,去繪制用戶畫像,對(duì)他進(jìn)行精準(zhǔn)定位,然后可以打通線上和線下,以定制化的服務(wù)來(lái)優(yōu)化商品、提高客單價(jià)。我覺(jué)得這是零售行業(yè)的趨勢(shì),也是線下數(shù)字化的意義。

  二、商品識(shí)別的技術(shù)難點(diǎn)

  1.人臉識(shí)別難還是商品識(shí)別難

  首先這個(gè)問(wèn)題不是很科學(xué),任何一個(gè)問(wèn)題都可以變得容易,也可以很難。人臉識(shí)別一般是比較配合的,像第一個(gè)圖,相對(duì)來(lái)說(shuō)難度會(huì)比較低,現(xiàn)在方案也比較成熟。那如果大街上,下著雨,半遮著臉,距離很遠(yuǎn),清晰度很低,這樣識(shí)別難度就很大了。那如果是看著后腦勺希望把人識(shí)別出來(lái),就顯然不太合理。

  商品識(shí)別也是類似,一個(gè)商品擺在面前來(lái)區(qū)分是比較容易的,但實(shí)際的場(chǎng)景中就會(huì)很困難。比如第二張圖的排面,這還是我們做過(guò)的項(xiàng)目里相對(duì)容易的,因?yàn)閿[的很整齊。第三張圖的難度就很大了,這是一個(gè)非常極端的例子。農(nóng)夫山泉和可樂(lè)都是紅色的蓋子,飲料的顏色是不同的,但左下角只露出了一個(gè)蓋子,就非常難識(shí)別了。所以人臉識(shí)別和商品識(shí)別哪個(gè)更難這個(gè)問(wèn)題,需要從不同的角度來(lái)看待。

  2.準(zhǔn)確率 = 70%*數(shù)據(jù)+30%*算法

  提升識(shí)別準(zhǔn)確率,核心是兩個(gè)部分,數(shù)據(jù)和算法。我們都非常關(guān)注的算法層面,可能只占30%的比例,數(shù)據(jù)可能要占70%。

  3.目標(biāo)檢測(cè)往往是更難的

  目標(biāo)檢測(cè)其實(shí)比識(shí)別更難,大部分的時(shí)間我們花在做目標(biāo)檢測(cè)上。零售行業(yè)的排面檢測(cè)相對(duì)要求還不會(huì)特別高,多一個(gè)小一個(gè)框不會(huì)構(gòu)成大的問(wèn)題。但比如像我們智能柜的場(chǎng)景,商品識(shí)別是用來(lái)做結(jié)算的,要求100%準(zhǔn)確,特別是密集擺放的情況下,難度就很高。

  實(shí)際的場(chǎng)景中除了密集擺放,還會(huì)有傾倒重疊的情況出現(xiàn)。像下圖中的重疊,我們目前能夠識(shí)別,但如果出現(xiàn)一個(gè)商品比較長(zhǎng),另一個(gè)商品完全覆蓋把商品截成兩段,人可以通過(guò)聯(lián)想知道是同一個(gè)商品,但是機(jī)器會(huì)識(shí)別為兩個(gè)商品。

  再比如說(shuō)商店的排面,上圖左上角的牛奶只露出了不到1/20,商品識(shí)別很可能會(huì)出錯(cuò),所以這不能只依靠商品識(shí)別來(lái)做。人會(huì)通過(guò)推理來(lái)判別,那么商品識(shí)別中也許可以增加近似的技術(shù)手段來(lái)優(yōu)化整個(gè)方案。

  4.物體的重識(shí)別Re-ID

  一般物體的識(shí)別,我們更多的解決的是一個(gè)攝像頭下的商品識(shí)別,還有一個(gè)常見(jiàn)但更復(fù)雜的場(chǎng)景,就是在更大的區(qū)域下,可能需要兩個(gè)攝像頭協(xié)同拍攝,每張圖分別拍到一部分,兩張圖還有重合的部分。如何在這樣的情況下精準(zhǔn)地識(shí)別,我們團(tuán)隊(duì)去年花了整整一年的時(shí)間,解決了這個(gè)問(wèn)題。

  很多人馬上想到的是把兩張圖進(jìn)行拼接,但實(shí)際拼不起來(lái),商品有高有矮,兩張圖也是不同的角度。實(shí)際要如何解決呢?其實(shí)跟人的推理方法是一樣的。首先我們比較確定的是一些邊緣的信息,比如兩張圖分別有哪些靠近邊緣,找到一些關(guān)鍵點(diǎn),也就是說(shuō),哪些商品在兩張圖里是同一個(gè)。簡(jiǎn)單地說(shuō),人是如何理解這兩個(gè)畫面,那么讓算法也近似地去理解。

  三、智能零售解決方案工程化落地關(guān)鍵

  1.數(shù)據(jù)標(biāo)注的優(yōu)化

  之前也提到,數(shù)據(jù)的重要程度非常高,如何提升數(shù)據(jù)質(zhì)量,采集、標(biāo)注數(shù)據(jù)策略的優(yōu)化,在什么場(chǎng)景下做采集,都是非常重要的方面。而后期,當(dāng)數(shù)據(jù)達(dá)到一定量的時(shí)候,如何實(shí)現(xiàn)數(shù)據(jù)工程化高效采集,也成為需要考慮的方面。

  數(shù)據(jù)的采集沒(méi)有捷徑,高質(zhì)量的數(shù)據(jù)一定需要花費(fèi)很多時(shí)間。同時(shí),優(yōu)質(zhì)的數(shù)據(jù)采集和標(biāo)注平臺(tái),也是非常重要的。一個(gè)優(yōu)質(zhì)的數(shù)據(jù)平臺(tái)的開(kāi)發(fā),本身就可以成為一個(gè)獨(dú)立的產(chǎn)品。

  我們也嘗試過(guò)3D建模,成本相抵會(huì)更低,可以迅速把準(zhǔn)確率提升到90%,甚至95%以上,但是要達(dá)到99%以上接近100%的水平,3D建模是不夠的,還是需要采集更多有效的數(shù)據(jù)。

  2.場(chǎng)景限定與優(yōu)化

  現(xiàn)在深度學(xué)習(xí)的能力其實(shí)還是有限,泛化能力還比較弱,只針對(duì)一些限定的場(chǎng)景會(huì)有比較好的結(jié)果。就像之前我們提到兩個(gè)例子,一個(gè)是Amazon Go,一個(gè)是我們的智能柜,整體的環(huán)境還是定制化的。比如外界的燈光、陽(yáng)光造成的光線差異,攝像頭的更換導(dǎo)致的色差,都會(huì)是影響結(jié)果的原因。

  因而目前的商業(yè)落地,場(chǎng)景的限定與優(yōu)化是比較重要的,在深度學(xué)習(xí)還沒(méi)有達(dá)到一定強(qiáng)度的時(shí)候,外界的輔助手段可能是提升效果的重要輔助方式,場(chǎng)景、算法、應(yīng)用、硬件都需要協(xié)同配合。

  3.數(shù)據(jù)共享

  圖像識(shí)別能有今天的發(fā)展,很大程度上受益于李飛飛教授主持的ImageNet大量標(biāo)注圖片數(shù)據(jù)集,可以說(shuō)是現(xiàn)在所有圖像識(shí)別最根本的基礎(chǔ)。

  同樣的道理,由于商品種類的繁多性,靠一個(gè)公司或者團(tuán)體的能力,很難提升算法的泛化能力,也就是單一算法只能適用于非常有限的場(chǎng)景,很難形成規(guī);(yīng)。其實(shí)我們這個(gè)行業(yè)也是類似,在數(shù)據(jù)層面其實(shí)可以合作共贏的方式來(lái)推進(jìn)整個(gè)行業(yè)的良性發(fā)展,數(shù)據(jù)共享和算法開(kāi)放將會(huì)成為人工智能發(fā)展的一個(gè)重要趨勢(shì)。

  講師介紹

  戴劍彬博士,海深科技創(chuàng)始人、CEO,深度學(xué)習(xí)資深專家,曾在Oracle,Yahoo!等硅谷著名互聯(lián)網(wǎng)公司長(zhǎng)期從事機(jī)器學(xué)習(xí)算法的研發(fā)。在百度美國(guó)研究所期間與深度學(xué)習(xí)世界頂級(jí)專家吳恩達(dá)教授合作共事兩年,在超大規(guī)模深度模型的架構(gòu)和優(yōu)化領(lǐng)域有世界前沿性成果。2016年6月回國(guó)創(chuàng)建海深科技。

  智東西公開(kāi)課介紹

  智東西公開(kāi)課,專注講解新興技術(shù)創(chuàng)新與應(yīng)用。智東西公開(kāi)課隸屬于智能產(chǎn)業(yè)媒體與創(chuàng)新服務(wù)平臺(tái)“智一科技”,旗下有主題系列課、企業(yè)專場(chǎng)、專欄以及技術(shù)社群,目前重點(diǎn)關(guān)注的新興技術(shù)包括人工智能、AI芯片、RISC-V、自動(dòng)駕駛、AIoT,涉及行業(yè)覆蓋互聯(lián)網(wǎng)、汽車、半導(dǎo)體、智能家居、新零售、機(jī)器人、安防等等。

關(guān)注公號(hào):redshcom  關(guān)注更多:

東治書院2024級(jí)易學(xué)文士班(第二屆)報(bào)名者必讀
『獨(dú)賈參考』:獨(dú)特視角,洞悉商業(yè)世相。
【耕菑草堂】巴山雜花土蜂蜜,愛(ài)家人,送親友,助養(yǎng)生
關(guān)注『書仙笙』:結(jié)茅深山讀仙經(jīng),擅闖人間迷煙火。
研究報(bào)告、榜單收錄、高管收錄、品牌收錄、企業(yè)通稿、行業(yè)會(huì)務(wù)
★★★你有買點(diǎn),我有流量,勢(shì)必點(diǎn)石成金!★★★