大數(shù)據(jù)是指數(shù)據(jù)量很大么? 大數(shù)據(jù)到底有多大?
大數(shù)據(jù)和數(shù)據(jù)是兩個(gè)完全不同的概念,數(shù)據(jù)是對(duì)客觀事物的屬性邏輯描述,大數(shù)據(jù)是對(duì)數(shù)據(jù)進(jìn)行管理的存在形式。例如:煤炭按照性質(zhì)有不同分類(lèi),且挖掘成本又不一樣。與此類(lèi)似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。
一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿(mǎn)1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣(mài)出的手機(jī)為37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬(wàn)……足以見(jiàn)大數(shù)據(jù)的體量有多大?
大數(shù)據(jù)是最近才出現(xiàn)的一種新科技么?
不是。大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,數(shù)據(jù)在很久以前便存在,只是在以云計(jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)了,只有通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)才會(huì)逐步為人類(lèi)創(chuàng)造更多的價(jià)值。
大數(shù)據(jù)和云計(jì)算什么關(guān)系?
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
人們常指的大數(shù)據(jù)是什么?
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
大數(shù)據(jù)可以應(yīng)用在哪些領(lǐng)域?數(shù)據(jù)共享的能力體現(xiàn)?
數(shù)據(jù)源、數(shù)據(jù)工程能力以及數(shù)據(jù)挖掘能力沒(méi)有哪個(gè)更為重要,三方相輔相成,同時(shí)也根據(jù)不同產(chǎn)品、不同定位隨需而變,以滿(mǎn)足用戶(hù)多方位的需求。
人們一直在聊大數(shù)據(jù)、DT時(shí)代,我們發(fā)現(xiàn)除了數(shù)據(jù)寡頭,各級(jí)政府、一些相關(guān)的機(jī)構(gòu)都積累了大量的跟我們生活中息息相關(guān)的海量數(shù)據(jù)資源。市面上有較多免費(fèi)的基礎(chǔ)數(shù)據(jù)產(chǎn)品,但數(shù)據(jù)資源是稀缺的。
我經(jīng)常會(huì)被問(wèn)到“你認(rèn)為數(shù)據(jù)源、數(shù)據(jù)工程能力以及數(shù)據(jù)挖掘能力,哪個(gè)是第一位的?”,這個(gè)問(wèn)題對(duì)于不同的公司來(lái)說(shuō),答案肯定會(huì)不一樣。
我首先要強(qiáng)調(diào)一點(diǎn),共享不等于免費(fèi)。是什么原因阻礙了數(shù)據(jù)能力共享的?
第一,在沒(méi)有相應(yīng)法律政策引導(dǎo)下,從業(yè)人員會(huì)擔(dān)心數(shù)據(jù)共享引起的信息安全問(wèn)題,數(shù)據(jù)泄密失控,對(duì)開(kāi)放有恐懼。除了6月1號(hào)開(kāi)始試行的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》之外,之前參考的更多是條例、辦法、規(guī)定。比如互聯(lián)網(wǎng)信息管理辦法以及互聯(lián)網(wǎng)個(gè)人信息保護(hù)規(guī)定。
這是一個(gè)非常現(xiàn)實(shí)的問(wèn)題,從業(yè)人員都會(huì)有這個(gè)擔(dān)憂。對(duì)于數(shù)據(jù)共享或者數(shù)據(jù)的開(kāi)放造成的影響是不可避免的。隨著進(jìn)一步的媒體宣傳大家對(duì)于數(shù)據(jù)有了敬畏之心,看到第一反應(yīng)是說(shuō)“什么事情我能做,什么事情我不能做”,第二就是數(shù)據(jù)的壁壘。數(shù)據(jù)一旦出門(mén)就失去了壁壘,這樣的短線操作存在極大風(fēng)險(xiǎn)。這個(gè)擔(dān)憂當(dāng)然是有道理的。這也是目前很多data bank , data broker 在不停嘗試努力并且要解決的問(wèn)題。
除此之外,數(shù)據(jù)源五花八門(mén),算法能力層次不齊,如何實(shí)現(xiàn)數(shù)據(jù)對(duì)接也是重中之重。以畫(huà)像標(biāo)簽為例,某家的年齡標(biāo)簽是18-23,另一家是19-24,給你幾個(gè)不同數(shù)據(jù)源標(biāo)簽畫(huà)像,怎么使用?不同家標(biāo)簽對(duì)接方式也不一樣。
關(guān)于數(shù)據(jù)對(duì)接,畫(huà)像系統(tǒng)輸入的先決條件大都以客戶(hù)提供ID包為主,每一個(gè)群體畫(huà)像查詢(xún)都應(yīng)該有一個(gè)查詢(xún)主題。例如某服裝品牌的人群畫(huà)像、某部綜藝節(jié)目女性觀眾的的APP使用習(xí)慣等等。然而,畫(huà)像系統(tǒng)輸入條件是ID包,這也是很多用戶(hù)面對(duì)的難題之一??梢蕴峁┓?wù)群體畫(huà)像的ID包,或者當(dāng)客戶(hù)提供ID包時(shí),我們可以ID-mapping.
當(dāng)有多個(gè)數(shù)據(jù)源能力單元以及多個(gè)數(shù)據(jù)合作伙伴時(shí),如何正確選擇準(zhǔn)確的標(biāo)簽,同時(shí)選擇性?xún)r(jià)比最高的標(biāo)簽使用呢?
相同標(biāo)簽不同源之間的評(píng)估,合并后輸出結(jié)果。
對(duì)于所提到的ID級(jí)數(shù)據(jù),首先ID級(jí)不是輸出ID的,在這里主要是強(qiáng)調(diào)和之前產(chǎn)品的一些區(qū)別,非配比、非推及、非調(diào)研的方式打造的ID級(jí)數(shù)據(jù)產(chǎn)品。不涉及配比的方式,不涉及推及的算法。比如,APP活躍畫(huà)像標(biāo)簽一定是第一步夠建的人群所對(duì)應(yīng)的結(jié)果,而并不代表這些APP在中國(guó)網(wǎng)民的排名。
同時(shí)要了解的是,數(shù)據(jù)能力共享不是數(shù)據(jù)共享,不是把原始的數(shù)據(jù)生產(chǎn)資料發(fā)布出來(lái)。簡(jiǎn)單來(lái)說(shuō),假設(shè)所有人能夠同時(shí)利用辨析畫(huà)像能力,以及其他的頭部數(shù)據(jù)源的畫(huà)像能力,進(jìn)而,允許你去選擇所想要的標(biāo)簽。即便如此,由于場(chǎng)景不同,還需要第三方去驗(yàn)證每個(gè)標(biāo)簽的質(zhì)量,統(tǒng)一整合之后發(fā)布,這樣才會(huì)使得事半功倍、并且高效。
無(wú)需冒著各種風(fēng)險(xiǎn)大量采購(gòu)數(shù)據(jù),也無(wú)需招人完成數(shù)據(jù)工程能力。1000個(gè)ID起查,群體結(jié)果輸出,不涉及個(gè)人隱私。同時(shí)規(guī)避數(shù)據(jù)留存問(wèn)題,群體畫(huà)像針對(duì)客戶(hù)所構(gòu)建的人群實(shí)現(xiàn)一次性結(jié)果。
群體畫(huà)像能力共享的前提是DMP提供多種方式構(gòu)建人群。特別是傳統(tǒng)企業(yè),除了CRM里的手機(jī)號(hào),通常沒(méi)有其它可供分析的ID包。
而將數(shù)據(jù)分IOS、安卓、PC端等;人群劃分出核心人群、競(jìng)品人群、潛在人群、沉默人群等。同時(shí),支持的方式有:一方ID、預(yù)設(shè)人群、標(biāo)簽DMP、APP定向,活躍域名,視頻人群,地理圍欄等方式構(gòu)建人群。同時(shí),內(nèi)部研究團(tuán)隊(duì)會(huì)根據(jù)不同情況,設(shè)定不同特殊人群。
綜上來(lái)說(shuō),對(duì)于受眾管理和受眾洞察有完整及豐富的處理經(jīng)驗(yàn)。簡(jiǎn)單來(lái)說(shuō),受眾管理在產(chǎn)品里的體現(xiàn)是利用DMP構(gòu)建目標(biāo)人群,生成ID包;而受眾洞察在產(chǎn)品的體現(xiàn)是基于已構(gòu)建的ID包,對(duì)接以及數(shù)據(jù)合作伙伴的畫(huà)像能力去完成畫(huà)像服務(wù)。