一、背景
隨著中國電影市場發(fā)展成熟,電影成為我們日常文化生活重要的一部分,豐富了我們的業(yè)余生活。通常,業(yè)界以電影的票房收入作為評價一步電影是否成功或優(yōu)秀的指標。近些年來,有許多影片在票房上取得了空前的成功,例如2011年上映的《變形金剛3》、《功夫熊貓2》,2012年上映的《泰囧》,2014年上映的《捉妖記》、《速度與激情7》等。一部電影的票房收入不僅僅是大家津津樂道的談論話題,更是電影投資方確保投資回報的保障。
因此,電影票房的預測一直具有重要的意義,本文將針對國內電影市場介紹一種利用大數(shù)據做電影票房預測的方法。
二、票房影響因素
電影票房會受到多種因素的共同影響,國內外很多學者和研究機構都對票房的影響因素做過分析工作,其中比較著名的是上世紀80年代,美國的巴里·李特曼(Barry Litman)的票房分析模型。李特曼以80年代在美國上映的電影為樣本,對票房的影響因素進行研究,將影響因素分為創(chuàng)意、發(fā)行和營銷能力三類。其中創(chuàng)意因素指電影本身的一些信息,如影片類型(冒險、喜劇、犯罪、科幻等),MPAA分級(G、PG、R等),故事熟悉程度(是否改變自小說等其他媒介),生產成本等;發(fā)行因素指與電影發(fā)行上映相關的因素,如是否為大發(fā)行商發(fā)行,發(fā)行檔期(圣誕檔、暑期檔等),發(fā)行模式等;營銷能力因素指發(fā)行公司的營銷能力,以及影片是否獲得過一些獎項或提名等。
通過對這些因素進行分析,李特曼發(fā)現(xiàn)一部影片的明星演員、頂級導演、大發(fā)行公司、科幻片等因素會對影片的票房產生較大的影響。本文的票房預測也將基于李特曼的研究結果來選擇國內票房的影響因素。
我們從互聯(lián)網上收集到2013年到2015年已上映的2200部影片信息,包括影片名、導演、主演、上映時間、觀眾評分、類型等。針對這2200部電影,我們還收集到了其中1036部電影的上映的周數(shù)、上映首周的票房收入和場均人次以及最終的票房收入?;讷@取到的這1036部影片的數(shù)據,我們參考李特曼的票房預測模型選擇國內電影票房的影響因素,包括:
1) 電影評分,范圍為1-10,由觀影觀眾給出,數(shù)值越大表示影片越受歡迎;
2) 電影時長,一部電影的放映時長;
3) 是否為改編,影片是否來自小說或漫畫的改編;
4) 上映檔期,是否在賀歲檔、暑期檔、五一檔或國慶檔上映;
5) 電影類型,是否為喜劇、驚悚、劇情或科幻;
6) 電影上映周數(shù),電影在影院放映的周數(shù);
7) 上映首周平均日票房,由上映首周的票房收入和首周上映天數(shù)得到;
8) 上映首周的場均觀影人次,上映首周內平均每場的觀影人次;
三、電影票房預測模型
以上選取的因素為特征,作為票房預測的自變量,以電影總票房作為因變量。從數(shù)據中抽取這些特征生成訓練集和測試集,訓練集和測試集的數(shù)據比例為8:2。本文采用線性回歸模型和決策樹回歸模型來分別訓練票房預測模型,利用訓練集訓練得到模型,然后利用測試集對模型預測效果進行評價,主要通過R2來評價模型擬合效果,其數(shù)值越接近1表示模型的擬合效果越好。
經過訓練,線性回歸模型和決策樹回歸模型的R2都達到了0.87,表明兩個模型對于實際票房的擬合程度都較好。但在實際預測效果方面,如下圖所示為票房預測模型的預測值與實際值的誤差,可以看出決策樹回歸模型所得預測值與實際值的誤差要小于線性回歸模型的預測誤差,一般情況下決策樹回歸模型所得的預測誤差在10%-40%之間。
下面兩張表分別是線性回歸模型和決策樹回歸模型在一些電影票房預測的結果(票房單位為萬元),同樣可以看出決策樹回歸模型的預測效果要好于線性回歸模型。
表1 線性回歸模型預測結果
表2 決策樹回歸模型預測結果
四、總結與展望
本文從一部分重慶大數(shù)據公司及重慶大數(shù)據分析公司獲取國內電影市場的影片信息和票房數(shù)據,基于李特曼的分析并針對國內電影市場的特點提取特征值,利用線性回歸和決策樹回歸模型對電影票房進行預測,獲得了與實際情況擬合程度較高的預測模型,利用該模型對電影的國內票房可以做出相對準確的判斷,供大家參考。
然而,影響電影票房的因素有很多,但我們現(xiàn)有的模型特征更偏向于影片本身的信息。受限于互聯(lián)網上數(shù)據的不全面等原因,諸如發(fā)行公司實力、營銷能力等電影發(fā)行、營銷方面的因素沒有完全加入到我們的預測模型中。顯然,這些因素也會對票房收入產生重大的影響。因此這也是我們今后在票房預測方面努力的方向——通過更全面的數(shù)據集來進行更準確的票房預測。