流行电视剧数据分析
流行电视剧数据分析 1数据 1.1数据收集。本文共收集了包括《楚乔传》《人民的名义》《夏至未至》 等八部正在更新或已经更新完的电视剧的单集点击量,收视率,评论数等数据。采用的电视剧每集点击量,评论数来自于中国网络视频指数(index.youku.com)和 爱奇艺指数(index.iqiyi.com),网站提供视频上线之后的每集电视剧的点击量总数, 电视剧每天至少更新一集。播出时段的收视率来自于央视索福瑞 (www.csm.com.cn),其中有同一天晚上播出多集的使用同一个收视率数据,同步 更新的电视剧使用收集数据当天之前的数据,之后的数据不再进行统计。1.2数 据预处理。为了避免因播放源不同而引起的数据之间难以考虑到的误差,本文所 使用的八部电视剧均为湖南卫视同一时段播放的,且网络点击量的数据均来自于 中国网络视频指数。此外,为了方便数据的使用,本文将点击量的单位定为百万 次,收视率的单位为%,评论数的单位为千条。此外,本文还会去掉一些因为上 线时间较短等其他因素导致的一些异常值,以求得更精准的模型。和图2) 2理论基础 一元线性回归模型具有简单易行的特点,且经过多次数据处理和计算后发 现拟合度较高,所以本文所使用的模型的理论基础均为一元线性回归模型的理论。
对于一元线性回归模型f(x)=w0+w1x,每一个xi都有一个实际的yi和本文通过回 归得出的f(xi)与其对应,本文令yi=w0+w1xi+εi,,其中εi,是真实值与预测值之 间的差值,即εi,=yi-f(xi),当残差平方和RSS最小时,证明该模型与实际拟合程 度最高,即该模型越精确。其中RSS=ε12+ε22+…+εn2=∑i=1n[yi-f(x)i]2残差平方 和是回归参数w0和w1的函数,即表示为RSS(w0,w1),要找到最好的回归方程,即 求L=min∑i=1n(yi-[w0+w1xi])2,在求解L时,本文采用梯度下降的方法:对L求 偏导数得到Lw1=[(w1x+w0)-y]x和Lw0=(w1x+w0)-y。令w1i+1=w1i-αLw1, w0i+1=w0i-αLw0,其中α为学习率(learningrate),直到Lw1=0且Lw0=0,求出当时 的w0和w1。
3模型的建立与处理 3.1基于一元非线性时间序列预测模型对收视率的预测。收视率,指在某 个时段收看某个电视节目的目标观众人数占总目标人群的比重,以百分比表示。
收视率越高,则该电视剧与同期节目相比受到的关注度就越高,一般来说,当t-1时刻的电视剧收视率越高时,观众对t时刻的电视剧的期望就越高,t时刻的收视 率就越高。因此本文猜想,t-1时的收视率与t时刻的收视率存在某种关系。本文 以t-1时刻的收视率为自变量来预测t时刻的收视率,进行了多次数据分析。以《楚 乔传》为例:如图3是真实的t时刻与t-1时刻的电视剧收视率的关系:图3电视剧 《楚乔传》t时的收视率与t-1时收视率的关系由上图可以看出,t-1时刻的收视率 与t时刻的收视率基本符合一元二次的函数关系,得到的模型拟合程度较高。之 后以上图中得到的回归方程,预测最后5集电视剧收视率,得出结果后再与前面 几集的收视率做回归分析,得到如下图4:图4《楚乔传》预计的t时收视率与t-1 时收视率的关系该数据同样得到了拟合程度很高的模型,与真实结果相比差距很 小。其中,实际结果得出的二次项系数为负而上图中二次项系数为正,可能是因 为使用的数据量过少。同时本文对当时电视剧播出的背景做过调查后发现,最后 五集播出时处于工作日。很多人因为工作的原因不能及时收看电视,这也可能是 造成预测结果偏大的一个原因。最后本文经过多次验证得出该模型可以很好的拟 合数据,对任一时刻的收视率,该模型都具有很好的预测效果。因而本文可以认 为,热播电视剧的收视率与上一集的收视率存在一元二次的函数关系。3.2一元 线性模型预测单集电视剧评论数。通常来讲,对于一部热播电视剧,如果某一集 相比较其他更加吸引观众,便更会引起人们对他的关注,反映到数据上的一方面 就是该集的评论数就会越多。而在收视率和点击量两个可能可以预测评论数的因 素中,本文猜想点击量能更好地预测评论数,并通过数据验证了本文的猜想。以 《人民的名义》和《三生三世十里桃花》为例(如图5和图6)从下图可以看出,不 论是单集还是整体,在收视率这一方面《人民的名义》远超《三生三世十里桃花》, 而点击量方面的结果恰好相反,《三生三世十里桃花》则是更胜一筹,但如果本 文比较两部电视剧的评论数(如图7),《三生三世十里桃花》占据了绝对优势。造 成这种结果的原因是因为两部电视剧收看的人群年龄段不同,《人民的名义》的 观众群体年龄相对较高,多通过电视收看电视剧,很少会到网络上发表对这部电 视剧的看法;
而《三生三世十里桃花》的观众群体相对年轻,多通过网络收看电 视剧,并乐于与其他人商量对这部电视剧的观点。因而造成了点击量与评论数的 数据更为相符。通过比较可以初步验证本文的猜想,但这只能说明点击量比收视 率能更好地预测单集的评论数,是否点击量就能与评论数很好地契合,这还需要 本文进一步的数据分析。以《择天记》为例,本文以《择天记》的单集点击量为 自变量,该集的评论数为因变量,删除一些误差较大的数据后得到20组单集评论 数和点击量数据。将这20组数据进行回归分析得到的结果如表1和图8所示:表120 组数据所得回归直线的评估参数图820组数据预测的t时评论量与真实值的对比 通过回归分析本文可以看出,这二十组数据间的线性相关性较强,拟合程度较好。本文再以前十五组数据为训练集,最后五组数据为测试集。将预测的五组数据与 真实的五组数据作对比,并计算二者的相关系数ρ,即得表2:表2所得回归方程 的预测能力检验二者的相关系数ρ=0.792,即二者的相关性较强,因而本文可以 看出电视剧的单集点击量对当集的评论数有着较好的预测能力。当本文把电视剧 的数量扩展到6部时,本文先将156组数据进行回归分析,结果如表3和图9所示:
表3156组数据所得回归直线的评估参数图9156组数据预测的t时评论数与真实值 的对比删去这些数据中较大的66组数据,剩余的90组数据中,以其中85组为训练 集,另外5组为测试集,计算该模型的预测能力,如表4:表4回归直线的预测能 力检验由此可见,当数据更大时,点击量与评论数的线性相关性加强,而点击量 对评论数的预测能力也一直十分优秀,所以本文可以推测,当数据数目足够大时, 点击量与评论数将符合一元线性回归模型。3.3单集收视率、点击量与集数的关 系。一般来讲,电视剧开播初期,因为不同电视剧的明星阵容、宣传力度不同, 在不知道剧情的情况下,电视剧的收视率与点击量可能会有不同程度的波动,但 随电视剧的播出,人们对该电视剧了解进一步深入,这种波动可能会逐渐减小。
因而本文推测,随集数的增长,单集电视剧的收视率与点击量都会趋于平缓,且 随剧情深入,人们对电视剧的期望应该会越高,因而二者都应缓慢上升。下面本 文分别以八部电视剧的集数为自变量,同一集(同为第一集、第二集等)的平均收 视率和平均点击量为因变量探究二者的关系,结果如图10和图11。由图本文不难 看出,真实的结果与本文的预期有一定的偏差:收视率与本文的预期基本相符, 始终波动较小,且有小幅上升,到最后达到最大值,这也反映了人们对电视剧结 尾的期望。但点击量始终保持较大的波动,偶尔会有小幅上扬,但总体来看一直 在下降,且在3/10/30集左右都出现了明显的断层情况,一直到最后都没有再大幅 回升,不符合人们对大结局的期望值。探究这种现象发生的原因,本文认为这与 二者所代表的受众群体相关:常使用优酷、土豆等网上观看电视剧的多为二三十 岁的中青年人,他们的时间相对紧凑,没有时间每天晚上都在电视机前等待电视 剧的更新,大多数时候只是通过网络回看已经播出的电视剧,在这种情况下,他 们对电视剧的观看就有了选择性,某一集的剧情吸引人,可能该集的点击量会有 一个激增,其他的集数点击量可能就较少,也正是由于这个原因,他们更偏爱集 数较短的电视剧,因而随集数的增长,电视剧的点击量会逐步下降;
而收视率的 受众群体多为其他人群,生活更加规律,时间相对宽裕,受众群体稳定因而收视 率的变化相对平缓,且随电视剧的深入,知道这部电视剧的人就更多,收看电视 剧的人数就会逐步增多,因而电视剧的平均收视率会平缓地上升。
4结论与展望在如今电视剧风靡的背景下,本文研究了电视剧的一些数据,以一元线性 回归模型的原理为理论基础,发现收视率符合一元二次的时间序列预测模型,即 知道某一集的收视率,便能比较好的预测出下一集电视剧的收视率,对于电视剧 的出版方来说,合理的安排好剧情精彩的集数,以此大幅带动周围集数的收视率 就显得尤为重要。此外,本文还研究了单集点击量与该集评论数的关系,发现某 集的点击量与该集的评论数成正相关,因此,网络视频播出方可以加大宣传的力 度,提高该集的关注度,以此提高单集点击量。最后,本文发现随集数的增加, 收视率平缓上升,而视频点击量则在波动下降,对于集数较多的电视剧更为明显, 因此电视台方面可以在收视后期多插播一些广告或延长时长以增加收益,而出版 方则要控制好电视剧的长短,既要使电视剧的收视率达到一个令人满意的高度, 又要保证点击量不会太低,以求得最大的收益。上述模型经验证后发现拟合程度 都很高,能够很好地进行预测,这些问题的研究对于提高出版方与播出方的收益 都有十分重要的意义。在未来对这些问题的深入研究中,通过更多电视剧的数据, 以及更高级的算法模型,使得模型能够更加精确,具有更好的现实解释力。
作者:王一鸣 单位:诸城市实验中学