当前位置: 电信器材 >> 电信器材发展 >> 5G用户普及率超过40,电信做为国企,
5G作为推动新一轮数字变革的重要角色,同时也是未来经济和社会发展的必备基础设施,国家高度重视5G的发展,已将其纳入国家战略中,为此出台了多项举措规范5G发展。在4G时代步入5G时代的关键窗口期,三大基础电信运营商作为5G时代建设的中坚力量,都希望快速且高质量的发展5G用户。
但是有数据表明,我国移动手机用户天花板已现,并且如果大环境没有较大变化,很难突破16亿的用户高点,因此,每个运营商只能提高现有用户的转换率。
为此,中国电信已经投入了大量的资金用于推动5G用户的发展,如何精准识别5G潜在客户成为了电信目前亟需解决的问题。
一、宏观背景年6月,工信部正式颁发5G经营许可,从那时起,中国正式进入了5G商用的第一年。年2月,工信部发布《关于提升5G服务质量的通知》,该通知指出,5G商用许可发放以来,发展取得积极成效。
但是,发展过程中运营商的不规范行为亟需解决。为了推动5G健康发展,特指出六点要求,其中明确要求运营商告知用户5G网络须与5G终端相匹配并且不得在用户未经同意的情况下开通5G套餐。
同年工业和信息化部联合十部门印发《5G应用“扬帆”行动计划》,该重点明确了到年5G发展的目标,要求在5G的重点应用领域实现突破;“扬帆计划”局面基本形成;5G用户普及率超过40%;实现5G流量使用量占比过半;关键基础设施保障能力明显提升,每万人拥有5G基站数超过18个。
二、行业现状5G的成功商用,必然驱动变革的发生和新旧的更替,中国通信产业或将重新迎来一场破局之选。近年来,我国通信产业在各个方面均有很大进展,其中网络建设和用户发展已名列世界前茅。
与此同时,我国移动用户数已经达到顶峰时期,出现了瓶颈期,导致运营商之间竞争愈演愈烈。有关数据显示,三大运营商移动用户数达16.4亿户,移动电话普及率达到.9%,远高于全球的平均水平68%,这说明我国移动用户数已经达到瓶颈期,如果环境没有较大变化,很难再有增加。
中国移动5G套餐用户数为3.亿户,高于中国电信的1.亿户、中国联通的1.亿户之和。
其中,中国移动用户的5G套餐转换率已超过37%,但是低于中国电信和中国联通的45%,这是由于中国移动用户基数大,也充分说明5G发展空间仍然很大,尤其是对中国移动而言。
另外,我国已建成5G基站万个,占世界基站总数的70%以上,在基站建设和5G发展上我国已遥遥领先于其他国家。同时,年11月4日,中国移动A股IPO通过,至此三大电信运营商完成在A股“会师”。
中国移动明确表示募集的部分资金用于5G精品网络的建设,加速推动5G发展。三大运营商会聚A股,将大力推动5G基站网络的建设,未来5G发展进入提速阶段。
5G手机使用数达4.71亿户,同比上年增长.88%。众所周知,只有使用5G终端才会真正的使用5G网络。
中国电信和中国移动在最新的年终端发展策略中,均给出了未来一年5G终端销售目标,其中中国电信将投入合约补贴激励资金亿元,分期资金亿元用来加速5G终端销售目标,这也将进一步推动5G的发展。
三、企业背景中国电信集团有限公司是实力和技术较为强劲的通信运营国有企业,多年出现在“世界强企业”中,其主要业务是在中国境内提供移动通信和宽带通信等多项业务。年11月27日,携号转网服务正式在全国实施,意味着客户流失门槛降低。
根据数据显示,中国电信共累计携入用户达到户,累计携出为户,净携入户,而中国移动和中国联通净携入均为负数,之所以中国电信在携号转网中成为赢家,主要依赖于其优质的宽带服务。
中国电信在获得国民信任的基础上,也在加大5G用户的发展。为了保持良好的发展势头,年中国电信推出亿元的补贴计划,加快5G用户的发展,真正让用户体验到5G的优势。
由于5G发展尚处于起步阶段,电信现有的存量用户中4G用户占比仍然是最大的,这也就造成了现有的4G用户和5G用户比例失衡。而在机器学习的模型构建过程中,数据不平衡严重影响传统机器学习模型的分类性能,尤其是少数类样本识别率极低,下面举一个具体的例子说明这种现象。
Pima数据集是根据患者的基本属性以及临床指标判断21岁以上的女性是否患有糖尿病,数据中有例正常女性(多数类),个病人(少数类),此数据的不平衡比是1.75:1,属于低度不平衡。但是,在使用决策树模型进行分类时,对多数类样本的正确率高达80-90%,而少数类只有40-60%。
这就意味着,大约有一半的患者不能被正确识别出来,这对患者的治疗将会造成严重的后果。而且随着不平衡比的扩大,这种准确率的下降也会更加明显。
四、意义菲利普·科特勒提出精准营销的概念,他认为营销计划高精准,可衡量以及高回报。即在合适的时间将合适的营销计划以合适的方式推送给合适的人。
随着机器学习技术的发展和精准营销概念的转变,现在企业对客户市场的竞争,在于挖掘客户信息,分析其中有价值的信息,对客户未来可能的动作进行预测,进而做出适合营销的计划。
潜在目标客户挖掘的现实意义是将有限的营销资源推送给潜在客户获得利润最大化。利用模型对存量用户进行精准预测,运用适当的营销手段将客户转换为目标客户,一般而言,每个运营商有着数以亿计的客户,不可能对每个客户做出营销,将营销成本降到最低也是每个运营商需要考虑的问题。
现在电信领域的营销方式有客服电话、短信、掌厅和地推等,就客户电话来说,分为人工呼叫和外呼平台,根据相关文献可知,外呼平台呼叫成本是0.06元,就中国电信而言拥有3.亿户移动用户,如果全部进行营销外呼需要0.亿元,精准识别5G潜在客户进行营销将会大大降低运营成本并且成功率也会提升。
1.数据清洗
原始数据在搜集和存储由于各种原因会造成不同类型的脏数据,包括缺失值、异常值和错误数据。对于缺失值的处理,由于原表中为了方便存储,用-1代替缺失值,需要将所有的-1替换为NULL。
我们采取利用其他特征补充、均值法和剔除的方法进行缺失值处理。比如,数据表中存在客户性别和年龄,但是运营商基于用户的行为会重新定义用户的性别和年龄,在这里使用基于行为的客户年龄和性别,这两个字段中存在的缺失值用客户注册信息中的性别和年龄填充。
另外,是否流量高饱和用户,即用户每月使用流量与套餐所含流量之比是否超过0.7,对于这个特征,有的套餐中没有说明所含流量的兆数,需要在数据库中根据主套餐名称在产品信息表中进行正则化匹配,用于填充是否流量高饱和用户的缺失值。
异常值得处理主要针对连续性数据,在这里采用盖帽法,即将99%分位数以上的数据修改为99%分位数的值,同理,将1%分位数以下的数据替换为1%分位数值。
错误数据的修改包括客户套餐水平,数据库中由于记录出错,这个字段会有负值的情况,对这个字段取绝对值以达到纠正错误数据的目的。
通过对数据进行清洗,一方面得到了干净且适合模型输入的数据,另一方面也会加深我们对数据的理解,为后续的特征衍生打下基础。
2.特征衍生
众所周知,数据质量决定机器学习的上限。原始数据中包含字符型变量、多月同名变量,需要对这些变量进行衍生,充分挖掘样本蕴含的信息,为后续模型构建一个合适的数据集。
字符型变量主要有套餐名,性别,产品类型等,多月同名变量主要是用户近三个月的流量、通话、短信等每月产生的动态变化特征。特征衍生方式主要有三种:第一种,字符型变量数值化。
即将字符型编码为可输入模型的数值,主要有One-hot编码和类别转频次的方式。One-hot即独热编码,其方法是将特征下的每个类别转换为0-1变量,即如果某个特征下有三个类别,则将该列特征转换为三列,每一列代表其中的一个类别,每一列只有0和1两个值。
该方法更适用于变量只有两种类型的情况,如果变量含有多种类型,对其进行One-hot的话,会增加多列稀疏特征影响算法的学习。针对多类的变量,一般采用类别转频次的方式,即计算每一个类别在该变量中的占比,用于反映类别的重要度,这种编码方式不会增加变量的数据量,而且编码后变量不会变稀疏。
针对只有两种类别的数据进行One-hot编码,多类别数据使用类别转频次的方式。提取的数据中字符型变量包括性别、终端类型、主套餐名称,对性别使用One-hot编码,另外两种使用类别转频次的方式。
第二种,多月同名变量整合化。比如用户三个月的通话次数,可以衍生为两个变量,三个月平均通话次数和通话次数趋势。其中,通话次数的趋势使用标准差进行衡量,进而反映一个用户通话的波动情况。
数据表中包含多月同名变量主要有通话次数、通话时长、上网时长、上网次数、上网流量、ARPU、5G流量使用时长、5G流量使用次数。
第三种,业务理解进行特征衍生。
某些特征之间可能存在某种关系,这样可以通过某种组合进行特征衍生。利用当前时间减去用户入网时间得到用户在网时长;使用当前时间减去该用户当前号码使用终端的首次注册时间得到该款终端的使用时长;对合约套餐的用户计算近六个月是否到期,并与是否合约套餐特征求积得到用户是否为合约近六个月到期的用户。
结语精准营销是每个拥有海量数据企业都需要思考的问题,所谓大浪淘金,从大量用户中、大量数据中找到能为企业带来更多收益的用户或决策。
海量数据分析需要对公司的业务有了解,对数据搜集有掌握,以及对数据的预处理、特征衍生、模型选择和超参数优化等方面不断探索寻找最优。
免责声明:文章内容如涉及作品内容、版权图片或其它问题,请在30日内与本号作者联系,如反映情况属实我们将第一时间删除责任文章。文章只提供参考并不构成任何投资及应用建议。