举个具体例子:奶茶店老板看销售表,发现“上月珍珠奶茶卖了1000杯,原味奶茶卖了500杯”——这是数据分析,只说明了“事实”;但通过数据挖掘发现“买珍珠奶茶的顾客,80%会加冰,且多在下午3点下单”——这是挖出了“规律”,能直接用来调整备料和促销策略。
简单说,数据分析是“总结报告”,数据挖掘是“寻宝指南”。两者常常配合着用:先靠数据分析摸清基本情况,再用数据挖掘挖深层规律。
二、拆流程:数据挖掘的“六步挖宝法”,一步都不能少
数据挖掘不是“拿到数据就直接挖”,而是一套环环相扣的流程,就像做饭要“备菜→炒菜→装盘→试味”,少一步都可能出问题。标准的流程有6步,是个“发现问题→解决问题→优化问题”的闭环。
1. 第一步:明确目标——知道“要挖啥宝贝”
挖宝前得先想清楚“要找啥”,不然对着海量数据只会无从下手。这一步得结合“业务需求”,不能瞎定目标。
比如电商平台要搞促销,目标不能是“挖点客户数据”,得具体到“找出哪些客户最可能买新品,以及他们喜欢啥促销方式”;医院搞数据挖掘,目标得是“通过病历数据找出糖尿病的高危因素”,而不是笼统的“分析病人数据”。
目标越具体,后面的步骤越有方向。要是这一步含糊,后面挖得再卖力,也可能挖出一堆没用的东西。
2. 第二步:数据获取——把“原料”凑齐
明确目标后,就该收集需要的数据了。就像做红烧肉要备五花肉、酱油、糖,挖不同的规律需要不同的数据。
数据来源主要有两种:内部数据和外部数据。内部数据是自己家有的,比如电商的“用户浏览记录、订单数据”,医院的“病历、检查报告”;外部数据是从外面找的,比如天气数据、行业报告、第三方平台的用户画像数据。
比如奶茶店想预测销量,需要的内部数据是“过去半年的销售记录、促销活动记录”,外部数据可能是“当地的天气数据、周边学校的放假时间”——这些数据凑在一起,才能挖准规律。
3. 第三步:数据预处理——给“原料”做清洁
这是最耗时也最关键的一步,就像洗菜时要摘掉烂叶子、洗掉泥沙,不然炒出来的菜会难吃。原始数据里全是“坑”,比如:
- 数据缺失:表格里有的“年龄”栏是空的,“消费金额”没填;
- 数据错误:明明是“2024年”,却填成了“1924年”;
- 数据重复:同一个用户的信息重复录了3遍;
- 格式混乱:有的“手机号”带括号,有的纯数字。
预处理就是解决这些问题:空的信息要么补上(比如用平均年龄填),要么删掉;错误的数据修正过来;重复的删掉;格式统一成一样的。对非结构化数据,比如客户评论,还要把文字转成电脑能懂的“关键词”(比如“太甜了”转成“甜度差评”)。
很多人觉得这步麻烦,但业内有个说法:“数据预处理占了数据挖掘工作量的70%”。要是数据没处理干净,后面挖出来的规律全是错的——就像用坏菜做饭,再厉害的厨子也做不出好菜。
4. 第四步:特征工程——给“原料”做切配
预处理后的 data 还是“大杂烩”,得把里面“有用的部分”挑出来、加工好,这就是“特征工程”。“特征”就是数据里的关键信息,比如分析客户是否买东西,“年龄、消费频率、浏览时长”都是特征,而“客户的名字”基本没用。
这一步主要做两件事:
- 特征选择:删掉没用的特征,比如选“消费频率”而不是“名字”;
- 特征构造:把现有特征组合成新的有用特征,比如把“消费金额÷购买次数”变成“单次平均消费”,这比单独看两个数更有用。
就像做鱼香肉丝,得把肉切成丝、菜切成丁,而不是整块丢进锅。好的特征能让后面的挖掘事半功倍,差的特征会让电脑“看走眼”。
5. 第五步:算法选择与模型训练——正式“挖宝”
这是数据挖掘的核心步骤,相当于“下锅炒菜”。根据要挖的目标选不同的“算法工具”,然后让电脑用数据“学”规律,这个“学”的过程就是“模型训练”。
比如要找“关联关系”,就用“Apriori算法”;要“分类贴标签”,就用“决策树算法”;要“自动分群”,就用“K-means算法”。选好算法后,把预处理好的数据分成两部分:“训练集”(给电脑学的教材)和“测试集”(给电脑考的试卷)。
举个例子:用决策树算法做垃圾邮件分类。先把1000封标好“垃圾/正常”的邮件当训练集,电脑学完后,再用500封没标的邮件当测试集,看它能分对多少。如果分对率高,说明模型“学好了”;如果分错多,就得调参数重新学。
这章没有结束,请点击下一页继续阅读!