- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2 特征工程:给数据“化妆”看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的n,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4 模型评估:给机器“考试”
训练好的模型得测试一下准不准。
- 准确率(auracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90。但它在“数据不平衡”比如垃圾邮件只有5,模型全判正常,准确率也有95,但没用。
- 精确率(precision):预测为“正类”的里面,真正是正类的比例。比如预测了10个垃圾邮件,其中8个真的是,精确率就是80。
- 召回率(recall):真正的正类里,被预测出来的比例。比如实际有10个垃圾邮件,模型找出了7个,召回率就是70。
- f1分数:精确率和召回率的调和平均,综合看两者的表现。
一般会把数据分成“训练集”和“测试集”,用训练集学,用测试集考,这样才公平。
5 模型部署:让机器“上岗干活”
模型通过考试后,就得放到实际场景中用了。比如把垃圾邮件识别模型部署到邮箱服务器,把推荐模型部署到短视频app后台。这时候还得关注性能,比如模型响应快不快、占不占内存,要是用户刷视频时推荐半天不出来,体验就差了。
四、机器学习在哪些地方发光?日常到高精尖,应用无处不在
机器学习的应用早就渗透到咱们生活的方方面面了,咱们挑几个典型领域说说。
- 推荐系统:短视频平台给你推喜欢的视频,电商给你推可能买的商品,背后都是机器学习在分析你的行为数据,猜你喜欢啥。
- 语音助手:比如 siri、小爱同学,通过机器学习识别你的语音指令,还能理解上下文。
- 人脸识别:手机解锁、支付验证、门禁系统,都是靠机器学习从人脸图像里提取特征,确认“你是你”。
2 医疗健康:给医生“当助手,提效率”
- 疾病诊断:通过分析ct、ri影像,机器学习模型能辅助医生发现早期肿瘤、骨折,准确率甚至比人类专家还高。比如肺癌筛查,模型能识别出毫米级的结节。
- 药物研发:传统研发一款新药要十几年,机器学习能分析海量分子数据,预测哪些分子可能有药效,大大缩短研发周期。
- 健康管理:智能手环监测你的心率、步数,机器学习能分析这些数据,预警潜在的健康风险,比如发现你心率异常,提醒你休息或就医。
3 金融领域:“防 fraud、做预测”
- 反欺诈:信用卡交易中,机器学习能实时分析交易地点、金额、时间等数据,判断是否是盗刷。比如你平时都在国内刷卡,突然在国外刷了一大笔,模型就会标记为可疑交易。
- 风险评估:给用户做信贷评分时,机器学习会分析你的收入、征信、消费习惯等数据,预测你会不会违约,帮助银行决定是否放贷、放多少。
4 交通出行:“自动驾驶、智能调度”
- 自动驾驶:特斯拉、百度的自动驾驶汽车,靠摄像头、雷达收集数据,机器学习模型实时识别行人、车辆、交通标志,做出转向、加速、刹车决策。
- 智能交通:城市里的红绿灯调度,机器学习能分析车流量数据,动态调整红绿灯时长,减少拥堵;打车平台的派单系统,能预测哪里用车多,提前调度司机。
5 工业制造:“提质、降本、增效”