大白话聊透人工智能(巴蜀魔幻侠)_机器学习是“让机器从数据中长本事”的技术（2 / 4）_大白话聊透人工智能最新章节免费阅读无弹窗

- 处理缺失值：比如某个人的年龄没填，得想办法补上或删掉。

- 处理异常值：比如收入里突然出现一个“1亿”，明显不合理，得处理掉。

- 特征缩放：比如身高是“170”，体重是“60kg”，单位和数值范围不一样，得统一缩放（比如都缩到0-1之间），不然模型会“偏心”。

2 特征工程：给数据“化妆”看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏，“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程，直接影响模型效果。

- 有时候要人工设计特征：比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征：比如深度学习里的n，能自动从图像里提取“边缘、形状”这些特征，不用人类操心。

3 模型训练：让机器“刷题涨本事”

选好算法（比如决策树、神经网络），把处理好的数据喂给它，机器就开始“学习”了。它会不断调整内部参数，让预测结果和真实情况越来越接近。

- 训练过程中，得注意过拟合和欠拟合：

- 欠拟合：模型太“笨”，连训练数据都没学好，比如把所有邮件都当成正常邮件。

- 过拟合：模型太“教条”，把训练数据里的噪声也学进去了，比如只认识训练过的那几张人脸，换张角度就不认识了。

解决方法也不少，比如“正则化”（给模型加约束，不让它学太细）、“增加数据量”“模型简化”等。

4 模型评估：给机器“考试”

训练好的模型得测试一下准不准。

- 准确率（auracy）：预测对的比例，比如100个邮件，90个判对了，准确率就是90。但它在“数据不平衡”比如垃圾邮件只有5，模型全判正常，准确率也有95，但没用。

- 精确率（precision）：预测为“正类”的里面，真正是正类的比例。比如预测了10个垃圾邮件，其中8个真的是，精确率就是80。

- 召回率（recall）：真正的正类里，被预测出来的比例。比如实际有10个垃圾邮件，模型找出了7个，召回率就是70。

- f1分数：精确率和召回率的调和平均，综合看两者的表现。

一般会把数据分成“训练集”和“测试集”，用训练集学，用测试集考，这样才公平。

5 模型部署：让机器“上岗干活”

模型通过考试后，就得放到实际场景中用了。比如把垃圾邮件识别模型部署到邮箱服务器，把推荐模型部署到短视频app后台。这时候还得关注性能，比如模型响应快不快、占不占内存，要是用户刷视频时推荐半天不出来，体验就差了。

四、机器学习在哪些地方发光？日常到高精尖，应用无处不在

机器学习的应用早就渗透到咱们生活的方方面面了，咱们挑几个典型领域说说。

- 推荐系统：短视频平台给你推喜欢的视频，电商给你推可能买的商品，背后都是机器学习在分析你的行为数据，猜你喜欢啥。

- 语音助手：比如 siri、小爱同学，通过机器学习识别你的语音指令，还能理解上下文。

- 人脸识别：手机解锁、支付验证、门禁系统，都是靠机器学习从人脸图像里提取特征，确认“你是你”。

2 医疗健康：给医生“当助手，提效率”

- 疾病诊断：通过分析ct、ri影像，机器学习模型能辅助医生发现早期肿瘤、骨折，准确率甚至比人类专家还高。比如肺癌筛查，模型能识别出毫米级的结节。

- 药物研发：传统研发一款新药要十几年，机器学习能分析海量分子数据，预测哪些分子可能有药效，大大缩短研发周期。

- 健康管理：智能手环监测你的心率、步数，机器学习能分析这些数据，预警潜在的健康风险，比如发现你心率异常，提醒你休息或就医。

3 金融领域：“防 fraud、做预测”

- 反欺诈：信用卡交易中，机器学习能实时分析交易地点、金额、时间等数据，判断是否是盗刷。比如你平时都在国内刷卡，突然在国外刷了一大笔，模型就会标记为可疑交易。

- 风险评估：给用户做信贷评分时，机器学习会分析你的收入、征信、消费习惯等数据，预测你会不会违约，帮助银行决定是否放贷、放多少。

4 交通出行：“自动驾驶、智能调度”

- 自动驾驶：特斯拉、百度的自动驾驶汽车，靠摄像头、雷达收集数据，机器学习模型实时识别行人、车辆、交通标志，做出转向、加速、刹车决策。

- 智能交通：城市里的红绿灯调度，机器学习能分析车流量数据，动态调整红绿灯时长，减少拥堵；打车平台的派单系统，能预测哪里用车多，提前调度司机。

5 工业制造：“提质、降本、增效”