第一个问题,翻译页面只翻译了一部分,重要的教程部分还是英文。强行锻炼了我的英语能力
# 无法独立完成
- 先看 3 篇高赞 Notebook,总结 “通用流程”
比如泰坦尼克号题目,高赞思路通常是:
- 理解数据(查看特征含义、样本量、数据类型)
- 探索性分析(画分布图看特征与目标的关系,比如 “性别是否影响生存”)
- 数据预处理(处理缺失值、编码分类特征、删除无用特征)
- 简单建模(用逻辑回归、决策树等基础模型)
- 模型评估与调优(用交叉验证看准确率,调整参数)
把这个流程记在笔记本上,作为自己的 “行动框架”。
- 先看 3 篇高赞 Notebook,总结 “通用流程”
逐行模仿代码,搞懂 “每个步骤的目的”
不要复制粘贴!比如看到df.dropna(inplace=True)
,要问自己:“为什么要删除缺失值?有没有更好的处理方式?” 遇到不懂的函数,立刻查官方文档(比如 Pandas 官网),记录到 “工具库手册” 里(比如 “处理日期用pd.to_datetime()
”)。修改 1 个细节,观察结果变化
比如原教程用 “均值填充年龄缺失值”,你换成 “中位数”,看看模型准确率是否变化;或者新增一个特征(比如 “家庭总人数 = 兄弟姐妹数 + 父母数 + 1”),观察对结果的影响。这一步能帮你理解 “每个操作的意义”。