kaggle 泰坦尼克号问题

Posted on 2025-08-01 Symbols count in article 499 words Reading time 1 mins.

~~第一个问题，翻译页面只翻译了一部分，重要的教程部分还是英文。强行锻炼了我的英语能力~~

无法独立完成

1. 先看 3 篇高赞 Notebook，总结 “通用流程”
  比如泰坦尼克号题目，高赞思路通常是：
- 理解数据（查看特征含义、样本量、数据类型）
- 探索性分析（画分布图看特征与目标的关系，比如 “性别是否影响生存”）
- 数据预处理（处理缺失值、编码分类特征、删除无用特征）
- 简单建模（用逻辑回归、决策树等基础模型）
- 模型评估与调优（用交叉验证看准确率，调整参数）
  把这个流程记在笔记本上，作为自己的 “行动框架”。

逐行模仿代码，搞懂 “每个步骤的目的”
不要复制粘贴！比如看到df.dropna(inplace=True)，要问自己：“为什么要删除缺失值？有没有更好的处理方式？” 遇到不懂的函数，立刻查官方文档（比如 Pandas 官网），记录到 “工具库手册” 里（比如 “处理日期用pd.to_datetime()”）。
修改 1 个细节，观察结果变化
比如原教程用 “均值填充年龄缺失值”，你换成 “中位数”，看看模型准确率是否变化；或者新增一个特征（比如 “家庭总人数 = 兄弟姐妹数 + 父母数 + 1”），观察对结果的影响。这一步能帮你理解 “每个操作的意义”。

实习数据分析 kaggle