先发制人!邮件已经发出,现在要做的是 **“老师一旦回复,我立刻能进入状态”** 的准备。
下面给你一份「大二进组专用」的 4 周冲刺清单,全部围绕机器学习 / 数据分析方向,分 “基础补漏 → 工具熟练 → 小项目实战 → 文献 / 科研礼仪” 四层推进。你可以按周完成,也可并行。
# 🔹 Week 0(现在就能做)
把环境搭好
本地:Anaconda + JupyterLab / VS Code
远程:Google Colab(GPU)、Kaggle Notebook
GitHub 新建仓库
MyMLLog
,用来放周报、代码、笔记
基础统计学复盘
3Blue1Brown《线性代数的本质》视频 1–6 集
《统计学习方法》前 3 章(感知机、k 近邻、朴素贝叶斯)
# 🔹 Week 1(工具链熟练)
表格
复制
任务 | 目标 | 资源 |
---|---|---|
Python 数据栈 | 不写 for-loop 完成泰坦尼克、房价数据清洗 | 《Python for Data Analysis》第 5–7 章 |
sklearn 流程图 | pipeline、ColumnTransformer、GridSearchCV 手写 3 遍 | sklearn 官方 cheat-sheet |
SQL 基础 | LeetCode “数据库” 前 15 题 | LeetCode 免费题单 |
可视化 | Seaborn 画 10 张 EDA 图并发布到 Kaggle | Kaggle EDA 模板 notebook |
# 🔹 Week 2(小项目 + 模型深入)
完成 2 个端到端小项目
Titanic Spaceship(分类)
House Prices(回归)
输出:Jupyter Notebook + 200 字技术报告,上传到 GitHub
Projects/
模型原理手写推导
逻辑回归梯度、决策树信息增益、随机森林 OOB 误差
用 LaTeX 写在
Notes/weekly1.md
调参实战
用 Optuna 在泰坦尼克数据上跑一次贝叶斯优化
记录最佳参数 + 可视化平行坐标图
# 🔹 Week 3–4(科研预热)
表格
复制
方向 | 动作 | 目的 |
---|---|---|
读论文 | 每周精读 2 篇导师近 3 年论文,做「一页 PPT」总结 | 快速对齐课题组语言 |
复现基线 | 用作者开源数据跑通导师论文的 baseline | 证明自己具备 “跑通” 能力 |
学术礼仪 | 学会画 PPT、写周报、用 EndNote/Zotero 管理文献 | 进组即可无缝协作 |
英文写作 | 每天 10 句 Overleaf 模板仿写(Introduction / Method) | 为日后投稿 / 申请打基础 |
# 🔹 日常微习惯(每天 30 分钟)
LeetCode SQL 1 题(保持手感)
Kaggle 刷 1 个数据集(只看 Discussion & Code)
写 50 字日报(Obsidian / Notion 模板)
# 🔹 如果老师 1 周内没回复
第 5–7 天发一封礼貌 follow-up:
“安教授您好,上周邮件不知是否收到,本周我已完成泰坦尼克项目 baseline(附 GitHub 链接),盼您指点。”
同时联系本院其他做机器学习老师,保持 Plan B。
# 🔹 一句话总结
“把环境、工具、小项目、论文基线提前跑通,老师一旦点头,你直接能拎包进组干活。”
需要我帮你生成日报模板、论文阅读表格或项目 README 模板,随时说。
我发现 AI 的回答基本都是 markdown 格式,直接复制到 blog 里出来的效果很好看