从8月12日到9月1日共20天,时间紧张但可通过「聚焦核心、强关联学习、高频实践」高效推进。核心原则:工具(Python/SQL)优先落地,数学服务应用,机器学习依附工具入门,避免孤立学习,用「任务串联」提升效率。
以下是分阶段规划:
第一阶段:基础工具攻坚(8月12日-8月21日,共10天) 目标:掌握Python数据分析核心库、SQL基础查询,同步渗透数学基础概念(为后续应用铺垫)。
每日时间分配(6-7小时):
Python(2.5小时):语法→库实操,聚焦「能用起来」
- 第1-2天:补Python基础语法(变量/循环/函数/列表字典),用《Python编程:从入门到实践》前5章或B站「黑马Python基础」快速过,重点练「列表推导式、函数参数」(数据分析高频用)。
- 第3-7天:核心库实操(每天一个库+案例)
- NumPy:数组创建、索引、广播(用「计算学生成绩平均分/标准差」案例练);
- Pandas:Series/DataFrame创建、缺失值处理(dropna/fillna)、分组聚合(groupby)、合并表(merge)(用「电商订单数据清洗+统计销量TOP3商品」案例练);
- Matplotlib/Seaborn:折线图/柱状图/热力图(用「绘制月度销售额趋势+用户年龄分布」案例练)。
- 第8-10天:综合案例(每天1个):
- 用Pandas处理「泰坦尼克号数据」(清洗+生存概率分析);
- 爬取简单数据(如豆瓣TOP250电影)+ 可视化(用requests+BeautifulSoup,聚焦数据处理而非反爬)。
SQL(1.5小时):聚焦「查询逻辑」,跳过复杂函数
- 第1-3天:基础语法(SELECT/FROM/WHERE/GROUP BY/ORDER BY),用「SQLZoo」或「LeetCode数据库入门题(1-20题)」练,比如「查询年龄>30的用户信息」「统计每个部门的平均工资」。
- 第4-7天:进阶查询(JOIN多表关联、子查询),用「学生-课程-成绩」三表练:「查询每门课的平均分及最高分学生姓名」。
- 第8-10天:结合Python(用pandas.read_sql_query),实现「SQL取数→Python清洗可视化」闭环(比如从模拟的MySQL表中取销售数据,用Python画折线图)。
数学基础(1.5小时):只学「数据分析/机器学习必用」部分,跳过纯推导
- 微积分(第1-5天):
- 重点:导数(函数斜率,理解「变化率」,如用户增长速率)、偏导数(多变量函数的变化率,如价格和广告对销量的影响)、梯度(优化算法的基础,知道「梯度下降是找最小值」即可)。
- 资源:3Blue1Brown《微积分的本质》(前6集)+ 动手算:用Python的sympy库求简单函数导数(如f(x)=x²+2x的导数)。
- 线性代数(第6-10天):
- 重点:向量(数据的表示,如一个用户的特征向量)、矩阵(数据表的数学形式)、矩阵乘法(特征组合)、特征值/特征向量(PCA降维的核心,知道「保留主要特征」即可)。
- 资源:3Blue1Brown《线性代数的本质》(前5集)+ 用NumPy实操矩阵运算(如两个矩阵相乘、求特征值)。 - 计算机辅修基础(0.5小时):抓最核心的「数据结构入门」 - 每天1个概念:数组/链表(数据存储形式)、哈希表(字典的原理)、二叉树(了解即可),看《算法图解》前3章,用Python简单实现(如用列表模拟数组,用字典模拟哈希表)。
第二阶段:应用联动+机器学习入门(8月22日-8月31日,共10天) 目标:用工具落地场景,让数学服务实践,机器学习聚焦「流程和直观理解」。
每日时间分配(6-7小时):
Python+SQL综合实践(2小时):用「真实场景数据」练闭环
- 第1-3天:处理「Kaggle公开数据集」(如鸢尾花、房价数据):
- 用SQL从数据库取数(模拟业务库);
- 用Pandas清洗(缺失值/异常值)、特征工程(计算新特征,如「房价/面积=单价」); - 用Seaborn画相关性热力图(看哪些特征影响房价)。
- 第4-5天:写一个小工具(如「自动化生成周报」):
- 用SQL拉取上周数据,Pandas计算关键指标(环比增长率),Matplotlib生成图表,最后导出为Excel/PDF。
数学+机器学习联动(2小时):用数学理解模型,用Python跑模型
- 第1-3天:线性回归(机器学习入门首选,强关联线性代数)
- 原理:用线性代数理解「y=wx+b」是向量乘法;用微积分理解「损失函数(平方误差)的梯度下降优化」。
- 实操:用sklearn库跑房价预测模型(从Kaggle下数据),输出w(系数)和b(截距),解释「哪个特征对房价影响最大」(如面积系数0.8>房间数系数0.3)。
- 第4-6天:逻辑回归(分类问题,关联概率和导数)
- 原理:知道「用Sigmoid函数把输出映射到0-1(概率)」,损失函数用交叉熵(不用推导,知道是衡量预测和真实的差距)。
- 实操:用泰坦尼克号数据预测「是否生存」,看准确率,画混淆矩阵。
- 第7-10天:简单了解其他模型(决策树、K-Means),知道「决策树是用规则分类」「K-Means是聚类(无监督)」,用sklearn跑一遍,看结果即可(不深入调参)。
计算机辅修深化(1小时):结合数据分析场景学「算法基础」
- 重点:时间复杂度(如为什么Pandas的向量化运算比for循环快,因为O(n) vs O(n²))、排序算法(了解快速排序原理,知道Pandas的sort_values用的是高效算法)。 - 资源:B站「王树森算法入门」前5集,结合Python代码看(如自己写一个简单的冒泡排序,对比Pandas的排序速度)。
复盘与补缺(1小时):每天结束前做 - 整理当天代码到GitHub(建一个「数据分析实习准备」仓库,分Python/SQL/机器学习文件夹);
- 用Notion记「踩坑笔记」(如Pandas的merge容易重复列、SQL的JOIN条件写错会导致数据膨胀);
- 每周日花2小时:用思维导图梳理关联(如「线性回归→矩阵乘法→NumPy实现→房价预测案例」)。
关键提醒:避免3个误区
- 不追求「学完」,只追求「能用」:比如Python不用学类/装饰器,SQL不用学存储过程,数学不用推导公式,知道「是什么、怎么用」即可。
- 用「输出倒逼输入」:每学一个工具/模型,必须动手写代码+生成一个「可展示的结果」(如图表、报告、GitHub代码),这些能直接放进实习作品集。
- 灵活调整节奏:如果某部分(如SQL JOIN)卡壳,当天多花30分钟补,从后面的「了解性内容」(如决策树)里匀时间,优先保证核心工具(Python/Pandas/SQL查询)落地。 按这个节奏,20天后你能掌握:
- Python处理数据、可视化的完整流程; - SQL解决80%的业务查询需求; - 理解数据分析中用到的数学概念(知道模型背后的直观逻辑);
- 跑通2-3个机器学习基础模型,能讲清流程和结果意义。 这些足够支撑数据分析实习的基础要求,且成果(代码、报告)可直接放进简历和GitHub,比「学了但没产出」更有说服力。