161023 北京线下沟通纪要

四人行

经过前期的通知准备,此次沟通活动一共有四人参与,@浚宇 @插秧哥 @Sam @十三维 先后到达现场。原定两个小时的讨论稍不留神,讨论到了三个小时,后面吃饭还聊了一个半小时。话不多说,先上图~ 来了中国红牛总部,先喝罐饮料,做个自我介绍,互相了解下。 激烈讨论中 看看往期优秀学员的大作业,好在哪里。 往期学院优秀作业分析 大作业采用什么样的逻辑来准备呢? 大作业逻辑讨论 大腿分析报告的雏形,来了解一下班级理的学习情况吧,不要捐学费哦。 大腿分析 最后,爆个照,四人行圆满结束。 暴个合照

讨论内容沟通

简单自我介绍

  • @插秧哥 刚毕业不久的前端工程师(故自称插秧哥),刚接触开智不久,还在努力揭开开智的神秘面纱,后续讨论问了很多关于开智其他课程的问题。
  • @Sam 金融行业从业者,希望通过对数据的探索能够对工作有所帮助,希望在实践中不断的提高。
  • @十三维 求知主义者,开智忠粉,数据班先强行跟住争取不掉队,课程结束希望可以花更多时间来学习。
  • @浚宇 信息化行业项目经理,6月接触开智后一发不可收拾的学习,希望未来可以转入数据科学、人工智能相关领域工作。所以努力跟进课程内容,多提问,多收获。

数据科学课的收获

用数据的视角看世界,修正自己的观念。

改变了过去看待问题的视角和方法。用量化的方式更容易得到强有力的数据支撑自己的观点,也会更客观。举个例子,百度地图的路况显示,最后显示的结果很简单,只有三种情况:严重拥堵、中度拥堵、畅通。但是背后的算法会负责很多,根据我们学到的线性回归部分的内容可以想象,关于是否拥堵会有一些明确的指标和算法。而这个计算过程最后要输出为三种结果,难免会出现一些在数据上有严格支撑,但是得到的结论却和现实情况产生一些差异。现在能够更好的理解这些现象。

另外,很多的数据结论要建立在一定的模型基础上得出的,这和实际生活中口语化的环境表达会有巨大的差异。这种差异是要被甄别和觉察的。举例来说,有人说某一段路特别堵车,这可以理解成一个观点或者抱怨。如果是抱怨,不必太多的理会,如果是观点,这个观点的证据是什么呢?是否能够把早晚高峰的某一个路段的排队时间、单辆车的通过时间进行计算后才能得到结论。和周末的畅通相比较的较多时间的等待是否能够评判为拥堵,和北京或者其他城市的拥堵情况进行比较又会是什么样的。在上完数据科学课之后,整个世界都变了。

解决问题的能力需要有长期训练的过程。

十三维提到自己虽然会编程,但是并不熟练,在作业过程中经常需要去查询代码等,花费了大量的时间精力,效率不高。某一种语言不仅仅是某一个语法规则的集合,如果浅尝辄止在了解语法上,语言中大量的内隐知识会被自己忽略掉。我们需要熟练的掌握某种编程语言。

数理模型要能用,更要理解。

课程里提到了一些数理模型,这些模型如果仅仅停留在拿来解决一些作业中提到的问题,而不了解原理,很难在以后解决复杂问题时派上用场。我们在学习中除了知道怎么用,关注输入输出之外,更应该了解模型的来龙去脉,才能在以后的学习工作中得心应手。当然,对很多人来说这是一个入门课程,现在没有时间精力专注在原理上,但这一课时后续要补上的,尤其是统计学、线性代数等理论基础。

习得一套高效的学习方式

浚宇在课程期中回顾分享过“Google+Stack Overflow”的课程学习方法。这一次分享更新为“高质量的搜索+官方文档+学科体系学习”的学习方法。

  • 高质量的搜索:Google+Stack Overflow的模式,这个模式在“点对点”的解决小问题中很有效率,但是很难有整体性的概念。在数据班初期的学习有所帮助,比如说某一个python语句记不住了搜一下等等。
  • 官方文档:在我的环境配置问题的Issue中有提到,最终解决问题的方法来自于matplotlib的Github中的Issue讨论。官方文档是信息的源头,信息的源头是有限的,是质量最高的。如果信息的源头找不到答案,在百度、知乎这些地方更不可能有答案。反常识的做法是在信息的源头发问,有可能你会成为信息源头的承载者。
  • 知识体系:到课程的后期,要想理解代码和一些python包中函数的原理,越发需要对数理统计、线性代数知识的掌握。这些内容的学习看起来慢,但是实际上却是非常重要的基础,肖凯老师也曾经提到这一点。所以在课程结束后很有必要把这些知识系统的进行学习。

数据清理很重要,异常值处理要注意

Sam提到了自己以前工作中的一些例子,来说明数据清理对自己的启发。这一步以前没有得到关注,特别是对异常值的处理,直接去掉异常值是一种方法,但也许还有更好的方法。

数据学习的方法和误区

在数据学习中还有一些坑,大家要尽量的避免,好的习惯,建议参考:

  • 避免完美主义,有很多的想法,想做一个完美的作业,结果没有“憋”出来导致了行为瘫痪。
  • 一定要跟上队伍,要交作业,只要交作业,就会有收获,不断的死磕,回来看的时候很有成就感。
  • 在自己陷入困境的时候,参考优秀同学的作业也是一个不错的方法。
  • 最后的大作业,会是一个很好的收割过程,要努力“填坑”交作业。
  • 避免学习的“线性思维“误区。学习过程不是升级打怪的过程,并不是必须要从最简单的任务开始,反常识的做法是要上来就通过最好的学习资料学习有难度的内容。经过长期的训练,会习得较高的学习水平。而升级打怪反而是比较慢的做法,而且并不一定能得到好的结果。
  • Python中有非常多的工具包值得在课后了解和使用。

如何做大作业

一开始大家对大作业都没有太多的想法,讨论中查看了往期优秀同学的路演资料,有了一些全新的思路。往期优秀作业从Idea的设计、数据的获得、模型的应用、新鲜结论的提取、可视化的展示内容方面都得到了很好的体现。

我们梳理了大作业的准备思路,每个人基于自己的优劣势进行了分析,在项目的选择上也进行了一些讨论。一个非常重要的结论是:“保持最小行动,一定要提交大作业”。

大牛分析

本来@浚宇 想针对往期作业做一个全面的反思梳理,对每一次作业中出现的大牛和作业亮点进行整理,无奈上周时间精力有限,只好先输出了一个谁是大牛的清单。供大家在反思回顾的时候找对自己的参考对象。 另外从作业提交情况和得到的分数也能反映出一定的学习状态和学习习惯的信息,欢迎大家自行探索。

作业探讨

7W的作业大家都还没有完成,所以大家针对作业的内容简单做了探讨,这里就不细说了。 针对前几次的作业,也有一些思考的亮点,在这里列出:

  • basemap的包可以考虑研究地图等的可视化展示
  • QQ的数据源不一定要用课程给出的内容,可以自己找到QQ的本地数据库下载数据自行探索。

关于此次活动的收获总结大概是这些,希望对大家有所帮助,也希望以后可以有更多的线下活动的沟通。 大作业,加油吧。


会面总结: 1.线下交流和线上交流还是有本质区别的,表达更具体、沟通更顺畅。 2.很多问题说出来都有同感,懒惰,挣扎,坚持,欣慰,并不孤独。 3.四位小伙伴参与,人数太多反而不是件好事,可能导致平均发言率降低。 4.大家都有表达欲望,做好倾听也很重要。 5.从老学员身上能看到很多东西,思考能力,思考深度,死磕能力,等等。 6.再坚持一下,眼看就要大功告成了,再死磕一下。


上周就写了,没来得及发,今天补上

沟通会收获

Wangjunyu已经总结的很完善了,这是从我个人的角度。

执行力的误区

没弄明白就不去输出,殊不知输出本身也是搞明白问题的一个途径。

随时随地输出。学到了几个Github的妙用:)

避免憋大招,追求完美。边行动边完善。

课程和作业

课程和作业是个巨大的坑。跟以往的学习经验有一些不同,自己的适应性还需要提高。

这是第八周了,无数次产生放弃的念头。交流之后,感觉也没糟糕到这种地步。还是能再坚持一下。


print "Hello World"

恭喜你,已经输出了Ptyhon2.0 中的第一行代码。(不了解“Hello World”梗,参见这里) 作为数据科学的新人,我们特别想对着Ipython Notebook性感的页面打个招呼:Hello DataScience。而现在的数据课到了7W的关键时刻,是时候见面聊一聊了。

时间

10月23日 上午9点半开始到11点半结束 如果愿意继续讨论可以顺延。

地点

永安里地铁站边上的华彬大厦(组织者的公司会议室,红牛、Vitacoco、果倍爽饮料免费喝 :))

内容

  1. 梳理0W~7W的学习内容和作业情况
  • 正在整理“大腿观察报告”
  1. 讨论之前遇到的问题和困难,总结数据班学到的内容
  2. 沟通即将来临的大作业

报名请在下方留言,或者加我的微信Wangjywx咨询报名。

说明

  • 欢迎没完成作业的小伙伴一起来聊一聊,这是我们不捐学费的底线,也许这一次沟通会让困惑很久的你茅塞顿开,或许会重新唤起你的内在动机。
  • 欢迎有所感想有所得的小伙伴来分享自己的心得体会,或者某一次作业的分析,大牛的作业分析等等。
  • 目前正在积极联系往期优秀学员,希望能够来做一些分享和沟通,还在沟通中,稍后会持续更新。
  • 本Issue招募帖会继续更新,直到确定所有的分享内容。

报名情况更新

目前已有4人报名参加