[Life]关于学术/竞赛资源的想法
声明:本人非学术大咖,研一在读,入坑优化领域半个学期。研一上学期主要是上课,看书,打比赛来着。
声明 2: 已经研二,临近毕业。最近师弟问起比赛的事情,于是花时间总结一下关于比赛的资源。
学术资源
1.用Google解决自己需要解决的问题
花钱买VPN吧,从大一到现在,自己尝试过各种免费的翻墙服务,最终还是选择了付费方式。此外,说一点,发现很多人不会关键词搜索,其实这个问题很简单,读一下搜索帮助就好。在此之前,确认自己会不会搜索。
2.arxiv.org
这个是获取最前沿论文信息的平台。举个例子,我要投一篇NIPS的文章,我写完了,赶紧把文章发表在这个平台上,让别人知道这个想法已经有人做了。发表在该平台上的文章可能存在错误,不全等,这也是该平台的非正式性的体现。
如果你想在顶会论文挂出来之前得到前沿成果,来这里吧。但是该平台挂出的文章也是良莠不齐,因此有些人做过一些第三方的工具进行文章的筛选等。当然,这里的文章也是可以被引用的。
3.顶会
NIPS,ICML,CVPR等CCF 划定的A,B,C类会议官方网站。通常这些会议会在正式发布录取文章之前,会挂出一个接收论文列表,在review之后,会挂出正式录取的文章的列表。开会的时候,又会请一些大咖做talk,或者一些优秀论文的作者做oral。尤其需要关注的是会议的最佳论文等,如前几天的ICLR 2017的一篇张驰远的文章重新思考泛化。有的会议需要做video和poster,可以分别在Youtube和Github找到。
近些年来,看某些大咖的publication list,明显顶会比顶刊要重要的多。所以,你还仅仅只是Trans吗?
4.Github
这里有:
arxiv挂出的论文的代码实现,例如周志华等提出的gcForest等,很多时候比论文作者正式公布代码的时间要早。
论文作者公布的代码。
某些领域入门的经典文献收集整理。
某些领域学习路线和资源整理(自己就参加过一个南大同学组织的项目)。
还有很多我们想不到的…代码…,所以,当你决定复现论文代码的时候,explore一下呗。比如我最近跑的SGD with Feedback,文章的实验代码作者就在Github上托管。
5.知乎/Quora/StackOverflow/StackExchange
使用知乎的时候提醒:不要把刷知乎当成搞研究。
这里有:
某些大咖对某年某个顶会的论文刷完之后的一个中文思路总结。如@杨军
某些开源项目大咖发表关于自己项目的想法。如@贾扬清
某人对某个问题的具体看法。
在回答学术问题后,会给出具体的参考文献(毕竟知乎上的同学最擅长推荐学习资料)。
知乎LIVE。刚刚参加了第一个LIVE…
6.微博
赶紧用起来吧。关注学术大咖,关注学术大咖的粉丝,关注学术大咖的粉丝的粉丝…
推荐几个账号:@爱可可-爱生活
我对微博的使用是拿出来刷刷,看看最近的微博的这些人比较关注什么和自己在别的地方得到的信息进行一个印证,有的时候可以得到非常好的资料和观点。重浏览,轻研究。
此外,欢迎关注我的微博@zhpmatrix,里边有:吐槽arxiv中文章各种笔误,突然冒出来的idea,对看过的文章的自己的短小总结,关于写代码的心得,还有各种萌宠。
7.公众号
强烈推荐:史春奇,王雅清的 AI2ML 这个公众号。
8.博客
这个有点多,在我自己的博客中,就提到过很多,主要看自己的读博客的品味了。目前自己的品味和AI2ML公众号中的文章比较接近。
9.分享(总要有个务虚的结尾)
信息和知识来自分享,将你自己的想法通过各种方式和外界进行分享。
比赛资源
1.比赛介绍
为什么要举办比赛?
-
对举办方来说,用有限的资源获取无限的智慧,一对多,稳赚不赔。比如:内部问题的新且优秀的解决方案,公司知名度的提升,招聘到优秀的人才,推广自己的方案和平台(例如:全国并行应用挑战赛)。
-
对平台方来说,响应时代发展的要求,平台变现。
-
还有我暂时不知道的原因。
为什么要参加比赛?
-
实践驱动学习,在战争中学会战斗。
-
招聘条件中的重大加分项,同时创造与面试官的沟通话题。
-
赚钱。大比赛有大奖。
-
认识大牛,交朋友。
-
好多,写不完了…
为什么不要参加比赛?
-
占据科研时间。
-
比赛压力大。
-
想不出来还有什么了…
2.比赛平台
Kaggle
数据挖掘类比赛的国际性平台,赛制科学,社区活跃,内容丰富,是该领域比赛的标准制定者。
阿里天池平台
国内最大的竞赛平台,承办各种比赛,例如:来自公司(华大基因等),政府(无锡,广东等),国际会议(KDD, CIKM, IJCAI)等比赛。国际会议的比赛如果排名靠前,可以获得参会机会。
DataCastle
科赛网
鉴于我一个朋友在此实习,多写几句。科赛网作为一个比赛平台,承办过携程等各个公司的比赛,而且有幸见过公司创始人一面,靠谱。但是作为一个初创平台,也面临着各个方面的不完善。
公司举办的比赛
例如知乎看山杯,滴滴算法大赛,全球AI挑战赛(搜狗,今日头条等联合创办)。
好多,写不完了…
3.比赛方法
对于目前的比赛圈子,针对数据类比赛,Xgboost和lightGBM是常用模型或者说是工具,特征工程是最重要的事情,模型最好做融合。针对图像类比赛,深度学习方法是主流(没有参加过,说多了容易误导)。
总结:信息到处都是,对于信息的获取,最好的方式是在距离信息最近的地方直接获取,不要等信息传递了很久才获取,尽量不要别人咀嚼后的信息。由信息到知识再到经验,个人觉得最重要的是清楚自己的目的是什么,然而保持清醒真的挺困难。学会放弃,学会选择,该关注的关注,不该读的不读,这个需要刻意练习。否则就会发现永远读不完的文章,永远写不完的代码,而你在这个过程中可能距离自己的目标也是渐行渐远。当然,也可能在和信息交互的时候,进行目标的更正以致目标实现。