目录

目录

阅读推荐2021

2021-05

李沐: 工作五年反思

李沐大神这篇文章对工作中的价值进行了剖析, 也是工作五年的反思总结, 其中最难为可贵为对自己价值和对他人的价值, 对自己的价值很好理解, 但是对他人的价值才更为重要, 影响的人的数量与影响的程度, 可以是工作产出, 也可以是其他的形式. 专注于最有价值的事情, 在工作和生活中多选择的场景下, 是一个不错的指导方针.

大惊呼, 听君一席话, 胜读十年书; 大惊呼, 书到用时方恨少, 只恨看得少, 听得少, 想得少(雷军: 对校招生的建议); 老板曾对我讲, 要注重个人产出, 我并以产出作为我工作的指导思想; 老板曾又对我讲, 要注重个人发展, 我也为此开始践行. 这也算是对我不同阶段的两点指导建议. 回过头看, 还是因为我的经验不足, 难以支撑自己, 更是需要多看, 多听, 多学, 多想. 在这些大佬的指引下, 希望能够修养自己, 成就更大的价值.


来自遥远的分割线


2016-05

程序人生

这是雷军1996年在BBS上写的一篇帖子,现在读起来,也别有一番韵味。尤其是那一句“编程不仅仅是技术,还是艺术”更是说出了编程的真谛,我想也是现在的编程者思考的问题。

KISS principle

KISS即keep it simple, stupid的缩写,它是解决复杂代码的法宝,也是优秀代码的准则。

Digital Carpenter Evolves To Geoscientist

这篇文章来自android weekly网站创始人Martin Gauer博客中的一篇文章,主要讲诉了他作为网站前端开发的一个老手转变为地球科学家的过程。这其中是对自己的逐渐的认识,敢于做出改变,然后下定决心和付出行动。

Java的第20年:Java和我的故事

一篇跨越20年的回忆史,通过Java的故事线回忆着作者自己的人生。

2017-10

Discover Feature Engineering, How to Engineer Features and How to Get Good at It

特征工程是数据挖掘中至关重要的一环. 甚至, 在业界中传有, 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已. 这篇文章中, 不仅详实的叙述了特征工程的概念, 还发散性的引导构建特征的思维, 但谨记, 特征工程即使存在一个模式, 也要努力的跳出这个模式. 我想, 特征工程也许就是一个思维发散的过程.

进程与线程的一个简单解释

工厂的例子很形象, 插图也非常的不错!

关于 KaiMing He 的两篇论文

https://www.zhihu.com/question/67119841 https://www.zhihu.com/question/57403701

周博磊评论“从现象和问题出发追溯本质的思想”

现今深度学习在机器学习领域的研究和应用中, 处于一个十分火热的状态, 甚至对统计学习呈一种打压的景象. 所以不禁会问, 继续学习统计学习还有必要吗? 可以从周博磊的评论中能得到一点启发: 从现象和问题出发追溯本质的思想. 深度学习的应用主要在cv, speech recognition和nlp问题上, 这类问题一般为表达结构较为复杂的问题. 深度学习简化了提取特征的这个步骤, 而对于一些结构化的数据, 统计学习依然能够, 或者胜任深度学习. 另一方面, 在KDD领域, 统计学习依然占有一席之地, 而KDD更偏重于使用机器学习算法解决实际的问题, 也更注重于特征工程. 最后, 对于统计学习和深度学习的讨论可以参见周志华老师机器学习序言的问题三.

裴健当选SIGKDD主席, 研究被引超7万次,他还有一个遗憾 | 专访

  1. 数据挖掘的核心是对数据和业务的理解能力和对算法的构建能力。
  2. 是不是数据永远是越大越好?对于研究者来说,怎样才算是适合的数据?
    • 一般来说,数据是越多越好。
    • 深度学习需要大量的数据来产生可以generalize的模型。
    • 在实际应用中,数据往往是有成本的。
    • 有很多应用场景不容易获取大量的高质量数据。
    • 所以说我们需要针对具体问题,获取合适的数据。
    • 在这方面,统计学对数据的采集评价有一系列的方法和原则,值得深入学习。
    • 另一个方面,要很好利用大量的数据,通常需要比较复杂的模型,对计算的要求也相应地比较高,所以我们要根据数据量和应用来选择合适的模型。

数据挖掘最强华人齐聚加拿大,干货满满亮点不断 | KDD 2017

杨强教授提到, 特征比模型更为重要(Big Data is useless unless it can deliver big feature space). 对于Data Minming来讲, 实际也是这么回事, 但是也不能否认模型的重要性, 只不过大多数模型的算法已经成熟了, 而特征则更需要对业务的分析与理解, 所以, 特征才表现出了更加的重要.

机器学习该怎么入门?

ML派坐落美利坚合众山中,百年来武学奇才辈出,隐然成江湖第一大名门正派,门内有三套入门武功,曰:图模型加圈,神经网加层,优化目标加正则。有童谣为证:熟练ML入门功,不会作文也会诌。

一同门一直在哔哔, 现在理解不深, 可能以后会加深理解. (边笑边逃)

Yann LeCun创造的新词“预测学习”将要落脚于GANs?

如果你沉浸在传统机器学习领域, 又对深度学习了解很少, 那么你可以看看这一篇文章. 首先是Yann LeCun的"蛋糕比喻", 形象的描述了人工智能的三大领域: 强化学习, 监督学习和无监督学习. 其次是对于GANs(Generative Adversarail Networks)的描述. GANs是无监督学习的一个方法, 如LeCun所描述的那样: 对抗性网络是“20年来机器学习领域最酷的想法”, GANs的概念充满了想象力, 也让读者有一些引申的思考. 最后, 通过这篇文章也会增进你对深度学习的理解. 最后, 看看GANs生成的图片, 是不是很新奇呢?

清华大学刘知远:在 NLP 领域「做事」兼「发声」

如果你想了解一个人, 你就和他多接触一下吧, 听听他的故事. 文章通过两个项目, 以及为学生, 为老师三方面介绍了刘知远博士, 大神的练成并不简单, 更多的是努力和智谋. 顺便文章还介绍了一些NLP的项目, 值得收藏.

KDD 2017最佳论文得主叶艳芳专访:AI时代的互联网安全 – 攻与防的黑白博弈

又一篇关于或学者或导师的访谈. 在研究方面, 机遇与挑战共存. 在导师方面, 站的够高, 看的更远.

2017 NBA 选秀有哪些值得关注的新秀?

走向成功的道路并不平坦, 但是他们胸怀勇气, 披荆斩棘, 坚持不懈, 最后得到了成功. 每个人都有着他们不同寻常的故事, 也造就了他们的成就!

2017-12

很傻很天真的贝叶斯定理

贝叶斯定理是一种思维上的推理方式. 一般的推理是建立在因果关系上的, 对于执果索因, 就需要使用贝叶斯定理.

F1 比赛中最严重的事故是哪次?

一些事故让人感到沮丧, 但是, 他们以更坚强的方式活着!

文本情感分类与深度学习模型

共三篇关于NLP的文章, 每次都是对上次内容的更正. 其中第三篇为一年后的更正, 实在难为可贵!

http://kexue.fm/archives/3360/ http://spaces.ac.cn/archives/3414/ http://kexue.fm/archives/3863/

详细的讲述了作者做情感分析的过程及想法, 内容详实, 对于刚上手NLP分类有很好的引导作用.

本以为是团体运维的博客, 但就是个人博客. 博客内容精良, 专研精神可贵, 涉猎广泛, 值得关注!

2018-01

How to do machine learning efficiently

  • 10秒原则

    • 时间是最贵重的成本.
    • 永远不允许计算超过10s的问题(抽样).
  • 急于成功

    • 更专注一个问题. 由简至繁的构建.

2018-11

Ask Me Anything session with a Kaggle Grandmaster

作者是一位物理专业毕业的博士生, 后面转向数据科学(DS). 过程中也遇到很多困难, 坚持可热情, 还有总结沉淀下来的方法让他成为了Kaggle Grandmaster. 在这个过程中, 作者是付出了很多精力的. 在全职的工作上要保持比赛的强度, 是工作也比赛的权衡. 当然, 作者也会发费时间在运动, 旅游上面. 但是更多的闲暇时间用在了比赛和学习上. 当最后成为Kaggle Grandmaster时, 作者认为一切都是值得的.

里面有很多比赛方法上的经验, 在打比赛之前和之后都可以看看!

千里之行始于足下, 最困难的一步也就是第一步.

来自于爱可可老师的推荐

  • “你在Kaggle学到的技能只是你在工业或学术界工作时所需技能的一小部分,那些Kaggle不涉及的技术领域基础教育可能是至关重要的” “要加速磁盘jpeg图像I/O,不应该用PIL,Skimage甚至OpenCV,而是用libjpeg-turbo或PyVips。” “Kaggle技能是我从学术界和其他知识来源获得的一系列技能的有力补充”
  • “高估你的专业、大学等在该行业找工作中的影响是不明智的。一家公司雇用你、愿意付钱给你是希望解决他们面临的问题。学位和专业只是评估能力的参考……”
  • “机器学习领域的论文、竞赛、博客和书籍实在太多,根本看不过来。实际上,当我遇到问题,会专注于查看最近结果并深入研究。完成后,再切换到下个问题,只是掌握缺少实践经验领域的高级知识……NIPS、CVPR等会议,可以很好地代表在目前研究阶段我们能做什么和不能做什么”

附上机器之心翻译[link]版本.

从「深度学习」到「深度」学习 | 龙明盛老师专访

近期读了龙明盛老师的几篇论文, 感觉其是一位很nice的年轻老师, 学者. 偶然在网上看到这篇专访, 讲述了龙明盛老师的为师者, 为学者, 为人者的态度和践行. 一位优秀的往往能启发更优秀的学生, 值得学习!

论算法工程师首先是个工程师之深度学习在排序应用踩坑总结

吴海波

花名吾加,蘑菇街搜索、推荐排序算法owner,大规模机器学习从业者.

醍醐灌顶!

前辈走出的路, 总结的经验一定要好好的看, 尤其是如此优秀的文章!

首先文章以算法工程师面试最为引子, 算法工程师首先需要能解决工程问题, 因此代码能力是必不可少的, 要求也是严格的, 其次是机器学习理论和实践上的能力. 同时具有上面两个能力才能称作是一个合格的算法工程师.

但是作者并没有局限在于算法工程师上面, 而是在于职业的操守. 理论 + 实践, KPI, ROI, 这些才是算法工程师要面对的问题. 而为了有产出, 必须要对算法进行一些探索, 工程化.

最后是作者也是深耕于搜索, 推荐排序的算法工程师, 而且乐于分享自己的想法, 推动行业的前进, 值得关注!

作者关于此问题写了两篇

另外还有作者还引用了多篇质量非常高的关于推荐排序的博文和专栏, 包含了杨旭东的几篇文章, 之前也有看过. 另外还引用了很多领域的论文.

最后, 附上吴海波的专栏误入机器学习的码农, 以及杨旭东的专栏算法工程师的自我修养.

爬虫租房, 是一个不错的注意

又发现了一个

一份写给NLP研究者的编程指南

开发经验非常的重要!

  • 快速原型开发!!!!!!!!!然后再重构与模块化!!!!!!!!!!
  • 写安全的工程代码

贫富差距是如何逐渐扩大的

总结一下:

  • 先投资自己
  • 出发点是基于长期的回报而不是即时的满足
  • 多种收入来源
  • 不断的投资自己
  • 从不指责, 对自己的失败承担全部责任
  • 不睡懒觉
  • 清晰的愿景和目标
  • 进步后娱乐

学习Git, 这里有个非常耐撕的工具

assets/good-post/1543149629534.png

善用资源,找书,看书,而不是囤书

assets/good-post/1543286159451.png

依然是那句话, 你拥有的资源多少并不重要, 如果你不知道利用的话, 一切都是无用的.

我的八年博士生涯 – 王赟 Maigo

在知乎上, 感觉王赟是一个非常平易近人的人, 他通过两个方面总结了他的博士生涯, 看上去也非常的评议近人.

在学术上, 做的研究和项目好像也没有很大的高大上, 但是却踏踏实实, 虽然走了很多弯路, 但是也有一些不错的收获. 在完成博士论文可谓惊险, 正是这种惊险也使得博士生涯更具有一番味道.

在娱乐上, 可能是比较玩得开的人, 也愿意玩的人, 让整个博士生涯变得不那么的单调, 很好!

斯坦福机器学习课程“CS 229 - Machine Learning”速查表(中文版)

全面, 简洁, 整理得很好!

assets/good-post/1543479157852.png

图文详解如何利用Git+Github进行团队协作开发

Git在版本控制中是非常重要的工具, 这篇文章把多分支开发说的很详细!

张小龙总结微信8年

高效学习

https://weibo.com/1707613190/HbgL0n5E0

矩阵乘法的本质是什么?

https://www.zhihu.com/question/21351965/answer/516385585

这是一个系列视频, 指的get

[TOC]