倦谈

ふらついた思想通りだ

Spark 中的 Delay Scheduling「延迟调度」

A Simple Technique for Achieving Locality and Fairness in Cluster Scheduling

《Dealy Scheduling: A Simple Technique for Achieving Locality and Fairness in Cluster Scheduling》这篇论文是 Spark 作者 Matel Zaharia 发表在 Eurosys’10 上的一篇比较有代表性的文章,文章的思路很简单,就是以等待的方式,来获取更好的数据本地性的机会。这个理念也被加入到 ...

2018 年末总结

2018 in review

拖了这么久终于在 2018 的最后一天闲下来写写总结。 0x01 就从 1 月开始吧,17 年丧了一整年,整天半死不活,18 年元旦打开网易云的总结长这样。 17 年末把 Datom 的实验在爱奇艺的计算集群上跑完了,第一次接触百台以上的集群,收集了一周的集群数据量,实验结果还是比较不错。1 月开始忙碌准备文章投稿。开始目标 ICDCS,然后没赶上 deadline,再降级到 CC...

求职记 —— 秋招篇

Job Hunting for Autumn Recruitment

九月份开始忙碌比赛、项目,秋招投入精力不是太多,终于忙碌完有空总结和记录下九月份开始的秋招经历。 投递 找实习时立下了个硬 flag,秋招时要把实习没拿到的外企 offer 拿到,于是秋招简历投递和内推就没有考虑国内厂了。一来再次定向投(基础架构方向)又会是这几个部门,再走一次实习面试流程,比较尴尬;二来其实在国内厂里选择做基础架构方向,最后应该还是会选择 Alibaba。 于是乎,秋...

大规模集群长时间服务型作业调度

Scheduling of Long Running Applications

本文是结合工业界调度现状对 Eurosys’18 的文章 《MEDEA:Scheduling of Long Running Applications in Shared Production Clusters》的解读。 集群调度 集群调度主要是在分布式环境下,将各种类型作业(下文会提到具体类型)分发到集群各个机器节点上,并保证其运行的过程,相当于一个分布式系统的内核。 如下图所示,每...

求职记 —— 实习篇

Job Hunting for 2018 Summer Intern

从 2018 年 2 月底开始,到 2018 年 5 月初结束,持续了近三个月的实习告一段落,收到了一些 offer(其实是投的 5 家都拿到了 offer[机智]),总结下整个过程,也为秋招做准备。 投递 由于研究方向偏向于基础架构和底层(集群调度、容器、操作系统内核),因此在简历投递时偏向于大厂,因为一般大厂比较重视基础架构方面的技术。 最先开始内推的是阿里(印象中在过年之前就开放...

集群调度架构的发展「译」

The evolution of cluster scheduler architectures

文章翻译自《The evolution of cluster scheduler architectures》,原作者为 Cambridge 的 Sys@Scale 实验室。 集群调度器作为当今基础架构中重要的组件,在近几年中发展非常迅速。它们的架构从整体化的设计逐渐松散化,分布式化,变得更为灵活。然而,许多现在的开源实现要么仍然采用整体化设计,要么缺少重要的功能,而这些功能则正...