Kubernetes
4 篇文章
-
Kubernetes CRD Operator 实现指南
8012 年了,Kubernetes 已经成为了集群调度领域最炙手可热的开源项目之一。而多工作负载支持,是讨论到集群调度时不得不谈的一个话题。CRD 是 Kubernetes 的一个特性,通过它,集群可以支持自定义的资源类型,这是在 Kubernetes 集群上支持多工作负载的方式之一。本文希望讨论在实现一个 Kubernetes CRD Operator 时可能遇到的问题以及解决方案,抛砖引玉,探索实现的最佳实践。文章其余部分如下安排:首先在“导论”中,讨论了多工作负载的意义以及不同架构的调度系统的支持方式。其次在“预热”一节详细介绍了在 Kubernetes 上对多工作负载的不同支持方案,进一步划定本文的讨论范围。最后在“正文”一节介绍实现 CRD Operator 的注意事项。本文主要内容来自笔者在实现 kubeflow/tf-operator 时的经验教训。
gaocegege -
Katib: Kubernetes Native 的超参数训练系统
这篇文章主要介绍了 Katib,一个由 NTT 贡献到 Kubeflow 社区的超参数训练系统。面向人群为对在 Kubernetes 上运行机器学习负载感兴趣的同学。
gaocegege -
Kubeflow 安利:在 Kubernetes 上进行机器学习
这篇文章主要介绍了 Kubeflow 的使用,以及未来的计划,面向人群为对在 Kubernetes 上运行机器学习负载感兴趣的同学。
gaocegege -
浅入了解容器编排框架调度器之 Kubernetes
Kubernetes 是由 Google 捐赠给 CNCF 的一个容器编排框架,也是目前应用最为广泛的编排框架之一。这篇文章是对 Kubernetes 1.8 中的 Scheduler(以下称为 kube-scheduler)的介绍,如果要阅读本文,需要对 Kubernetes 的基本概念如 pod, node 等有所了解。
gaocegege