-
引发Openai全球性宕机,原因竟是Kubernetes?
2024年12月11日,OpenAI出现了全球性的严重宕机事件,这次事件导致OpenAI的所有服务包括ChatGPT、API和 Sora等都受到了严重影响,甚至出现无法访问的情况。关于此次事件的起因,目前官方已经出了故障报告,详见:https://status.openai.com/incidents/ctrsv3lwd797。在本文中,我将带大家深入了解OpenAI的此次故障事件,在别人的错误中…- 26
- 0
-
消除 Kubernetes 中的未利用资源
Kubernetes 中的未利用资源不仅仅是预算项目——它们是效率、可扩展性和性能的隐形杀手。 浪费的 CPU 周期、空闲内存和未充分利用的节点都会累积,增加成本的同时使集群处理实际工作负载的能力下降。如果你在大规模使用 Kubernetes,你会知道这些低效问题如何演变成实际的操作难题。 如今,随着Scaleops 等智能自动化工具的兴起,你可以快速轻松地检测、修复和预防未利用资源,包括“不可驱…- 18
- 0
-
解决请求实体上传过大 ingress 报错 413 Request Entity Too Large的问题
经常我们会遇到上传超过1M左右的文件,但是向K8S中的Ingress nginx发起请求的时候会报错413 Request Entity Too Large。 具体原因是因为ingress nginx 默认 client_max_body_size为 1M, 超过 1M 后会报错 413 Request Entity Too Large。 解决办法 找到k8s集群 的ingress路由规则配置,编…- 20
- 0
-
为什么运维都这么难招?
这是知乎上面关于运维的一个热门问题: 为什么运维都这么难招? - 知乎 https://www.zhihu.com/question/32268974 来看看知乎运维网友们的吐槽吧,说多了都是泪啊。 来自知乎用户@匿名用户: 有些公司招运维人员,要求从系统到网络、从数据库到虚拟化、从Apache到K8S、从IDS到强弱电维修、从域控到打印机换墨,必须样样…- 15
- 0
-
Kubernetes集群 for openEuler 22.03 LTS 二进制手动部署
Kubernetes集群 for openEuler 22.03 LTS 二进制手动部署 本文档介绍在 openEuler 操作系统上,通过二进制部署 K8S 集群的一个参考方法。 说明:本文所有操作均使用root权限执行。 一、集群状态 本文所使用的集群状态如下: 集群结构:6 台openEuler 22.03 LTS系统的虚拟机,3 个 master 和 3 个 node 节点。 物理机:op…- 20
- 0
-
-
Kubernetes中Minikube与Kubeadm的关键区别是什么?
Kubernetes中Minikube与Kubeadm的关键区别是什么? ❝ 选择正确的Kubernetes工具:理解Minikube和Kubeadm用于开发和生产环境 Kubernetes,作为自动化部署、扩展和管理容器化应用程序的领先开源平台,拥有多种工具来简化集群的设置和管理。 在这些工具中,Minikube和Kubeadm作为两个受欢迎的选项脱颖而出。它们在Kubernetes生态系统中服…- 14
- 0
-
解决 Kubernetes 命名空间卡在Terminating终止状态的问题
几个月前,我在卸载 Ceph 集群(使用 Rook 挂载)时遇到了删除命名空间的问题。 基础 我认为我已经正确删除了集群中的 Ceph 对象,最后简单地删除了命名空间: kubectl --context=sandbox delete ns rook-ceph 然而,当我尝试验证它是否确实被删除时: kubectl --context=sandbox get ns rook-ceph NAME …- 19
- 0
-
记一次机房搬迁后网络改造引起的K8S内部容器无法访问外部网络
最近公司规模扩大,原办公室已经无法容纳更多的员工,公司高层决定搬迁办公室,同时也需要搬迁,并且在现有的电信桥接动态公网IP出口的基础上需要再增加一条移动专线,现在有2台交换机,也无法支持新的办公,需要再采购一个交换机。现在办公和服务器在一个网段192.168.2.0/24。我在了解业务后,对新办公室进行了如下改造: 1、首先网段肯定不够支撑新办公区的网络,于是改造成大内网192.168.0.0/1…- 16
- 0
-
一款功能强大的Kubernetes网络诊断工具
本文将介绍一款功能强大的Kubernetes网络诊断工具,名称为Kubeskoop。 一. 产品介绍 Kubeskoop 是一款专为Kubernetes设计的网络诊断和监控工具。Kubeskoop 提供了对集群中网络、服务、节点等多维度的可观测性,以帮助运维人员更快速地诊断和定位问题。产品具有以下特性: 1. 一键诊断网络链路 Kubeskoop 支持一键诊断 Kubernetes 集群…- 59
- 0
-
11 个 Prometheus 配置自动化脚本
1、服务配置脚本 自动化创建 Prometheus 服务,确保其随系统启动并平稳运行。 #!/bin/bash # 配置 Prometheus 为 systemd 服务并验证 SERVICE_FILE="/etc/systemd/system/prometheus.service" echo "配置 Prometheus systemd 服务..." cat…- 28
- 0
-
Kubernetes Secrets 与跨命名空间访问指南
Kubernetes Secrets 与跨命名空间访问指南 Kubernetes 是一个强大的平台,旨在大规模管理容器化应用程序,其中 Secrets 作为安全管理敏感数据(如密码、API 令牌和加密密钥)的关键功能。默认情况下,Secrets 仅限于创建它们的命名空间,限制了它们在命名空间之间的可访问性。 在本指南中,我们将探讨跨命名空间安全高效共享 Secrets 的方法,讨论安全考虑,并提供…- 27
- 0
-
[kubectl-resource-view]: 一款用于查看k8s资源使用情况的插件
1.简介 一款自己编写的k8s 命令行插件,用于查看k8s node和pod资源的 cpu、 memory、 gpu的request 和limit 使用情况。 2.安装 可直接解压下载使用,也可以从github仓库中进行下载最新版本,支持不同架构,喜欢的麻烦给个小星星,有啥额外的需求可以提issue https://github.com/bryant-rh/kubectl-resource-vie…- 21
- 0
-
KubeSphere 和 Kubernetes 集群卸载、重装完全指南
本文是一篇实战短文,重点指导您成功卸载已有的 KubeSphere 和 Kubernetes 集群,并在原有服务器上完成重新部署。 实战服务器配置(架构1:1复刻小规模生产环境,只是配置略有不同) 主机名IPCPU内存系统盘数据盘用途ksp-control-1192.168.9.16181640100KubeSphere/k8s-control-planeksp-control-2192.168.…- 43
- 0
-
解决 Kubernetes 节点上的挂载点卡住问题:一次深入探索
在Kubernetes的日常操作中,我们可能会遇到各种各样的挑战和问题。最近,我遇到了一个特别棘手的问题:即使Pod 和Persistent Volume (PV) 已经被删除,它们之间的挂载关系仍然存在,导致整个集群的节点都无法使用 df -h 命令。本文将分享我是如何发现并解决这个问题的。 在Kubernetes集群的日常维护中,我们发现所有节点都无法正常执行 df -h 命令。这个命令通常用…- 27
- 0
-
从k8s容器丢包事件中掌握内核参数优化技巧
在k8s的使用场景中,容器不是仅仅能运行就算ok,往往还需要进行容器的内核参数优化和应用程序参数的调优,如在高并发的业务场景下,运行一个java程序,我们不仅需要对其JVM参数进行调优,而且需要对其所在的容器进行内核参数优化,这篇文章主要通过一次容器丢包事件介绍容器中内核参数优化的方法。 线上业务反馈接口偶发性返回502状态码,从请求日志和监控系统看,有好几个微服务的接口都有出现,期间容器资源使用…- 24
- 0
-
Kubernetes etcd 定时备份及恢复方案
etcd 是一个高可用的分布式键值存储系统,在Kubernetes集群中用于存储和管理集群的所有关键信息,如配置数据、元数据、状态信息等。简而言之,etcd 存储了Kubernetes集群本身的所有数据,包括Pod、Service、Node、Namespace 等对象的元数据和状态。可以说,只要我们有了etcd的备份文件,就可以恢复Kubernetes集群的状态。 虽然etcd的数据是默认是存储在…- 21
- 0
-
在 Kubernetes 中重启 pod 的 3 种方法
在 Kubernetes 中,管理和维护容器化应用程序是一项重要的任务。其中一个常见的操作是重启 Pod,无论是为了解决问题还是应用程序的更新。在本文中,我们将深入探讨在 Kubernetes 中重启 Pod 的三种方法,并为每种方法提供详细的步骤和示例。 kubectl 命令 首先,我们需要登录到运行着 Kubernetes 集群的主机或者使用远程访问工具来连接到集群。 使用 kubectl 命…- 101
- 0
-
记一次持续三个月的 K8s DNS 排障过程
本文整理自灵雀云的专家工程师刘梦馨,在《蓝鲸 X DeepFlow 可观测性 Meetup》 中的分享实录,从一个毫无头绪的 K8s DNS 故障出发,分享问题的排查思路,详解排查过程中遇到的 DNS 服务、Alpine 镜像、业务代码逻辑、CNI 插件等各个层面的异常现象。整个排查过程基于 DeepFlow 的持续观测能力,实现了对故障现场的高清还原。刘老师同时也从资深用户的角度,对 Deep…- 18
- 0
-
nginx-ingress代理websocket配置示例
官方文档中说明websocket不需要特别的配置,但需要在注解中配置以下三项 再ingress-nginx的官方文档中说明websocket不需要特别的配置,但需要在注解中配置以下三项 nginx.ingress.kubernetes.io/proxy-http-version: "1.1" nginx.ingress.kubernetes.io/proxy-read-time…- 31
- 0
-
kube-prometheus监控Harbor镜像仓库平台
Harbor官方在Harbor v2.2开始提供对相关指标的采集和使用,即 Harbor v2.2 及更高版本中支持Prometheus监控Harbor。 1. 部署harbor 下载版本2.7.1 wget -c https://github.com/goharbor/harbor/releases/download/v2.7.1/harbor-offline-installer-v2.7.1.…- 31
- 0
-
k8s网络插件之calico两种网络模式
一、calico概述 1、k8s网络之Calico网络2、k8s网络组件calico详解3、calico的组件、架构与原理4、calico的两种网络模式BGP和IP-IP性能分析 二、IPIP与BGP两种网络模式对比 IPIP网络: 流量:tunl0设备封装数据,形成隧道,承载流量 适用网络类型:适用于互相访问的Pod不在同一个网段中,跨网段访问的场景,外层封装的IP能够解决跨网段的路由问题。 效…- 230
- 0
-
云原生夜莺监控 v7 最终版来了,可以上车了
夜莺监控 Nightingale 发布了 v7.7 版本,这是 v7 系列的最后一个版本,保守主义者可以放心上车了,v7.7 主要是做了一些小修小改,增强了使用体验,下周开始,启动 v8 版本的开发。v8 版本会更让人激动,会重构通知逻辑,支持 ElasticSearch、ClickHouse 等数据源的告警,另外机器告警策略也会和业务组联动,更多功能敬请期待。 v7.7 主要变更 fe…- 94
- 0
-
Ingress出现诡异的HTTP状态码“000”
背景 近日,有朋友提到他们的ingress出现了“000”状态码,我一开始是不信的,认为他们可能是打印日志的姿势不对,因为http状态码压根就没有000的说法,于是要求对方上图,没想到,还真有。。。是怎么回事呢?让我们继续往下看。 问题现象 这是发生在比较低的版本0.25.1的身上,我们先看下定义的日志格式,status引用的是内置变量,没问题 接着我们看看这诡异的“000”状态码…- 11
- 0
友情链接:暖气片十大品牌