はじめに
はじめまして、サービス開発1課のマネージャーの高山です。 2023年8月からOPSチームが活動を開始し、半年が経過しました。 今回はOPSチームの立ち上げの経緯から、これまでの実績をご紹介させていただきます。
経緯
私の所属する組織では、LANSCOPEエンドポイントマネージャークラウド版(以下、クラウド版)の新規開発とサービス運用をミッションとして掲げています。 当然ですが、サービスは常に正常に稼働し続ける必要があります。 しかし、クラウド版には新しいデプロイによるアプリの不具合などの内的要因をはじめ、突発的なアクセス増加や利用しているインフラサービスの影響などの外的要因といった、サービスの正常稼働に支障をきたす要因が存在します。
そのため、これまでのクラウド版のサービス運用では、開発者が日々持ち回りで、サービスの異変をキャッチし、速やかに正常稼働の状態に復旧すること、また、人の手を介さずに自動的に復旧できるような仕組み作りに取り組んできました。
ところが、ここ数年のサービス拡大に伴い、サービス運用上の課題が増加すると同時に、突発的な対応が新機能開発の計画遂行に支障をきたすという開発者の声が増えはじめました。
そこで、プロダクトの成長と拡大を支え、お客様に信頼される安定したサービスを提供し続けるためにも、サービス運用業務をミッションとするチームを立ち上げ、新機能開発を計画遂行できる体制を整える必要があると考え、OPSチームを立ち上げました。
サービス運用におけるOPSチームの効果と今後の展望
目的
- 新規開発業務とサービス運用業務を分離することで、新機能開発の計画遂行に寄与する
- OPSチームが運用ナレッジを蓄積することで、安定したサービスを継続的に提供し続ける
活動内容
- 日々の運用監視業務
リクエスト流量増加による遅延やリトライの失敗など、 サービスの異変によって自動通知されるため、サービスの状態を確認し復旧します。 ※ 会社営業日の 9:00~18:00
- 運用監視業務の改善
人の手によるリトライやDLQといったToilの自動化、およびシステムによって通知される過剰な通知のチューニングにより、運用監視業務を効率化します。
実績
- 開発における生産効率の向上
OPSチームの活動に対して、開発メンバーからOPSチームに対して次の声を貰いました。
- 運用にかかる時間が目に見えて減り、業務に集中できる時間が増えました
- 課題発生時にMTGを抜けて対応することがなくなり、助かっています
- 連続的な傾向からレートリミットの予兆を捉えることができるのは、サービス運用チームだからこその視点です
計画業務を遂行中に発生する突発業務などの業務スイッチは、脳を無駄に働かせてしまい、生産性低下を引き起こす原因となります。 開発メンバーが運用業務を実施していたときと比較すると、OPSチームによる運用監視業務の専任化は、開発メンバーの生産効率の向上に寄与していると言えるでしょう。
・運用監視にかける時間推移
突発的に運用業務が多くなる月はあるものの、全体傾向としては右肩下がりで、立ち上げからわずか半年で運用監視業務の約20%を効率化しました。
今後
OPSチーム立ち上げ時には、運用業務を専任化することで、運用を考慮しない新規開発が行われるのではないかという懸念もありました。 立ち上げから半年が経過した現時点では、目指していたメリットを享受できた結果となりましたが、 今後、専任化による副作用の発生リスクを軽減するためには、OPSチームが日頃の運用業務から得た気づきを開発チームにフィードバックするなど、 開発者と運用者間のコミュニケーションをさらに深める必要があると考えています。
おわりに
今回は新機能開発を計画的に遂行するための課題解決という視点で、OPSチームの活動についてご紹介しました。
LANSCOPE クラウド版の利用ユーザー数は、この半年だけで115%の伸び率を記録しています。 それでも、新機能開発とサービスの安定稼働が両立できているのは、 当時、サービス運用上の突発対応が計画業務に影響していることをエスカレーションしてくれた開発チームと、 組織の課題を理解し、サービス運用業務に専念してくれたOPSチームがいてくれたからであり、それ以外に理由はありません。
私たちは今後もサービスの品質を高め、より効率的かつスピーディーな開発ができるチームへ成長していきたいと考えています。