.png)
%20(1).png)
%20(1).png)
安定性の向上とスマートなプランニング:グローバル企業がクラウドの制御権を獲得した方法
会社概要
世界有数のテクノロジープロバイダーである同社は、重要なサービスを実行するために広大なプライベートクラウドに依存しています。この環境は、Windows と Linux のアプリケーションサーバー、ルーター、アプライアンス、およびペタバイト規模の構造化データをホストするクラスター化されたデータベースにまたがっています。25 人のインフラストラクチャーチームが、複雑な環境におけるパッチ適用、キャパシティ、トラブルシューティング、修正を管理しています。変化の激しい部分が非常に多く、信頼性への期待が高まる中、チームはパフォーマンスを大規模に管理するためのより明確な方法を必要としていました。
ビジネスチャレンジ
- システム停止やシステム停止は、ユーザーが問題を報告するまで検出されないことがよくありました。
- 断片化された監視ツールにより、オペレーティングシステムとデータベース全体に盲点が生じました。
- 手作業によるキャパシティレビューは時間がかかり、エラーも発生しやすく、スプレッドシートに大きく依存していました。
- 統一された可視性が欠如していたため、根本原因の分析が困難で時間がかかっていました。
- チームは、人員を増やすことなく監視と信頼性を向上させる必要がありました。
Company Overview
世界有数のテクノロジープロバイダーである同社は、重要なサービスを実行するために広大なプライベートクラウドに依存しています。この環境は、Windows と Linux のアプリケーションサーバー、ルーター、アプライアンス、およびペタバイト規模の構造化データをホストするクラスター化されたデータベースにまたがっています。25 人のインフラストラクチャーチームが、複雑な環境におけるパッチ適用、キャパシティ、トラブルシューティング、修正を管理しています。変化の激しい部分が非常に多く、信頼性への期待が高まる中、チームはパフォーマンスを大規模に管理するためのより明確な方法を必要としていました。
ビジネスチャレンジ
- システム停止やシステム停止は、ユーザーが問題を報告するまで検出されないことがよくありました。
- 断片化された監視ツールにより、オペレーティングシステムとデータベース全体に盲点が生じました。
- 手作業によるキャパシティレビューは時間がかかり、エラーも発生しやすく、スプレッドシートに大きく依存していました。
- 統一された可視性が欠如していたため、根本原因の分析が困難で時間がかかっていました。
- チームは、人員を増やすことなく監視と信頼性を向上させる必要がありました。
チャレンジ
緊張したチームと高まる期待
ミッションクリティカルなサービスを複雑なプライベートクラウド上で稼働させ続けることは常に困難です。このグローバルテクノロジーリーダーは、自社のインフラストラクチャに多額の投資を行ってきましたが、サイロ化、プロセスの遅さ、盲点などの問題により、自信を持って運用することが困難でした。
オペレーティングシステムが警告なしに再起動することがあります。サービスが停止したり、リソースの急増によりパフォーマンスが低下したりする可能性があります。大きな問題になる前に将来の問題に対処するのに役立つプロアクティブなアラートではなく、多くの場合、アラートはヘルプデスクが既に苦情を処理した後にしか届きませんでした。さらに、ツールが断片化していたため、Windows、Linux、クラスター化されたデータベース全体で可視性のギャップが生じ、エンジニアは散在するログやスプレッドシートからストーリーをまとめる必要がありました。
キャパシティプランニングはまた別の苦労でした。月次レビューは、データを手作業で収集してスプレッドシートに貼り付けることから始まりました。この手作業は時間がかかり、間違いも起こりやすく、結果が共有される頃には古くなっていることもよくありました。信頼できるトレンドデータがなければ、成長予測は分析というより推測に近かった。信頼できるトレンドデータがないと、プラットフォームの信頼性に対する信頼性が損なわれ、コストがかさむ計画外のダウンタイムが発生するリスクが高まりました。
作業負荷の数は増え続け、チームは新規採用者を一人も追加せずに、増加する規模に対応する必要がありました。システムを安定させ、需要の一歩先を行く方法を、すべて同じ人員配置で維持する方法を必要としていました。
ソリューション
安全でスケーラブルなプラットフォームの選択
チームはいくつかの監視オプションを検討しましたが、Windows、Linux、クラスター化されたデータベースが複雑に混在する環境で、社内の厳しいセキュリティ要件を満たすことができるものが必要でした。と IBM クラウド® モニタリング彼らは、ホストレベルの深い洞察を提供し、自社のデータセンター内で完全に実行できるプラットフォームを受け取りました。これにより、新たなリスクを招くことなく可視性が向上するだろうという確信を得ることができました。
即効性のある迅速なロールアウト
ロールアウトにはわずか2週間しかかかりませんでした。エージェントは既存の管理ツールを通じて分散され、エンジニアは手動でインストールする必要がなくなりました。いったんアクティブになると、ダッシュボードは CPU 負荷、メモリ使用量、ネットワークアクティビティで明るくなりました。これは、チームが初めて明確に把握できたことでした。
システム運用開始から数時間以内に、以前は気付かれなかったはずの問題が報告されました。夜間にシステムが再起動し、以前は朝まで検出されなかったであろう大規模なデータベースロックイベントが即座に発生し、エンジニアはユーザーが気付く前に調査できるようになりました。オペレーティングシステムとデータベースのメトリクスを単一のタイムラインで連携させることで、根本原因の分析もスピードアップし、診断プロセスの時間を短縮できました。
よりスマートなモニタリング、より少ないノイズ
信頼できるデータが揃ったら、チームは本番環境、開発環境、テスト環境に合わせた階層化されたアラートルールを設定しました。ルールはオンコールシステムに直接結び付けられていたため、エンジニアは対処できるアラートしか確認できませんでした。これにより、ノイズが減り、より多くのアクションが可能になり、エンジニアは重要ないくつかのシグナルに集中し、問題をより迅速に解決できるようになりました。
キャパシティプランニングへの信頼
ログを手動で収集してスプレッドシートに入力するという毎月の習慣は、もはや必要なくなりました。リアルタイムおよび過去の傾向データにより、エンジニアは事前に正確に計画を立てることができました。新しい仮想マシンとデータベースインスタンスをプロビジョニングすると、自動的にダッシュボードに表示され、追加作業なしで対象範囲が広がりました。IBM Cloud Monitoringは、ディスクの使用量を30日前に予測することさえできます。エンジニアは、ディスクがいっぱいになって予期せぬ事態にならないように、そのデータからアラートを設定します。
トラブルシューティングに費やす時間を短縮することで、エンジニアは最も重要なサービスの改善に集中できます。ビジネスにとって、この変化は日々の安定性の向上と将来のニーズに対する明確な可視性につながります。経営幹部はこれを単なるITの改善以上のものと見なしており、信頼できる監視はビジネス全体を強化します。モニタリングをしっかり行うことで、チームはその瞬間を明確に把握し、企業が長期的なレジリエンスを構築するのに役立ちます。
