ちょっと珍しい監視項目

こんにちはCTOの馬場です。 今回は弊社で実際に運用している『ちょっと珍しい監視項目』を紹介します。

ソーシャルゲームでのプラットフォーム切り離し監視

ソーシャルゲームの裏側をやってるかたはご存知かと思うのですが、 トラフィックが一度プラットフォーム側(mobage, mixi, greeなど) を経由してくるタイプのものがあります。

レスポンスが悪かったり応答エラーが続いたりすると、 プラットフォーム側でメンテナンスモードにされてしまうことがあります。 (これをプラットフォーム切り離しと呼んでます) こうなると完全に利用が止まってしまうので一大事です。

発生してしまったらゲームの企画・運営担当の方にお願いして、 管理画面から手動で「大丈夫になったからメンテナンスモード解除してね」手続きをする必要があります。

もちろんこうならないのが一番なのですが、 様々な理由でなるときはなるので、 迅速に検知して対処することにしました。

実装としてはアクセスログを定期的にチェックして、 特定条件のアクセスが極端に減ったりしてないか見るという方法をとりました。

切り離しの条件に応じてこの特定条件を工夫しています。 PC、フィーチャーフォン、スマートフォンをどう切り分けるか、 同一サーバでマルチテナントでサービス提供することもあるのでプラットフォームをどう切り分けるか、 などなど、色々と細かい要件を現場で工夫して実装しています。 またピークタイム以外は閾値を下げるなどの工夫をしています。

サーバやシステムの観点だけではなく、 サービスの観点で必要なことを実現しています。

とあるクラウド基盤での不明ホスト検出

とあるクラウド基盤を利用しているサービスでのできごとです。 その基盤は、そのシステムは hosts ファイルでActiveなサーバを管理していました。

運用していく中でサーバの追加・削除・一時停止などをするわけですが、 そのときに 「構築済み・投入待ち」 だとか 「切り離し済み・削除待ち」 だとか 「検証でちょっと建てた。今はもう使わないけどまたこんど使う」 などの微妙なケースが発生します。 そうなるともう大変で、うっかり忘れたり忘れたり残ったりして困ったことになります。

その基盤はAPIが整備されていないので整合をとるのが難しく、 考えた末にnmapを使ってホストを洗い出すことにしました (動作が安定したAPIが整備されている基盤は偉大です)。 定期的にnmapを実行してホストを洗い出し、 過去の実行結果や hosts ファイルの記載と照合して不明なものがあれば発報します。

定例作業を自動化することで安心安全な運用を実現しています。

つづく

かもしれない。

ニーズに応じて現場で随時開発しているので、 また面白そうなものがたまったらポストします。

株式会社ハートビーツのインフラエンジニアから、ちょっとした情報をお届けします。