運用管理

みなさん、監視してますか?※長嶋さん風

監視ネタを一つ

監視は大きく2種類に分けられます。※セキュリティやログなどの監視除く

1.サービス監視
※サービス監視はhttpやdbやその他アプリケーションレベルでの監視

2.リソース監視
※サーバのcpuやメモリなどの機器のリソース状況の監視

dmmではこれらを明確に区別して別経路で監視しています。

サービス監視はお客様と同様の経路で監視することとしています。

リソース監視は管理用のネットワークからでもSerial over LANでもIPMI over LANでもどこからでも良いとしています。

なぜそうなるのか

お客様が通る道以外で監視を行ってしまうと、お客様が通過する経路で障害が発生してもアラートを上げることができないからです。

かつてはどこからでも監視さえすればいいという形で監視していましたが、

過去に何度かアラートがあがっていないのに接続できないという事象が発生していたので、

その過去の経験をもとに区別して考えるようになりました。

カイゼン事例の一つです。

 

 

 

運用管理

iphone5

 

インフラチームにはフィールドエンジニア部門がありまして、

日々、サーバの納品対応、ラッキング、ケーブリング、ファームなどのバージョン管理、修理、コロケーションの備品管理などでiphone片手に飛び回っています。

インフラエンジニアとの連絡はiphoneを利用し、

メッセージの交換はimessageを使います。

みんなツチノコですのでfacetimeは使いません。

また、サーバの外観の写真や動画をリアルタイムに共有し、その場で対応を協議しています

また、youtubeへ動画をアップロードしメーカーへ提示することもあります。

さらに、iphoneのvpn機能を利用して社内のvpnサーバと接続、そのサーバ経由で内部の管理サーバへアクセスしたりもします。

携帯が原則ダメなiDCや電波が弱いiDCにはwifiルータを設置すれば事足ります。

ちなみに、RSA SecurIDのパスコードもiphoneで確認できるようになっています。

なぜiphoneなのか

ズバリ、キーパッドの入力精度の高さと電池の持ちです。

次期バージョンiphone5s?でAndroidと同じくらいの電力消費にならないことを祈ります。

みなさんの便利な使い方をコメントいただけるとうれしいです。

 

 

運用管理

みなさん、機器管理のIDはどう管理されていますか?

dmmではsrv[4桁の数字]を使い、テプラで機器の前後に貼り付るようにしています。

ホスト名もこの名前になります。

機器番号は1度割り当てられると基本変更出来ないルールになっています。

人の名前と同じと考えればわかりやすいですかね。

また、運用にスピード感を持たせるためIPMIのIPアドレスと4桁の数字は連動させています。

つまり、機器番号が分かれば確認すべき機器が即座にわかりIPMI経由で素早く状況が確認できるようになっています。

例えば

機器番号がsrv1234ならば、管理用のIPアドレスは10.0.12.34/8とし、手動もしくはdhcpで取得されるように設定します。

例外1:srv1200の場合は例外として10.0.12.100/8とする。カウントを一つ上げる。

例外2:管理IPが複数となる場合は第4オクテットの150~200までを割り当てる。

例外3:第4オクテットの201~240まではプライベートアドレスとして各自自由にテストなどで利用しても良い。けっしてサービスで使ってはならない。

とにかく初動を早くするための一つの方法として実践しています。

なぜ機器番号は変更してはいけないのかといいますと。

筐体交換の時にシールを張り替える必要が出てくること。

それに伴って2台分のIPMIのIPアドレスにも変更が必要になること。

さらにさらに変更に伴って情報の更新が必要なこと。

このオペミスに繋がり易い上記3つを防ぐためとなります。

 

ちなみに、記憶は曖昧なのですが、

昔はすべてのサーバに星の名前をつけていました。

もちろん、すぐに破綻することになるんですけども、ただの番号になってしまうと悲しいかな愛着もへったくれもなくなってしまいます。^^;

愛着がでるよう別名も管理するといいかもしれない。

PAGE TOP