この記事は、Pepabo Advent Calendar 2014の13日目の記事です。前日は、kentaro(あんちぽくん)さんの「組織能力を圧倒的に成長させること – delirious thoughts」でした。
本題の前に自己紹介
30days Album という写真の共有・保存ができるウェブサービスのマネージャーをやってます。
キャリアとしては、デザイナー → マネージャーなので、非エンジニアです。
pplog.netの中の人ではございませんし、当方のブログ(pplog.org)にはポエムはございませんのでよろしくお願いします。
本題
そんなマネージャーが、日々どのようにしてサービスの監視を行っているかについて書きます。
やってることはすごく単純で、上の写真のようにタブレットにNewRelic APMの画面を表示し、常に視界に入れておく。これだけ。
※ APM・・・Application Performance Monitoring
解説
△NewRelicの画面イメージ
NewRelicは、サーバーの状態監視や、サービスのパフォーマンス監視などをやってくれる外部サービスで、APMはその中の1サービス。
munin とか nagios とか監視ツールも導入されているけど、グラフが多くてどこを見ればいいのか分からず、自分には使いこなせない…
NewRelic なら、サービス全体の状況を
掴めるというのが、とても良い。
NewRelic APM の画面には、レスポンスタイム、スループット、ApdexScore、エラーレート、といったグラフくらいしかないので、タブレットの画面にも全部収まるのも良い。
参考: Need for Answer: NewRelicのApdexって何?
NewRelicをどう活用してるか
1.サービスの急激な変化を具体的につたえる
デプロイ直後は想定外の事態が起きやすいポイントで、サーバーのレスポンスが異常に悪くなったりしてないか、エラーレートが急上昇していないか、といった変化にできるだけ早く気づけるようにしている。
デプロイもしてないのに急にグラフが変化したら、外部要因か、ハードの問題か、といった切り分けにも役立つ。
サービスを使っていて重いとか、何か違和感と感じた時に、「なんか重くない?」とだけエンジニアに伝えるよりも、「レスポンスタイムがががが!!」「あばばばエラーレートが!!1」みたいに具体的?に伝えたほうがお互い幸せだと思う。
何か起きるものなので、何か起きたら(泣きながら)直せばいいので、何か起きてるということに迅速に気づける仕組みづくりが大事だと思う。
2.サービスの改善をグラフで具体的に分かち合う
負荷対策が効いてレスポンスタイムが向上したり、エラーの原因を潰してエラーレートが減少したときも、NewRelicのグラフが教えてくれるので、それをキャプってIRCやissueに貼って、周囲と喜びを共有したりにも使える。
3.外出時、休日はアプリが便利
New Relic for iPhone, iPad, and Android | New Relic
iOSやAndroidアプリも用意しているので、気になった時はすぐに確認できるのが良い。
New Relic for iOS and Android from Picturelab on Vimeo.
この紹介動画、大好き。
最後に
基本はエンジニアの人たちがしっかり監視してくれてるんだけど、その隙間を埋めるようなサービス監視をマネージャーもできるといいなーと思ってます。
そんな30days Album ではエンジニアを絶賛募集中です。
「がーんエラーレートが!!」とか、「やったー負荷が下がったぞー!!1」とか、一緒に、苦しみや喜び分かちあいましょう。
採用情報 | GMOペパボ株式会社