サンノゼデータセンター メールサービス遅延障害

概要

弊社サンノゼデータセンターの一部のお客様環境におきまして、日本時間の2018912()よりメール送信が遅延または中断されるサービス障害が発生いたしました。 サンノゼデータセンター以外のお客様環境には影響はありません。

この障害は既に解消されており、現在ではメール送信は正常に機能しております

このメール送信遅延障害からの復旧作業中に送信されたメールの一部が消失し、配信されませんでした。この文書はサンノゼデータセンターのお客様にこの障害によって影響のあったキャンペーンを特定する方法を詳細にご案内するためのものです。

お客様には多大なるご迷惑をおかけいたしましたことを深くお詫び申し上げます。私共は今回の障害が非常に重大な問題であると認識し、影響のあったキャンペーンの特定を支援させていただくと共に今後同様の問題の発生がないよう回避策を講じる所存です。

影響

このメール送信遅延障害の復旧作業の間にメール送信処理中に使用されるアクティブメッセージキューサービス (AMQ: Active Message Queue) の再初期化を行いました。このAMQのリスタート時にキューで待機していたメールが消失しました:

  • トリガーキャンペーンによって送信され、AMQで待機していたメールは処理されないまま、消失しました。
  • リスタート時もしくはその直前にバッチキャンペーンによって送信されたメールはリードのアクティビティとして「メールの送信」は記録されますが、「配信済みメール」が記録されない場合があります。現象は以下の2つのパターンとなります:
    1. 一部のバッチキャンペーンはすべての対象リードのメールが送信済みとなりますが、配信済みが0となります。この場合、メールは一切配信されません。
    2. それ以外のバッチキャンペーンではメールは送信済みで、かつ配信済みとなっているものとそうでない(配信済みが記録されない)ものが混在している状態となります。このように少しでも配信済みが記録されている場合はそのキャンペーンのメールはすべて正常に配信されています。

障害発生日時

  • メール送信の遅延が日本時間の2018912()の早朝(深夜帯)から発生し始めました。
  • AMQの再初期化によってメールが消失し、配信されなかった時間帯は以下の通りです:
    • 2018年9月12日(水) 4:30AM - 5:00AM JST
    • 2018年9月13日(木) 1:15AM - 1:50 AM JST
  • 問題は2018年9月13日(木) 2:30AM JST 頃に解消しました。

影響のあったキャンペーンの特定方法

スマートリスト

スマートリストを使用して、メールが消失したかどうかを確認する方法が2種類あります。一つはトリガーキャンペーンを、もう一つはバッチキャンペーンを特定します。

トリガーキャンペーンを特定

AMQが再初期化された際にトリガーキャンペーンによって送信され、AMQで待機していたメールは処理されないまま、消失しました。

以下のスマートリストはトリガーキャンペーンによって送信されたけれども、配信されずに消失したメールの対象リードのリストを返します。

スマートリストフィルタールール論理式全フィルターを使用

フィルター #1:

スマートキャンペーンのメンバー

リード: [指定のリストに存在する]  "<トリガーキャンペーン名>"

フィルター #2:

メールを送信済み

メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #3:

メール未配信
メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #4:

ソフトバウンスメールではない
メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #5:

バウンスメールではない
メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

完成しますと、以下のようなスマートリストとなります (英語版UI) :

Trigger Campaign Identification SL.png

  

バッチキャンペーンを特定

AMQのリスタート時もしくはその直前にバッチキャンペーンによって送信されたメールはリードのアクティビティとして「メールの送信」は記録されますが、「配信済みメール」は記録されない場合があります。現象は以下の2つのパターンとなります:

  1. 一部のバッチキャンペーンはすべての対象リードのメールが送信済みとなりますが、配信済みが0となります。この場合、メールは一切配信されません。
  2. それ以外のバッチキャンペーンではメールは送信済みで、かつ配信済みとなっているものとそうでない(配信済みが記録されない)ものが混在している状態となります。このように少しでも配信済みが記録されている場合はそのキャンペーンのメールはすべて正常に配信されています。

以下のスマートリストにて特定のバッチキャンペーンに対して本障害の影響があったかどうかを確認できます:

スマートリストフィルタールール論理式: 詳細フィルターを使用 [1 and 2 and (3 or 4 or 5)]

フィルター #1:

スマートキャンペーンのメンバー

リード: [指定のリストに存在する]  "<バッチキャンペーン名>"

フィルター #2:

メールを送信済み

メール: [指定の値と等しい] "<バッチキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #3:

メール配信済み
メール: [指定の値と等しい] "<バッチキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #4:

ソフトバウンスメール
メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

フィルター #5:

バウンスメール
メール: [指定の値と等しい] "<トリガーキャンペーンのメール名>"
アクティビティ日: [指定の値と等しい]  2018/09/12

完成しますと、以下のようなスマートリストとなります (英語版UI) :

Batch Campaign Identification SL.png

Japanese Date Constraint note.PNG

キャンペーンのメール送信結果の確認

スマートキャンペーンのサマリーページにそのキャンペーンによって送付されたメールの結果が確認できる「メール」タブがあります。

campaign email tab.png

影響のあったキャンペーンを特定するには、障害が発生した日付で配信済み、ハード・ソフトバウンスが0、送信済みと保留中の数が等しいかどうかをご確認ください。以下は一例です:

Campaign Email Results.png

もし、すべての送信メールが保留中の状態である場合、本障害に当たっていると判断できます。現時点でもこの状態の場合はこれらの保留中のメールが配信されることはありません。

メールの効果レポート

メールの効果レポートで送信したメールにどのような効果があったか確認できます。キャンペーンに影響があったかどうかを確認するには特定の日付、特定のメールのメールの効果レポートをご確認ください。スマートキャンペーンサマリーのメールタブの時と同様に、障害が発生した日付で送信済みと保留中のメールの数が同じ場合、本障害に当たっていると判断できます。

Email Performance Report.png

Japanese Performance report note.PNG

支援が必要な場合

もしこの障害の影響があったかどうかを確認するために弊社からの更なる支援が必要な場合はMarketoカスタマサポートhttps://support.marketo.com までご連絡ください。