KDDIは10日、au向け高速データ通信規格LTE(FDD-LTE)によるデータ通信サービス「4G LTE」における一連の通信障害を受けて都内にてプレス向け説明会を開催し、障害の原因についての詳細な内容と、今後の対策について明らかにした。
今回説明された内容は、先月29日および30日に立て続けに起きた4G LTEおよび、それに伴う音声通話・SMSなどの通信障害についての詳細な原因と、今後の対策に関してで、5月中に実施する予定だった設備投資額にさらに70億円を追加し、総額300億円を4月に起こった通信障害も含めた対策に投資することが明らかにされた。
また、これらの一連の通信障害の対象となったユーザーには、お詫びとして利用料から700円を割り引く措置が取られることになった。
説明会では、KDDI代表取締役社長の田中孝司氏が登壇し、まず、障害を起こしたことに対し、陳謝した後、障害の原因について技術的に詳しく説明を行った。なお、田中氏は元々技術畑出身であり、今後の対策についても障害対策本部を設置し、自ら先頭に立って抜本的な改善を図っていくとしている。
説明では、一連の通信障害についての内容をまとめた後、原因と今後の対策について述べられた。まず、一連の通信障害については、今年4月27日、続く5月29日、そして、5月30日の合計3回に渡ってau向け4G LTEのデータ通信が利用しづらい状況、つまり、利用できない状況になったというもの。また、5月29日においては、4G LTEの通信障害に起因した音声通話やSMS送受信にも影響が及び、これらのサービスも利用できない状況になっていた。
この4月27日に起きた障害直後の4月30日に行われた決算説明会において障害の原因であったソフトウェアの改善や復旧時間の短縮、予期せぬ障害への対応強化、設備の分散収容化に向けた設備投資を前倒しで進め、技術・運用体制の抜本的な改善を図っていくとしていた矢先に5月29日と30日の障害が起こったことを説明。
さらに、これら一連の通信障害は、東京・多摩に設置されたデータセンター内にある同じLTE基地局制御装置(MME)に起因することが原因であったため、多摩のMMEが管轄する東京都および神奈川県、山梨県の一部エリアにいたユーザーが影響を受けたという。
KDDIではネットワーク網を障害対策などで2重化することで冗長化しているが、4月27日では、MMEでフラグメンテーション処理に関わるリセットバグが方系統に発生し、内在するリカバリー処理のバグを誘発した結果、MME両系統が断たれたという。
このリカバリー処理のバグは、断片化されたパケットが60バイト以下の場合に、ネットワーク・インターフェイスカードが再起動してしまうという不具合で、今回の一連の障害が起きたことで初めて明らかになったのだという。また、断片化された60バイト以下のパケットをまれなケースとして3つ受信したため、方系統に2つ、両系統で合計4つのネットワーク・インターフェイスカードのうちの3つまでが同時に使えなくなってしまったとのこと。
これによって、方系統の残った1つに処理が集中し、処理量が一定量を超えると発生するリカバリー処理のバグを誘発し、MMEの両系統が断たれ、結果的にネットワークがシステムダウンした形になったとしている。
一方、5月29日では、4月27日に起きた障害原因を解消する修正ファイルを方系統のMME01が断たれ、MME01処理をMME02に引き継ぐ処理において一部輻輳が発生し、これによって内在するリカバリー処理バグを誘発し、MME両系統が断たれたという。
さらに、5月29日の音声通信障害については、MME障害によって移動機(端末)がLTEから3Gへつなぎ直し、加入者情報管理システム(HSS)が大量の大量の接続通知を受信、そのためMMEと一部のHSS(2台)の間が輻輳し、HSSへの選択接続機能を持つ加入者管理ノード(SLF)にてMMEとの間が輻輳したHSS向け接続の一部が正常に行われず、一部加入者の音声発着信が困難または不可、SMSの配信遅延が発生したということだ。
なお、この音声通信障害について内容確認に時間がかかったことについては、コールログをすべて解析するなど、全容を把握するためとしている。
続く5月30日の障害では、4月27日の障害原因を解消する修正ファイル再投入の準備中にMMEの呼処理カードにおける新たなバグが発生し、MME方系統の特定プロセスが過負荷になったために断たれ、MMEをもう方系統に引き継ぐ処理において一部輻輳が発生し、これによって再び内在するリカバリー処理バグを誘発して、結果、MME両系統が断たれることになったのだという。
これらから一連の通信障害の課題として、フラグメンテーション処理に係るリセットバグへの対処がクリティカルだとの認識で、それ以外として運用品質の向上・復旧時間の短縮、ハードウェア品質向上、切り替え時間の瞬間的高負荷耐性の向上といった内容が挙げられ、現在は、安定的に運用が行えている状況であることが説明された。
これらを踏まえ、スマートフォンや4G時代に見合った“機能安全”の確立として、ソフトウェアおよびハードウェアの品質向上をベースに、運用品質の向上および容量設計思想・指針の確立を行なっていくとした。
推進体制として、LTE基盤強化対策本部を設置し、本部長として田中社長が自ら陣頭指揮を取るとのこと。また、今後の具体的なスケジュールも公開され、MMEの設備投資などとして5月15日に230億円を追加することを発表していたが、さらに70億円を追加して、今期中に総額300億円を追加投資することが明らかにされた。これによって、MMEは今年8月末までに50台に、9月末には58台に増設予定で、これまでの2系統を3系統にするほか、処理分散や収容基準の見直しなども行われるということだ。さらに、監視体制強化も実施し、LTE監視要員をこれまでの20名から42名に6月1日から増員するとしている。
一方で、ユーザーに対しては、一連の障害に伴ってデータ通信および音声通信を利用できなかった人には、お詫びとして月々の利用料から700円(税抜)を原産する対応を行うことを発表している。なお、KDDIでは、対象となるユーザーは、各障害の影響範囲となった60万を少し超えるとしている。
■関連リンク
・エスマックス(S-MAX)
・エスマックス(S-MAX) smaxjp on Twitter
・S-MAX – Facebookページ
・一連のLTE通信障害の原因と対策について | 2013年 | KDDI株式会社






















コメント