2022年7月5日火曜日

auの通信障害分析

7月2日の深夜1時半ごろからずっと、5日までまる3日ほど、携帯電話の「音声通信」の部分が停止するというアクシデントが発生している。
このブログを書いている時点でも、まだつながらないという人がたくさんいるという。
登山に携帯電話は必須、しかも緊急通報のために無くてはならないものである。

昨日KDDIは現状について会見を開いて説明していたが、私の乏しい知識で分析すると以下のようになる。

① 問題の発生は「モバイルコア」ネットワークの中のルーター交換をきっかけに発生

auでは定期的にルーターを新品に交換しているらしい。新しいルーターにデータを流した時にVoLTE交換機にデータが行っていない(15分間発生した)ことが判明したので、切り戻し(古いルーターに経路を戻す)作業をしたところ、輻輳(アクセスの集中)が発生した。

ルーター交換をきっかけに、いったん止まっていたデータが一気にVoLTE交換機に流れ込んだ。
VoLTE交換機は分散クラスター構成(負荷分散クラスタ)になっていたと思われるが、18台あるうちの6台が過剰信号を発していたことが後に判明。

② 加入者DBでも問題が発生

VoLTE交換機から来る加入者の位置情報登録の大量のデータがDBの接続系統で問題を起こした(DBは最大接続数やデータ量が制限されているのが普通)。
携帯電話は何もしなくても、50分に一回、加入者の位置情報をDBに登録するという(しらなかった)。
ルーターが正常に働かなかったので、多量のデータが蓄積し、一気にトランザクション(一連の処理)が発生。データベースにかなり負荷がかかったのだと思われる。
このため、処理に長い時間がかかることになった。
DBサーバーは普通負荷がかかると処理を他のサーバーに分散するはず。
それでも間に合わないほどの多量のデータが来たのだと思う。

auの回線数は3500万件もあるという。これだけ大規模なネットワークで問題が発生したら、たいへんなことになる、ということが今回あらためて分かった。
ネットワークのややこしさを少し知っているので、「止められない」システムを運用するのは気苦労が多いことが多少理解できる。

ネットワークが大きくなればなるだけ複雑になり、メンテナンスもたいへんだ。
携帯各社はこぞって「加入者」を増やすことで利益を上げようとやっきになっている。
しかも行政は「携帯電話料金を安くせよ」と言う。

さまざまな「負の」要因が重なって、今回の事故は起きている。
したがって「だれが悪い」ということは言えないのではないか?