ノードのフリーズについて
皆さん、こんにちは。チャールズ・ホスキンソンです。いつも暖かい日差しが降り注ぐコロラドから生放送でお届けしています。今日は2023年1月24日です。週末の多くの方が寝ている時間帯にメインノードが予期せずシャットダウンし、約2分間ネットワークが停止するという珍しい問題が発生しました。
問題を把握してからすぐに私は自分を含めた4人でチームを結成しました。私達はログを全て調べたりして原因の特定を試みました。結論としては、今回の問題はいくつかの事柄が組み合わさって引き起こされたものであるということ。一過性で再度起こる可能性は低いということです。プログラムのどこでエラーが発生したかは分かっています。しかし、いくつかの事柄が組み合わさっていることから、問題の引き金を特定することは難しいです。チームにできることは正確な原因を知ることではなく、何が原因でノードが失速したのかを解明することです。
分散型のシステムは時にバグを発生させます。どんな分散型システムでもバグは5、6年に1度の割合で発生します。理由もシステムが大規模であればあるほど複雑です。
大規模な分散型システムを構築するときのポイントは、「レジリエンス(回復力)」と「セルフヒーリング(自己治癒力)」です。これらのポイントを踏まえていれば、どのような事態が発生してもシステムは回復します。
カルダノのノードはフリーズ(バグ)が発生したらシステムが自己回復するように設計されています。私はシステムが設計された通りに動いてくれことを高く評価しています。ノードは期待された役割を果たしてくれました。
私は今回の問題が発生した直後、真夜中にも関わらずに駆けつけてくれたメンバーに大変感謝しています。彼らは私と一緒に情報収集に全力を尽くしてくれました。また、SPOの皆さんにもお礼が言いたいです。カルダノのノードを稼働させ続けてくれて本当にありがとうございます。
近日中により詳しい調査報告ができると思います。
コメント