共通計算機システムの UNIX サーバマシンへの移行

高エネルギー物理学研究所

データ処理センター

八代茂夫

1. はじめに

高エネルギー物理学研究所(KEK)共通計算機システム(kekcc)は, 高エネルギー実験のシミュレーションおよびデータ解析, 加速器物理のための3次元電磁場解析および軌道解析, 素粒子物理学の現象論の理論計算, ブースタ利用実験および放射光実験のデータの解析のために設置されている.

この kekcc ,メインフレームの Hitachi M-880 から, 25ノード, 75CPU UNIX サーバマシンにダウンサイジングされ, 1996年1月に運用が開始された. 新しい kekcc , ネットワークにより接続した UNIX サーバマシン, 磁気ディスクおよび磁気テープライブラリからなるデータサーバ, そして環境サーバ(X端末サーバ, プリントサーバ, メイルサーバ)から成る分散処理システムである.

表1 各クラスターのサーバ部分の構成.
Cluster name Server Machine Disk Tape Library
Central 6 Hitachi3500 170GB 5TB
BSF exp. 4 H9000/735 50GB -
PS exp. 4 Hitachi3500 300GB 10TB
JLC exp. 3 Hitachi3500 200GB 2TB
Int. Coll. exp. 1 Hitachi3500 50GB 3TB
SAD (accel.) DEC AlpherServer8200 55GB -
MAFIA (accel.) 1 H9000/K400 50GB -
Theory 2 H9000/K400 80GB -
Photon Factory 1 H9000/K400 50GB -
Compt. Center 2 RS6000/590 20GB -

2. メインフレームから UNIX への移行の準備

UNIX への移行の準備として, kekcc の中心的なユーザである PS 実験グループのユーザのための UNIX 環境を, 1992年から構築して R&D を兼ねたユーザサービスを行なってきた. この R&D 環境で, データ処理センターでは UNIX マシンでのユーザサービスのための環境の構築と, 高エネルギー実験の解析のために必要な計算機環境の整備を研究してきた. 一方ユーザの側では, データ解析システムを UNIX 用への変更をおこなった. その中での問題点がユーザから提起され, 相互に解決方法を検討してきた.

経過の概要は以下の通りである.


1 共通計算機システム(kekcc) の概略図


3. 新システム構築の設計思想

システムは, まず研究部毎の独立した運用のできるシステム構成とすることを前提とした. そのために CPU や磁気ディスクなどのハードウエア資源を独立させること, およびユーザ管理を独立に行うことにした. 全体として 10個のクラスターシステムを構築した.

クラスターシステムの分散処理環境は, DCE(Distributed Computing Environment) という新しい技術により実現させた. DCE OSF (Open Software Foundation)が開発している, 大規模な分散環境を実現するためのソフトウエアパッケージで, これを各計算機メーカが移植して製品としている.

DCE , ネットワーク上の分散システムを実現させることを目的にしているソフトウェアで, マルチベンダー環境であること, セキュリティの確保を実現させていること, および WAN レベルを含む大規模な分散処理システムを実現できる, 唯一の技術であることから採用した.

KEK の計算機システムでは, 実験データ等を保管するためのデータサーバは, 重要な位置を占める. 共通計算機システムでは, 総容量20TB Sony 社製の磁気テープライブラリと, それを管理するソフトウェア JP1/OmniStorage (日立製) を導入した.

4. DCE

DCEの導入のために, ユーザ環境の構築および整備, DCE のパラメータの設定, 分散ファイルシステムのデザインを行った.

DCE 環境の構築にあたっては, DCE の処理および管理の基本的な単位である cell のデザインが重要である. kekcc では研究部毎の独立した運用を実現させるために, クラスター毎に cell を作成した. クラスター間の通信は cell 間通信によって行っている.

DCE の運用を開始して, いくつかの問題が生じ, これを解決してきた. すべてのユーザが, 直ちに DCE 環境に login するように, integrated login 機能を日立に提供していただき, 組み込んだ(95/12). ユーザがパスワードやシェルを簡単に変更できる DCE対応のコマンドを作成していただき, 組み込んだ(96/1). ユーザのよく使用するrlogin については,パラメータを変更してDCE の認証を得られるようにした(96/1). ftp および rsh/rcp については, DCE 対応のモジュールを日立に提供していただき, 組み込んだ(96/2 - 96/3).

分散環境のファイルシステムは, DCE の1つのアプリケーションである DFS(Distributed File Service) により構築した. ユーザ用のすべてのファイル(ホームディレクトリ, ライブラリ, データファイル)を DFS でアクセスするようにした.

DFS では, 書き込みをしている partition でファイルシステムフルになった場合に, OS DFS とのインターフェイスがないために, ユーザプログラムはエラーになっているのを知らずに書き続けるという問題があった. この問題に関して解決方法を検討中である.

5. 磁気テープライブラリ

磁気テープライブラリ装置は, Sony PetaSite を2セット導入した. テープドライブは, ヘリカルスキャン方式の DTF ドライブを搭載している. 性能は 12MB/s(Sustain), 20MB/s(Burst)である. テープのサイズは 254x145x25mm , 1本の容量は 42GB である.

2 磁気テープライブラリのドライブ数と容量
ライブラリ DTFドライブ数 テープ本数
#1 8 drives 230volumes 9TB
#2 12 drives 345volumes 14TB

磁気テープライブラリは JP1/OmniStorage によりアクセスする. このソフトウェアは, ドイツ HP 社が開発した MO ベースの HSM(Hierarchical Storage Management, 階層型ファイルシステム) が基になっている. 日立製作所が Sony 社製のテープライブラリのためのデバイスドライバ等を開発した. 更に KEK からの要望である, 磁気テープをユーザプログラムから直接アクセスする機能を付加した.

運用を開始して明らかになった大きな問題は, 磁気テープ上に migrate out されているファイルを DFS 経由でアクセスする場合に, JP1/OmniStorage が処理している最中に, DFS のクライアントの待ち時間に達してしまい, サーバとの接続が切れたとして処理してしまうことであった. これは JP1/OmniStorage に特有な問題でなく, HSM DFS のもとで使用する場合には遭遇する未解決の問題であった. 共通計算機システムの運用に多大な影響があるので, 検討の結果, 日立では JP1/OmniStorage DCE とのインターフェイスを設けて対策することになり, 対応版が 199610月末に提供された.

6. さいごに

大規模な処理をUNIXサーバマシンで行う計算機環境を構築するために, DCE, HMSといった新しい技術を導入した. 多分 DCE, 日本では最大規模での導入であり, 世界的にも最大規模クラスの導入になるのではないかと思われる. このように,現在普及しつつある, まだ発展途上といってもよい状態にある技術を導入したことにより, また我々も利用するためのノウハウを十分につかみきれずにいたために, いろいろなトラブルに遭遇した. 最も大きかったものはDFS "time out" であるが, これは原因がいくつかあった. 1に当初導入したDCEのバージョンが多くの問題をかかえた古いバージョンであったこと, 2DFS性能を上げようとして設定したパラメータがかえって問題を起こしたこと, 3DFS HMSとのインターフェイスがないことがあった. これを11つ検討し, 解決してきたが, トラブルのためにユーザには多大な迷惑をかけ, 我々も対応に追われたが, 最新の技術を導入するという貴重な経験をした.

なお, 本稿および技術研究会当日のOHP原稿はWWWで参照できる.


謝辞

本システムの構築に関わった, データ処理センターの方々, 日立製作所の方々に感謝します. 特にDCEの導入については, 佐々木節助手からの助言が有用であった.