ABCI User Group「みんなのABCI」の解散のお知らせ

ABCI User Group会員の皆さまへ


平素は、ABCI User Group「みんなのABCI」サイト(以下、本サイト)をご愛顧いただき、ありがとうございます。

この度、2026年3月末日をもちましてABCI User Group(以下、ABCIUG)は解散し、本サイトは閉鎖することになりました。


2020年6月にABCIの利用を促進する目的としてABCIUGが立ち上がり、5年半の月日が経過しました。

一方、ABCIシステムは2025年1月に「ABCI 3.0」として生まれ変わり、多くの方にご利用されています。

ABCIUGの設立の目的を達成したため、2026年3月末日をもちましてABCIUGは発展的に解散し、本サイトは閉鎖します。

今後は、「AI技術コンソーシアム 深層学習WG」として活動を一本化してまいります。


長きにわたり多くの会員の皆さまにご参加いただき、活発な交流ができましたこと、

ABCIUG事務局一同、心より感謝申し上げます。


なお、ABCIUG解散並びに本サイトの閉鎖に伴い、

登録いただいている全ての会員情報(氏名・メールアドレス等の個人情報)は、

責任をもって2026年3月末日に完全に削除いたします。

会員情報が第三者に譲渡・利用されることは一切ございませんので、ご安心ください。


突然のお知らせとなり恐縮ですが、ご理解を賜りますようお願い申し上げます。

これまでご支援・ご交流いただきましたこと、重ねて御礼申し上げます。

今後の皆さまのご活躍とご健勝を心よりお祈り申し上げます。


ABCIUG事務局

主査 高橋秀明(株式会社アシストネット)

abciug@abci.ai


Pytorchでの分散学習

投稿:hagi  
4 4543 通報 ウォッチ

1. pytorch + horovod 環境の構築手順

 

[username@es1 ~]$ qrsh -g grpname -l rt_G.small=1

[username@g0001 ~]$ module load python/3.6/3.6.5 cuda/10.1/10.1.243 cudnn/7.6/7.6.5 nccl/2.5/2.5.6-1 openmpi/2.1.6 gcc/7.4.0

[username@g0001 ~]$ python3 -m venv ~/venv/pytorch+horovod

[username@g0001 ~]$ source ~/venv/pytorch+horovod/bin/activate

(pytorch+horovod) [username@g0001 ~]$ pip3 install --upgrade pip setuptools

(pytorch+horovod) [username@g0001 ~]$ pip3 install torch torchvision

(pytorch+horovod) [username@g0001 ~]$ HOROVOD_WITH_PYTORCH=1 HOROVOD_GPU_OPERATIONS=NCCL HOROVOD_NCCL_HOME=$NCCL_HOME pip3 install --no-cache-dir horovod

(pytorch+horovod) [username@g0001 ~]$ deactivate

[username@g0001 ~]$ exit


2. 実行スクリプト(例)

 

#!/bin/sh

#$ -l rt_F=2

#$ -l h_rt=1:23:45

#$ -j y

#$ -cwd

source /etc/profile.d/modules.sh

module load python/3.6/3.6.5 cuda/10.1/10.1.243 cudnn/7.6/7.6.5 nccl/2.5/2.5.6-1 openmpi/2.1.6 gcc/7.4.0

source ~/venv/pytorch+horovod/bin/activate

NUM_NODES=${NHOSTS}

NUM_GPUS_PER_NODE=4

NUM_GPUS_PER_SOCKET=$(expr ${NUM_GPUS_PER_NODE} / 2)

NUM_PROCS=$(expr ${NUM_NODES} \* ${NUM_GPUS_PER_NODE})

MPIOPTS="-np ${NUM_PROCS} -map-by ppr:${NUM_GPUS_PER_NODE}:node -mca pml ob1 -mca btl ^openib -mca btl_tcp_if_include bond0"

mpirun ${MPIOPTS} python3 /<path to directory>/pytorch_mnist.py

deactivate

 

コメント

    他のやり方 Yamada さん: 2020-10-01 18:50:39

    torch.distributed.launchを使うやり方もあるのでしょうか

    通報

    torch.distributed.launchの利用について hagi さん: 2020-10-06 08:56:23

    torch.distributed.launchは、現在サポートしていません。

    通報

    torch.distributed.launchは使える? at_yana さん: 2020-10-28 11:14:27

    先日開催された ABCIミニキャンプ 後のQ&Aにおいて、
    NVIDIAのメンターの方から、torch.distributed.launchを使う話が
    出てましたので、使えるように思います。
    ※私自身、検証スキルがないので的外れでしたらすいません。
     どなたかお分かりになる方、ぜひコメントお願いします!

    通報

    torch.distributed.launchモジュールが使えるようになりました! hagi さん: 2021-01-27 17:02:22

    資源タイプrt_Fを指定してノード占有でジョブを実行する場合には、qrsh、qsubコマンド実行時のオプション指定により、計算ノードへのSSHログインを有効にすることができるようになりましたので、torch.distributed.launchモジュールが使えるようになりました。

    参考ですが、qrsh コマンドの -inherit オプションを使用した場合の実行例を以下に示します。

    バッチジョブスクリプト(run.sh)
    -----------------------------------------------------
    #!/bin/sh

    #$ -l rt_F=4
    #$ -cwd
    #$ -j y

    source /etc/profile.d/modules.sh
    source /etc/profile.d/uge.sh

    module load python/3.6/3.6.5
    source pytorch/bin/activate

    export OMP_NUM_THREADS=20
    export NGPU_PER_NODE=4

    # launch on slave nodes
    node_rank=1
    for slave_node in `cat $SGE_JOB_HOSTLIST | awk 'NR != 1 { print }'`; do
    qrsh -inherit -V -cwd $slave_node python -m torch.distributed.launch --nproc_per_node $NGPU_PER_NODE --nnodes $NHOSTS --node_rank $node_rank --master_addr `hostname` try2.py &
    node_rank=`expr $node_rank + 1`
    done

    # launch on master node
    node_rank=0
    python -m torch.distributed.launch --nproc_per_node $NGPU_PER_NODE --nnodes $NHOSTS --node_rank $node_rank --master_addr `hostname` try2.py

    # finalize
    wait
    exit 0
    -----------------------------------------------------

    バッチジョブ投入
    -----------------------------------------------------
    $ qsub -g grpname run.sh
    -----------------------------------------------------

    *ジョブ実行中の計算ノードへのSSHアクセスについては、下記をご参照ください。
    https://docs.abci.ai/ja/appendix/ssh-access/

    通報

    ログインしてコメントを書く

    関連する投稿