Slurm command
อันนี้เป็นตัวจัดการงานของ hpc นะครับ อันนี้เอาไว้กันลืมของผมเองละกัน เพราะส่วนมากไม่ค่อยได้ใช้เอง นอกจากติดตั้งโปรแกรม กับดูแลจัดการระบบซะมากกว่า ซึ่งจะมีการใช้ร่วมกับ easybuild ด้วยนะครับ
- scontrol show node ไว้ดูข้อมูลต่างๆ ของ ComputeNode ว่าชื่ออะไร สเปค และโดนจองทรัพยากรไปมากน้อยแค่ไหนนะครับ
- srun -w ComputeNode --pty bash เอาไว้เข้าเครื่อง ComputeNode นะครับ อันนี้แล้วแต่ว่าตั้งกันว่าอะไร หรือจะใช้ sudo ssh ComputeNode ก็ได้ถ้าเรามีสิทธิ์
- srun -G x -w ComputeNode --pty bash เอาไว้เข้าเครื่อง ComputeNode แบบเรียกใช้ gpu โดย x อาจจะเป็น 1 รึ 2 แล้วแต่ว่าเครื่องเรามีการ์ดจอกี่ตัวนะครับ ซึ่งของ nvidia จะใช้คำสั่ง nvidia-smi เพื่อเรียกดูการทำงาน
- squeue -u UserName ดูงานเฉพาะของ UserName ที่เจาะจง
- scontrol show job ดูการจองทรัพยากรของงานทั้งหมด
- scontrol show job 7777 ใช้ดูการจองทรัพยากรเฉพาะงานนั้น โดยสมมุติว่า 7777 คือ JOBID ที่ดูได้จากคำสั่ง squeue
- scancel 7777 ยกเลิกการทำงานของ JOBID 7777
- scancel -u UserName ยกเลิกการทำงานทั้งหมดของ user UserName
- scancel -u UserName --state=pending ยกเลิกการทำงานของ UserName ที่กำลังรอทรัพยากรเพื่อทำงาน
ความคิดเห็น
แสดงความคิดเห็น