Slurm command

                 อันนี้เป็นตัวจัดการงานของ hpc นะครับ อันนี้เอาไว้กันลืมของผมเองละกัน เพราะส่วนมากไม่ค่อยได้ใช้เอง นอกจากติดตั้งโปรแกรม กับดูแลจัดการระบบซะมากกว่า ซึ่งจะมีการใช้ร่วมกับ easybuild ด้วยนะครับ

  1. scontrol show node ไว้ดูข้อมูลต่างๆ ของ ComputeNode ว่าชื่ออะไร สเปค และโดนจองทรัพยากรไปมากน้อยแค่ไหนนะครับ
  2. srun -w ComputeNode --pty bash เอาไว้เข้าเครื่อง ComputeNode นะครับ อันนี้แล้วแต่ว่าตั้งกันว่าอะไร หรือจะใช้ sudo ssh ComputeNode ก็ได้ถ้าเรามีสิทธิ์
  3. srun -G x -w ComputeNode --pty bash เอาไว้เข้าเครื่อง ComputeNode แบบเรียกใช้ gpu โดย x อาจจะเป็น 1 รึ 2 แล้วแต่ว่าเครื่องเรามีการ์ดจอกี่ตัวนะครับ ซึ่งของ nvidia จะใช้คำสั่ง nvidia-smi เพื่อเรียกดูการทำงาน
  4. squeue -u UserName ดูงานเฉพาะของ UserName ที่เจาะจง
  5. scontrol show job  ดูการจองทรัพยากรของงานทั้งหมด
  6. scontrol show job 7777 ใช้ดูการจองทรัพยากรเฉพาะงานนั้น โดยสมมุติว่า 7777 คือ JOBID ที่ดูได้จากคำสั่ง squeue
  7. scancel 7777 ยกเลิกการทำงานของ JOBID 7777
  8. scancel -u UserName ยกเลิกการทำงานทั้งหมดของ user UserName
  9. scancel -u UserName --state=pending ยกเลิกการทำงานของ UserName ที่กำลังรอทรัพยากรเพื่อทำงาน

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

โปรโมชั่นเน็ต TOT

โน๊ตบุ๊ค acer switch sa5-271 แบตบวม T^T

Blog นี้สร้างเพื่อ?