1) Généralités

Les Systèmes SP (Scalable PowerParallel) sont constitués d’un ensemble de systèmes RS 6000 montés en armoire, appelés nœuds. Il y a 128 connecteurs sur un système RS 6000 SP. Un noeud fin occupe un connecteur, un nœud large occupe 2 connecteurs et un nœud haut, quatre.

Chaque nœud SP dispose de sa mémoire, de son système d’exploitation de connecteurs et de disques. Un réseau haut débit, appelé SP switch (avec un débit de 480 Mo/s maximum) permet de relier les nœuds entre eux. Le système SP utilise le logiciel PSSP (Parallel System Support Programs) pour contrôler son environnement.

Le numéro de node se calcule de la manière suivante :
node_number = (frame_number -1) x 16 + slot_number

 

2) La Control Workstation (CWS)

Les systèmes SP utilisent une station de contrôle nommée CWS (Control WorkStation) pour gérer, surveiller et maintenir la frame SP et ses nœuds.
La CWS (nœud 0) doit être un RS/6000 utilisant AIX.

Les fonctions de la CWS sont : le contrôle et la gestion du hardware, le contrôle et la gestion du software, les services de boot et d’installation, la configuration centrale via SDR database (smitty enter_data).

Les « supervisor card » des nœuds sont chaînées avec la « supervisor card » de la frame qui utilise le lien série (RS-232) pour faire transiter le flux d’informations hardware vers la CWS. Les informations concernant l’administration système utilisent une connexion ethernet.
 

3) Principe Monitoring System

Comme éléments de la cws, nous pouvons lister :

processus

  • hardmon

– responsable du dialogue avec le hardware

– transmet les commandes au hardware

– reçoit les changements d’états en provenance du hardware

  • splogd

– enregistre les changements d’états des nœuds dans un journal /spdata/sys1/spmon/hwevents

sous-systèmes

  • hats    sous-système de topologie et surveillance du réseau
  • hags    sous-système de synchronisation et d’échange entre les nœuds
  • haem    sous-système de gestion des évènements

arrêter / relancer les démons HA
syspar_ctrl -R

arrêter les démons HA
syspar_ctrl -D

démarrer les démons HA
syspar_ctrl -A

vérifier l’activation des groupes de services HA

lssrc -g haem
lssrc -g hats
lssrc -g hags

 

4) Parallel System Support Programs (PSSP)

PSSP est une sur-couche d’AIX permettant l’administration des systèmes SP et qui est accessible via perspectives (management des taches système par manipulation d’objets graphiques).

# export DISPLAY=@IP:0
# perspectives &

 

5) Utilisation de kerberos

Les frames RS 6000 SP autorisent la configuration de 3 mécanismes d’authentification :
– standard (.rhosts)
– Kerberos v4
– Kerberos DEC v5

Kerberos est un démon qui autorise une communication sécurisée entre la station de contrôle et ses différents nœuds à l’aide d’un ticket d’authentification.

k4list : permet de connaître la validité d’un ticket

k4init root.admin : initialisation d’un ticket d’authentification
pwd = nom de la cws

k4destroy : suppression des tickets dans le cache

Les programmes qui utilisent kerberos : perspectives, spmon, rsh, rcp, sysctl, hmmon, hmcmds, hardmon, s1term

fichiers remarquables
/etc/krb.conf : fichier de configuration
/etc/krb.srvtab : fichier des services utilisés par kerberos
/etc/krb.realms : fichier du royaume (configuration du domaine)

si problème kerberos, vérifier :
– date (- de 5 minutes de décalage entre le client et le serveur)
– /var (kerberos ne peut pas utiliser sa base si /var full)
– la présence des démons (kerberos, kadmind)
– la présence des tickets (# k4list)

 

6) Commandes

AIX – SP2

 Commandes  Description
hmcmds [options] command frame:slot | node | all commande de contrôle du hardware
# hmcmds off 1 arrête électriquement le nœud 1
# hmcmds reset 1,5,7-15 reset les nœuds 1, 5 et 7 à 15
s1term frame slot initialise une connexion via le lien série sur un nœud (l’authentification kerberos doit être valide)
# s1term -w 3 1

^x pour sortir d’une session RW
^c pour sortir d’une session read only

connexion série en RW
hmmon [-G][-q][-Q][-r|-s][-v var_nlist][-f file_name|slot_spec] gestion des frames et switchs
# hmmon -G -s -Q 1:0
spmon [-query[-Monitor][-long]|-connect host_name| -Global|-help|-key{normal|secure|service}|-Key|-Led| -power{on|off}|-reset| -mux{i|1|2|3}|-open|-diagnostics] [[-target]target_value…] utilitaire de gestion de la frame et des nœuds
# spmon -power off node5
# spmon -d série de diagnostics
# spmon -L frame1/node5 LEDS du nœud 5
spled [-G][-n title][-p][-r pollrate][-b background color][-l][-h] informations sur les codes LED d’un nœud
# export DISPLAY=@IP:0
# spled &
splstdata {-A|-n|-s|-b|-a|-u|-v |-g |-h|-i|-d|-x} [-G][{start_frame start_slot {node_count|rest}|-N node_group|-l node_list}] fournit des informations sur les données de la base SDR (smitty list_data)
# rlogin cwsname -l username
# splsdata -n
# s1term -w FrameID SlotID
ou
# spmon -open nodex
Procédure pour se connecter à une console via une CWS
# more /etc/SDR_dest_info nom de la station de contrôle + @IP à partir d’un nœud

Procédure de prise de DUMP sur nœud SP2

 Commandes  Description
# rlogin cws_name -l username se connecter sur la cws
# splstdata -n trouver slot/node/frame
# export DISPLAY=@IP:0 exporter son display
# spled & lancer spled
# spmon -reset nodeX
# sysdumpdev -L forcer le dump du nœud X
# smitty dump

Copy a System Dump from a Dump Device to a File
Copy Dump image to /var/adm/ras/dump_file_copy

# snap -ac création de /tmp/ibmsupt/snap.pax.Z

DUMP status code

0c0    The dump completed successfully
0c1    An I/O error occurred while taking the dump
0c2    A user-initiated dump is in progress
0c4    The dump device was too small but the dump may still be usable. If zero bytes are written and 0c4 is displayed, it means the dump device was large enough but the system was hung and not able to initiate a dump
0c5    An internal error occurred while taking the dump
0c6    Prompts you to make the secondary dump device available
0c7    The dump facility is waiting for a response from the NFS (Network File Server)
0c8    No dump device is defined
0c9    A system-initiated dump is in progress
0cc    The dump facility has switched to the secondary dump device