摘要:La identificación eficiente de fallas de hardware y software ensistemas paralelos y distribuidos todavía sigue siendo un desafío en loscada vez más prolíficos sistemas decentralizados de estos tiempos. El diagnóstico de fallas en sistemas tiene que ver con la detección de todoslos nodos defectuosos en un conjunto de cientos (o quizá miles) de unidadesinterconectadas. Esto se logra mediante un minucioso examen de la colecciónde los resultados de las verificaciones realizadas por los nodos de acuerdoa un modelo de verificación en particular. Un examen así de detallado tieneuna complejidad no polinomial y puede ser presentado como un problema deoptimización combinatoria. En este artículo se emplea la Optimización Basadaen Mallas Dinámicas (Dynamic Mesh Optimization, DMO), para detectar unidadesde fectuosas en sistemas diagnosticables. El método propuesto representa las soluciones potenciales como vectores binarios y explota el conocimiento específico del problema para lidiar con soluciones no factibles. El análisis empírico confirma que el enfoque basado en DMO supera en rendimiento atécnicas existentes en cuanto a la velocidad de convergencia y los requerimientos de memoria, convirtiéndose así en un enfoque viable para el diagnóstico en tiempo real de fallas en sistemas de largo alcance.
其他摘要:The efficient identification of hardware and software faults in parallel and distributed systems still remains a challenge in today's most prolific decentralized environments. System-level fault diagnosis is concerned with the detection of all faulty nodes in a set of hundreds (or even thousands) of interconnected units. This is accomplished by thoroughly examining the collection of outcomes of all tests carried out by the nodes under a particular test model. Such task has non-polynomial complexity and can be posed as a combinatorial optimization problem. In this paper we employ Dynamic Mesh Optimization (DMO) to detect faulty units in diagnosable systems. The proposed method encodes the potential solutions as binary vectors and exploits problem-specific knowledge to cope with infeasible individuals. The empirical analysis confirms that the DMO-based scheme outperforms existing techniques in terms of convergence speed and memory requirements, thus becoming a viable approach for real-time fault diagnosis in large-size systems.
关键词:Fault diagnosis; input syndrome; dynamic mesh optimization; invalidation model; comparison model;Diagnóstico de fallas; síndrome de entrada; optimización basada en mallas dinámicas; modelo de invalidación; modelo de comparación