摘要: El software evoluciona para adaptarse a los requisitos cambiantes al agregar nuevas funcionalidades y mejorar la estabilidad a través de la corrección de errores. El linaje de software estudia las relaciones evolutivas entre software. En particular, el linaje del programa estudia la evolución de un programa a lo largo del tiempo en sus diferentes versiones. El código fuente de un programa manifiesta su evolución. Desafortunadamente, muchos programas de software se distribuyen como ejecutables sin código fuente, por ejemplo, malware y programas comerciales estándar (COTS). Sin embargo, el código binario de un programa también refleja su evolución a través de versiones, por ejemplo, código binario agregado, eliminado y actualizado. Por lo tanto, para calcular el linaje, podemos aprovechar la similitud del código binario mediante la comparación de dos o más piezas de código binario y capturar sus diferencias. Al igual que los programas benignos, las familias de malware también evolucionan con el tiempo. No obstante, la inferencia de linaje de malware tiene tres desafíos adicionales que los enfoques de linaje existentes no abordan. Primero, el desarrollo de malware generalmente comprende un paso adicional que no está presente en el desarrollo de software benigno. Una vez que una nueva versión de una familia de malware está lista, los autores del malware empaquetan el ejecutable resultante para ocultar su código binario original. El único código binario directamente visible en una muestra de malware empaquetada es el código para desempaquetar el código binario original. En segundo lugar, el proceso de …