의사결정나무를 이용한 이상탐지

기계학습 분야에는 이상치(outlier)를 탐지하는 다양한 알고리즘이 제안되어 있지만, 알고리즘마다 특성이 있기 때문에 이를 잘 알아두어야 문제 풀이에 적합한 기계학습 알고리즘을 선택할 수 있습니다. 이번 절에서는 데이터 기반 의사결정에 광범위하게 사용되는 의사결정나무(Decision tree)를 이용하여 이상탐지를 수행하는 방법을 설명합니다.

이상치는 정상치에 비해 매우 다른 특징을 가진 데이터를 의미합니다. 일반적으로는 이상치를 찾기 위해 정상치를 학습하고, 정상치와 달라보이는 이상치를 추출합니다.

가장 쉽고 간단하게 생각할 수 있는 방법은 통계적으로 평균과 표준편차를 구해서, 이와 크게 벗어나는 값을 이상치로 취급하는 방법입니다. 여기서 더 나아가 다차원 데이터를 취급할 때는 군집 기반의 방법론을 주로 사용합니다. 아래의 도표는 LOF (Local Outlier Factor) 알고리즘이 군집에서 멀리 떨어진 값을 이상치로 계산한 예시입니다.

이러한 기존 방법론의 가장 큰 문제는 1) 정상치를 모두 고려해야 하므로 계산 부하가 크다는 점, 2) 매번 정상치를 프로파일링해서 이상치를 계산하므로 모델을 생성하고 재활용하기 어렵다는 점입니다. Isolation Forest 기계학습 알고리즘은 기존 방법론과 다르게, 이상치 기준을 모델로 생성하는 방법론을 제시합니다.

공간분할 기반 이상탐지

아래의 그림은 2차원 데이터를 대상으로 Isolation Forest의 동작을 시각적으로 보여줍니다.

Isolation Forest 알고리즘은 랜덤하게 차원을 선택해서 임의의 기준으로 공간을 분할합니다. 군집 내부에 있는 정상치 Xi의 경우 공간 내에 한 점만 남기고 완전히 고립시키려면 많은 횟수의 공간 분할을 수행해야 하지만, 군집에서 멀리 떨어진 이상치 Xo는 적은 횟수의 공간 분할만으로 고립시킬 수 있습니다.

공간분할은 차원과 기준 값으로 표현할 수 있으므로, 여러 번의 공간분할은 의사결정나무 (Decision Tree) 형태로 표현할 수 있습니다. 정상치일수록 완전히 고립시킬 수 있을 때까지 의사결정나무를 깊숙하게 타고 내려가야 합니다. 반대로 이상치의 경우, 의사결정나무의 상단부만 타더라도 고립될 가능성이 높습니다. 이런 특성을 이용하면 의사결정나무를 몇 회 타고 내려가야 고립되는가를 기준으로 정상치와 이상치를 분리할 수 있습니다.

이런 의사결정나무를 여러 개 모아서 앙상블 모델을 만들면 왼쪽 그래프처럼 안정적인 이상지수(score)를 산출할 수 있습니다. 논문에서는 약 50개에서 100개 정도의 의사결정나무를 이용하면 이상지수가 안정화된다는 점을 언급하고 있습니다. 오른쪽 그래프는 등고선 형태로 군집의 경계에 해당하는 점들은 0.5의 이상지수를 가진다는 사실을 보여주고 있습니다. 이상지수는 0~1 범위로 정규화되므로, 일반적으로 0.5보다 크고 1에 가까울수록 이상치로 정의할 수 있습니다.

이상탐지 수행 성능

Isolation Forest는 군집기반 이상탐지 알고리즘에 비해 월등한 실행 성능을 보입니다. 군집기반 이상탐지 알고리즘의 경우, 자기 자신을 제외한 나머지 모든 인스턴스에 대한 유클리디안 거리를 계산해야 하므로 O(N2)의 수행시간이 필요합니다. 반면, Isolation Forest는 일부 데이터를 샘플링하여 의사결정나무 모델을 생성하고 이를 이용하여 이상탐지를 수행하므로 O(logN)의 수행시간이면 충분합니다.

또 하나는 정확성에 대한 부분인데, 이상탐지 분야에서 해결하기 어려운 문제는 Swamping과 Masking이라 불리는 현상입니다. Swamping은 정상치가 이상치에 가까운 경우 이상치로 잘못 분류하게 되는 현상이고, Masking은 이상치가 군집화되어 있으면 정상치로 잘못 분류하게 되는 현상입니다.

Isolation Forest는 전수 데이터를 이용하지 않고 일부 데이터만 샘플링해서 모델을 생성하기 때문에, 상대적으로 이런 오류에 강건한 특성을 가지게 됩니다. 위의 도표는 이상치 군집과 정상치 군집이 가까이 있을 때, 샘플링이 어떻게 이러한 문제를 극복하는지 시각적으로 보여주고 있습니다.

로그프레소의 활용

로그프레소에서는 기계학습을 쿼리로 수행할 수 있을 뿐 아니라, 스트림 쿼리에 이미 생성된 기계학습 모델을 배포(Deploy)하여 밀리초 이내의 실시간 이상탐지를 수행할 수 있도록 지원합니다.

예를 들어, 이상금융거래시스템(FDS)은 고객정보, 거래정보, 단말정보 등 다차원 데이터를 이용하여 이상탐지 모델을 생성하고 이를 기반으로 0.1초 이내에 실시간 탐지를 수행합니다. 아래는 실제 환경과 유사한 거래 데이터를 가상으로 생성하여 만든 모델링 데모입니다. 이 중에서 거래시각, 고객연령, 연속이체횟수 특성의 분포를 살펴보면 다음과 같습니다.

거래시각은 0-86400초 범위의 값, 연령은 0-100 범위의 값, 연속이체횟수는 0-16 범위의 값을 가지고 있습니다. anomalies 쿼리를 사용하면 서브쿼리 결과를 이용하여 Isolation Forest 모델을 즉시 생성하고 이를 이용하여 스코어링을 실행할 수 있습니다.

table transaction 
| anomalies _time, age, cnt [ table transaction ] 
| eval category = if(_score >= 0.7, "outlier", "normal")

3차원으로 시각화하면 아래와 같이 색상으로 분리된 정상 거래와 이상 거래를 확인할 수 있습니다.

위의 예시는 설명을 위해 극단적으로 단순화한 모델이며, 실제로는 수집 데이터 원본 뿐 아니라 CEP (Complex Event Processing) 기술을 통해 생성된 다양한 특성 값의 분포와 영향력을 비교하고 가공하는 과정을 거치게 됩니다.

기존의 룰/시나리오 기반 탐지 모델은 각각의 차원에 대해 임계치를 정의하고 조합했지만, 기계학습을 이용한 이상탐지는 다차원으로 데이터를 분석하고 경계면을 자동 생성함으로써 더 정교한 탐지를 수행할 수 있습니다.

레퍼런스

  • Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. "Isolation forest." Data Mining, 2008. ICDM'08. Eighth IEEE International Conference on Data Mining.
  • Liu, Fei Tony, Ting, Kai Ming and Zhou, Zhi-Hua. "Isolation-based anomaly detection." ACM Transactions on Knowledge Discovery from Data (TKDD) 6.1 (2012)

둘러보기

더보기

NTFS 포렌식

NTFS는 윈도우즈 운영체제에서 지금까지 사용하고 있는 파일시스템입니다. 파일시스템은 물리적인 디스크 공간을 논리적인 디렉터리 계층과 파일 단위로 구조화하여 사용할 수 있도록 만들어줍니다. 스마트폰이 대중화된 이후 포렌식의 분석 대상이 개인정보를 집적하고 있는 모바일 기기로 많이 이동하고 있지만 여전히 윈도우즈 운영체제는 업무에서 핵심적인 생산성 도구입니다. 악성코드에 감염되거나 정보가 유출되었을 때 호스트에서 어떤 일이 발생했는지 알아내려면 NTFS 파일시스템에 대한 이해가 필수적입니다. ## MFT: 마스터 파일 테이블 ![](/media/ko/2020-09-12-ntfs-forensic/mft-structure.png) 마스터 파일 테이블은 NTFS 파일시스템에 존재하는 모든 디렉터리와 파일에 대한 메타데이터를 유지합니다. 마스터 파일 테이블은 1024바이트 고정 길이 레코드로 구성되어 있으며, 파일 삭제 여부, 파일 크기, 디스크 할당 크기 등을 48바이트의 MFT 헤더에 담고 있습니다. 파일 이름, 접근 권한, 파일 생성/수정/접근 일시 등의 정보는 MFT 헤더 뒤에 이어지는 여러 가지의 속성 (Attribute) 에 포함됩니다. 분석에 가장 흔히 사용되는 속성은 $STANDARD_INFORMATION 과 $FILE_NAME 속성이며, 아래의 필드를 포함하고 있습니다. * 파일 이름 * 디스크 할당 크기 * 실제 크기 * 파일 생성 일시 * 파일 수정 일시 * MFT 레코드 변경 일시 * 파일 액세스 일시 * 파일 권한 * 파일 속성 (숨김, 압축 등) 파일을 삭제하더라도 마스터 파일 테이블에서 즉시 삭제되지는 않으므로, 악성코드나 중요한 증적 파일이 삭제되더라도 MFT에서 삭제 흔적을 확인할 수 있습니다. 로그프레소 포렌식의 ntfs-mft 커맨드는 아래와 같은 필드 출력을 제공합니다. * no: MFT 인덱스 번호 * file_path: 파일 경로 * file_name: 파일 이름 * file_size: 파일 크기 * alloc_size: 디스크 할당 크기 * in_use: 삭제 여부 * is_dir: 디렉터리 여부 * link_count: 하드링크 수 * created_at: 파일 생성일시 ($FILENAME 속성) * modified_at: 파일 변경일시 ($FILENAME 속성) * access_at: 파일 접근일시 ($FILENAME 속성) * mft_modified_at: MFT 레코드 변경일시 ($FILENAME 속성) * std_created_at: 파일 생성일시 ($STANDARD_INFORMATION 속성) * std_modified_at: 파일 수정일시 ($STANDARD_INFORMATION 속성) * std_mft_modified_at: MFT 레코드 변경일시 ($STANDARD_INFORMATION 속성) * std_access_at: 파일 접근일시 ($STANDARD_INFORMATION 속성) * is_readonly: 읽기전용 여부 * is_hidden: 숨김 여부 * is_system: 시스템 파일 여부 * is_archive: 보관 가능 여부 * is_device: 장치 여부 * is_normal: 일반 여부 * is_temp: 임시 파일 여부 * is_sparse: Sparse 여부 * is_reparse: Reparse 여부 * is_compressed: 압축 여부 * is_offline: 오프라인 여부 * is_indexed: 인덱스 여부 * is_encrypted: 암호화 여부 * lsn: $LogFile 시퀀스 번호 * seq: MFT 레코드 시퀀스 (레코드 재할당 시 증가) * file_ref: 파일 참조 번호 * parent_file_ref: 디렉터리 파일 참조 번호 * parent_no: 디렉터리 MFT 인덱스 번호 ## USNJRNL: 저널링 로그 MFT에서 파일 삭제를 확인할 수는 있지만 사건을 조사할 때 또 하나 중요한 부분은 삭제 시점입니다. NTFS 파일시스템은 저널링을 지원하기 때문에, 파일 변경 이력을 $Extend 폴더의 $UsnJrnl 파일에 기록합니다. ![](/media/ko/2020-09-12-ntfs-forensic/usnjrnl-structure.png) 따라서 USNJRNL 파일을 분석하면 시스템에서 언제, 어떤 파일을 대상으로 어떤 작업을 수행했는지 파악할 수 있습니다. ntfs-usnjrnl 커맨드는 아래와 같은 필드 출력을 제공합니다. * _time: 파일 이벤트 시각 * file_name: 파일 이름 * file_no: MFT 인덱스 번호 * file_ref: 파일 참조 번호 * parent_file_no: 디렉터리 MFT 인덱스 번호 * parent_file_ref: 디렉터리 참조 번호 * reason: 파일 작업 목록 * usn: 레코드 오프셋 (Update Sequence Number) 저널링 로그는 MFT를 번호로 참조하기 때문에, 아래와 같이 조인하여 완전한 파일 경로를 확보할 수 있습니다. ```query ntfs-usnjrnl USNJRNL | join file_no [ ntfs-mft MFT | rename no as file_no ] ``` ![](/media/ko/2020-09-12-ntfs-forensic/ntfs-usnjrnl-join.png) 이러한 파일 변경 이력은 간단히 통계 처리하여 아래와 같이 타임라인을 시각화 할 수도 있습니다. ```query ntfs-usnjrnl USNJRNL | explode reason | timechart span=1h count by reason ``` ![](/media/ko/2020-09-12-ntfs-forensic/ntfs-usnjrnl-timechart.png) ## 코드게이트 포렌식 문제 연습 로그프레소 포렌식 솔루션은 쿼리를 기반으로 다양한 포렌식 아티팩트를 연관 분석하는 강력한 기능을 지원합니다. 아래에서는 이전 코드게이트 2012 컨퍼런스에서 NTFS와 관련하여 출제된 문제를 어떻게 분석하는지 설명합니다. > In Energy corporate X which is located in Seoul, APT(Advanced Persistent Threat) was occurred. For 6 months, Attacker A has stolen critical information with an elaborate attack. > Attacker A exerted great effort to remove his all traces such as malicious file, prefetch, registry and event logs for the period of attacking, so it was hard for Energy Corporate X to find an attacking path. > However IU who is Forensic expert can find the traces of the malicious files Attacker A used by analyzing MFT (Master File Table). > What time malicious file was created? The time is based on Korea Standard Time (UTC +09:00) * Codegate 2012 Forensic 400 문제 파일 400점 문제이지만 풀이 방법을 알면 간단하게 접근할 수 있습니다. 문제 지문에서는 MFT를 분석 대상으로 제시하고 있고, 공격자가 프리페치를 삭제하려고 시도하였다고 언급하여 실행 파일을 암시하고 있습니다. 문제의 목표는 악성코드 생성일시를 찾는 것입니다. ```query ntfs-mft E:\codegate2012\$MFT | search file_name == "*.exe" ``` ![](/media/ko/2020-09-12-ntfs-forensic/codegate-query.png) 간단한 확장자 검색으로 휴지통에 있는 r32.exe 파일이 2012-02-23 02:39:18 KST에 생성되었고 파일 크기가 82944 바이트라는 사실을 확인할 수 있습니다.

2020-09-12

Sysmon을 이용한 엔드포인트 포렌식

우리는 많은 비용과 노력을 들여 보안체계를 구축하지만, 임직원의 피싱 메일 첨부파일 실행과 같은 작은 부주의로도 공격자가 쉽게 내부로 침투할 수 있습니다. 방화벽이나 침입방지시스템 로그는 트래픽의 흐름과 알려진 네트워크 위협들을 가시적으로 보여주지만, 단지 방화벽 로그에 남아있는 IP와 포트만을 근거로 단말에서 어떤 프로세스가 어떻게 실행되어서 어떤 경로로 전파된 것인지 사후 추적하는 것은 불가능에 가깝습니다. 최근 몇 년 사이에 안티바이러스를 보완하는 EDR (Endpoint Detection & Response)이 빠르게 도입되고 있습니다. EDR은 단말에서 발생하는 모든 행위들을 중앙 서버에 기록하고 분석함으로써, 악성코드의 감염과 확산 경로를 효율적으로 탐지하고 추적할 수 있도록 지원합니다. 예전에는 수천 대의 단말마다 발생하는 수많은 프로세스의 실행, 네트워크 연결 기록들을 DB에서 관리하는게 불가능하다고 여겨졌지만, 발전된 빅데이터 기술이 이 모든 것을 가능하게 한 것입니다. EDR 솔루션을 도입할 수 있는 여건이라면 좋겠지만, 그렇지 않은 경우에도 마이크로소프트에서 배포하는 Sysmon을 이용해서 엔드포인트 보안 체계를 강화할 수 있습니다. Sysmon은 아래와 같은 시스템 행위들을 윈도우 이벤트 로그로 기록합니다. * 프로세스의 생성 및 종료 * 드라이버 로드 * 실행 이미지 로드 * 파일 생성 시각 변조 * 네트워크 연결 * CreateRemoteThread API 사용 * RawAccessRead API 사용 * Sysmon 서비스 상태 변경 아래에서는 로그프레소 센트리를 통해 Sysmon 이벤트를 수집한 예제를 하나씩 살펴보고, 이를 어떻게 외부의 위협 인텔리전스와 연동하여 탐지 및 분석할 수 있는지 알아봅니다. ## 프로세스 실행 분석 ```query table sysmon | fields _time, event_id, level, line ``` ![](/media/ko/2017-01-19-sysmon/sysmon-process-log.png) ``` Process Create: UtcTime: 2017-01-19 14:26:38.692 ProcessGuid: {9D15E6DA-CC9E-5880-0000-0010ECBA5E33} ProcessId: 12644 Image: C:\Program Files\Git\mingw64\bin\git.exe CommandLine: git.exe status -z -u CurrentDirectory: 작업디렉터리 User: 사용자이름 LogonGuid: {9D15E6DA-****-****-****-************} LogonId: 0xA2**** TerminalSessionId: 2 IntegrityLevel: Medium Hashes: SHA256=B388344FEB34B1CB4E7566D846C85587B843181999C05BA00C82FE208CA4909B ParentProcessGuid: {9D15E6DA-CC9E-5880-0000-001080B85E33} ParentProcessId: 19180 ParentImage: C:\Program Files\Git\cmd\git.exe ParentCommandLine: "C:\Program Files\Git\cmd\git.exe" status -z -u ``` 위의 스크린샷은 프로세스 생성 및 종료 시 남겨진 이벤트 로그의 예시입니다. 아래와 같이 쿼리를 사용해서 간단히 이벤트 메시지를 파싱할 수 있습니다. ```query table sysmon | search line == "*Process Create*" | eval line = substr(line, indexof(line, ":") + 3), line = replace(line, "\n", "`") | parsekv overlay=t pairdelim="`" kvdelim=": " | eval Hashes = substr(Hashes, indexof(Hashes, "SHA256=") + 7) ``` ![](/media/ko/2017-01-19-sysmon/sysmon-process-hash.png) 많은 프로세스 실행 기록이 남아있지만, SHA256 해시를 기준으로 통계내면 400개의 실행 이미지로 요약됩니다. ```query table sysmon | search line == "*Process Create*" | eval line = substr(line, indexof(line, ":") + 3), line = replace(line, "\n", "`") | parsekv overlay=t pairdelim="`" kvdelim=": " | eval Hashes = substr(Hashes, indexof(Hashes, "SHA256=") + 7) | stats count by Image, Hashes | sort -count ``` ![](/media/ko/2017-01-19-sysmon/sysmon-process-hash-stats.png) 초기 화이트리스팅 작업을 통해 정상 이미지는 배제하고, 바이러스토탈 등 외부 인텔리전스 서비스를 연동하면 효율적으로 악성코드를 진단할 수 있습니다. 만약 특정 바이너리가 악성코드로 진단된 경우, 원본 이벤트 로그에 아래와 같이 부모 프로세스에 대한 정보가 남아있으므로 충분히 감염 경로를 역추적 할 수 있습니다. ``` ParentProcessGuid: {9D15E6DA-CC9E-5880-0000-001080B85E33} ParentProcessId: 19180 ParentImage: C:\Program Files\Git\cmd\git.exe ParentCommandLine: "C:\Program Files\Git\cmd\git.exe" status -z -u ``` 같은 악성코드 해시가 여러 대의 시스템에서 발견된다면, 이벤트 로그를 시간순으로 정렬하여 어느 호스트로부터 악성코드가 전파되기 시작했는지 분석할 수 있습니다. ## 네트워크 연결 분석 네트워크 연결 이벤트는 프로세스 ID와 이미지 경로를 포함하여 정확하게 어느 프로세스가 어떤 호스트와 통신했는지 보여줍니다. ![](/media/ko/2017-01-19-sysmon/sysmon-connection-log.png) ``` Network connection detected: UtcTime: 2017-01-19 14:54:26.027 ProcessGuid: {9D15E6DA-483F-5876-0000-00105E39B000} ProcessId: 10336 Image: C:\Program Files (x86)\Google\Chrome\Application\chrome.exe User: 사용자명 Protocol: tcp Initiated: true SourceIsIpv6: false SourceIp: 172.20.XXX.XXX SourceHostname: 출발지호스트명 SourcePort: 53563 SourcePortName: DestinationIsIpv6: false DestinationIp: XXX.XXX.XXX.XXX DestinationHostname: DestinationPort: 80 DestinationPortName: http ``` 마찬가지로 아래와 같이 쿼리를 사용해서 간단히 이벤트 메시지를 파싱할 수 있습니다. ```query table sysmon | search line == "*Network connection detected*" | eval line = substr(line, indexof(line, ":") + 3), line = replace(line, "\n", "`") | parsekv overlay=t pairdelim="`" kvdelim=": " | fields _time, ProcessId, Image, Protocol, SourceIp, SourcePort, SourcePortName, DestinationIp, DestinationPort ``` ![](/media/ko/2017-01-19-sysmon/sysmon-connection-log-parsing.png) 이번에는 [맬웨어도메인리스트](https://www.malwaredomainlist.com/)와 연계하여 분석해보도록 하겠습니다. 데모를 위해 맬웨어도메인리스트에 등록된 악성 IP 중 하나에 일부러 접속해서 이벤트를 발생시켰습니다. ```query table sysmon | search line == "*Network connection detected*" | eval line = substr(line, indexof(line, ":") + 3), line = replace(line, "\n", "`") | parsekv overlay=t pairdelim="`" kvdelim=": " | join DestinationIp [ wget url="http://www.malwaredomainlist.com/hostslist/ip.txt" | eval ip = split(line, "\r\n") | fields ip | explode ip | rename ip as DestinationIp ] | fields _time, ProcessId, Image, Protocol, SourceIp, SourcePort, DestinationIp, DestinationPort ``` ![](/media/ko/2017-01-19-sysmon/sysmon-mdl-join.png) 위의 쿼리는 wget 커맨드를 사용해서 맬웨어도메인리스트의 IP 목록을 다운로드한 후 개행문자로 분리하여 즉석에서 IP 블랙리스트 데이터셋을 생성하고 이를 로컬의 윈도우 이벤트와 조인합니다. 위의 쿼리를 로그프레소의 스트림 쿼리로 설정하면, 외부 위협 인텔리전스를 이용하여 밀리초 단위의 실시간으로 탐지 및 경보할 수 있습니다. 위에 설명한 항목들 외에도 Sysmon은 유용한 이벤트 로그들을 생성하므로, 엔드포인트에 일괄 배포하여 이벤트 로그를 실시간으로 수집하고 탐지하면 엔터프라이즈 보안 및 분석 역량을 한단계 끌어올릴 수 있습니다.

2017-01-19

레지스트리 포렌식

레지스트리는 윈도우즈 운영체제와 응용프로그램에 관련된 방대한 설정과 운영 정보가 기록된 데이터베이스입니다. 윈도우즈 운영체제 초창기에는 INI 파일을 사용했으나, 레지스트리가 도입되면서 표준화된 계층적 데이터 구조, 다중 사용자 환경 지원, 접근 권한 제어, 바이너리 포맷 파일 기반의 효율적 I/O, 타입 시스템, 트랜잭션 등을 제공하게 되었습니다. 레지스트리를 분석하면 어떤 프로그램이나 서비스가 부팅 시 자동으로 실행되는지, 어떤 프로그램을 최근에 실행했는지, 어떤 프로그램을 얼마나 오래 사용했는지, 최근 어떤 파일을 검색했는지, 어떤 파일을 열어봤는지, 어느 서버에 접속했는지, 어떤 파일을 압축했는지 등 무수히 많은 정보를 추출할 수 있습니다. 따라서 레지스트리 분석은 사고 조사 초기에 수행해야 할 중요한 단계이며, 여기에서 확인된 정보에 따라 후속 조사의 진행이 결정될 수 있습니다. ## 레지스트리 하이브 파일 레지스트리 편집기(regedit)를 통해 하나로 보이는 레지스트리의 계층적 구조는 물리적으로 여러 개의 레지스트리 하이브 파일에 분산되어 있습니다. ![](/media/ko/2020-11-01-registry-forensic/reg-hive-files.png) `%SystemRoot%\System32\config` 디렉터리에는 아래와 같은 레지스트리 하이브 파일이 존재합니다. * SAM: HKEY_LOCAL_MACHINE\SAM * SECURITY: HKEY_LOCAL_MACHINE\Security * SOFTWARE: HKEY_LOCAL_MACHINE\Software * SYSTEM: HKEY_LOCAL_MACHINE\System 또한 각 사용자 계정의 디렉터리에는 NTUSER.DAT 레지스트리 하이브 파일이 존재합니다. ## HIVE 파일 구조 레지스트리 하이브 파일은 아래와 같이 구성되어 있습니다. ![](/media/ko/2020-11-01-registry-forensic/hive-structure.png) BASE 블록 구조 ![](/media/ko/2020-11-01-registry-forensic/hive-base-block.png) HIVE BIN 헤더 구조 ![](/media/ko/2020-11-01-registry-forensic/hive-bin-header.png) 로그프레소 포렌식의 hive-file 커맨드는 아래와 같은 필드를 출력합니다. ![](/media/ko/2020-11-01-registry-forensic/hive-file-command.png) * key: 키 * type: 타입 (문자열, 이진값, DWORD, QWORD 등) * name: 값 * value: 데이터 * last_written: 마지막 기록 시각 ## 코드게이트 포렌식 문제 연습 로그프레소 포렌식 솔루션은 쿼리를 기반으로 다양한 포렌식 아티팩트를 연관 분석하는 강력한 기능을 지원합니다. 아래에서는 이전 코드게이트 2011 컨퍼런스에서 레지스트리와 관련하여 출제된 문제를 어떻게 분석하는지 설명합니다. > we are investigating the military secret's leaking. we found traffic with leaking secrets while monitoring the network. Security team was sent to investigate, immediately. But, there was no one present. > It was found by forensics team that all the leaked secrets were completely deleted by wiping tool. And the team has found a leaked trace using potable device. Before long, the suspect was detained. But he denies allegations. > Now, the investigation is focused on potable device. The given files are acquired registry files from system. The estimated time of the incident is Mon, 21 February 2011 15:24:28(KST). > Find a trace of portable device used for the incident. > The Key : "Vendor name" + "volume name" + "serial number" (please write in capitals) * Codegate 2011 Forensic 300 문제 파일 제시된 파일의 압축을 풀면 6개의 레지스트리 하이브 파일을 확인할 수 있습니다. 먼저 시스템에 마운트된 장치 정보를 추출하기 위해 SYSTEM 하이브 파일에서 MountedDevices 키를 검색하면 아래와 같이 이진값으로 된 레지스트리 데이터를 확인할 수 있습니다. ```query hive-file codegate2011\system.bak | search key == "*MountedDevices" and name == "\\DosDevices*" ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step1.png) 이 데이터를 UTF-16으로 디코드하면 아래와 같은 문자열을 확인할 수 있습니다. ```query hive-file codegate2011\system.bak | search key == "*MountedDevices" and name == "\\DosDevices*" | eval value = substr(decode(value, "UTF-16LE"), 4) ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step2.png) USB 값만 필터링해서 정규식으로 파싱하면 제조사, 모델명, 버전, 시리얼을 추출할 수 있습니다. ```query hive-file codegate2011\system.bak | search key == "*MountedDevices" and name == "\\DosDevices*" | eval value = substr(decode(value, "UTF-16LE"), 4) | search value == "*USB*" | rex field=value "Ven_(?<vendor>[^&]+)&Prod_(?<product>[^&]+)&Rev_(?<version>[^#]+)#(?<serial>[^&]+)" | eval serial = lower(serial) | fields vendor, product, version, serial, value ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step3.png) 그러나 아직 볼륨 이름과 장치를 연결한 시간을 확인하지 못한 상태입니다. 장치를 연결한 시간은 HKLM\SYSTEM\ControlSet00X\Enum\USB\VID_####&PID_#### 키의 마지막 수정 시간을 확인하면 됩니다. 아래와 같이 쿼리하면 66개의 키를 확인할 수 있습니다. ```query hive-file codegate2011\system.bak | search key == "*USB\\VID_*" | eval serial = lower(valueof(split(key, "\\"), 5)) | stats max(last_written) as last_connect by serial ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step4.png) 볼륨 이름은 HKLM\SOFTWARE\Microsoft\Windows Portable Devices\Devices 키에서 확인할 수 있습니다. 아래와 같이 쿼리하면 40개의 키를 확인할 수 있습니다. ```query hive-file codegate2011\software.bak | search key == "*Windows Portable Devices*" and name == "FriendlyName" | rex field=key "&REV_[^#]+#(?<serial>[^&]+)" | eval serial = lower(serial) | stats first(value) as volume_name by serial ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step5.png) 이 3종의 쿼리 결과를 시리얼 번호로 조인하면 원하는 결과를 한 번에 추출할 수 있습니다. ```query hive-file codegate2011\system.bak | search key == "*MountedDevices*" | eval value = substr(decode(value, "UTF-16LE"), 4) | search value == "*USB*" | rex field=value "Ven_(?<vendor>[^&]+)&Prod_(?<product>[^&]+)&Rev_(?<version>[^#]+)#(?<serial>[^&]+)" | eval serial = lower(serial) | stats count by vendor, product, version, serial, value | join serial [ hive-file codegate2011\system.bak | search key == "*USB\\VID_*" | eval serial = lower(valueof(split(key, "\\"), 5)) | stats max(last_written) as last_connect by serial ] | join serial [ hive-file codegate2011\software.bak | search key == "*Windows Portable Devices*" and name == "FriendlyName" | rex field=key "&REV_[^#]+#(?<serial>[^&]+)" | eval serial = lower(serial) | stats first(value) as volume_name by serial ] | search last_connect >= date("2011-02-21", "yyyy-MM-dd") and last_connect <= date("2011-02-22", "yyyy-MM-dd") | order volume_name, vendor, product, version, serial, last_connect ``` ![](/media/ko/2020-11-01-registry-forensic/codegate-step6.png) 이처럼 로그프레소 쿼리를 이용하여 레지스트리 포렌식 데이터를 손쉽게 분석하고 가공할 수 있으며, 재사용 가능한 라이브러리로 구축할 수 있습니다.

2020-11-01