삼전동해커

K - Nearest Neighbor KNN - 특정공간 내에서 K-NN은 새로 들어온 입력값이 어떤 그룹의 데이터와 가장 가까운가 분류하는 알고리즘 - k는 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정함 - k의 default는5, k의 값이 짝수일 경우 동점이 되어 하나의 결과를 도출할 수 없으므로 홀수를 사용함 장점 - 높은 정확도 - 단순하며 효율적(모델을 미리 생성하지 않음) - 상위 k개의 데이터만 활용하기 때문에 오류 데이터가 결과에 미치지 않음 - 데이터 분산에 대한 추정을 만들 필요 없음 단점 - 데이터가 많을수록 처리 시간 증가 - 모델이 미리 생성되지 않아 새로운 데이터에 대한 학습 시간보다 분류/예측 시간이 더 걸림 거리 기준(유클리드 제곱 거리) - 새로운 데이터와 k개의 데이..

머신러닝 2023. 1. 10. 14:39

1주차 - 기계학습개론

머신러닝 알고리즘 지도 학습 - 정답지(Labeling)이 있는 데이터를 대상으로 학습하는 과정 분류(classification) 예측,회귀(Regression) 비지도 학습 - 정답지(Labeling)이 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 결과를 예측하는 과정 - 답을 맞히는 용도로 사용하진 않음 차원축소(Dimension Reduction) 군집화(Clustering) 연관성 규칙 발견(Association Rule) 데이터 전처리 정규화(Normalization) feature마다 스케일이 크게 다를 경우의 전처리 방법 - Min-Max scaling 데이터의 최소값은 0, 최대값은 1로 변환 - 표준화(Standardization) feature마다 해당 값의 단위가 다를 때, 대상 ..

머신러닝/기계학습개론 2023. 1. 10. 13:36

python json2html 사용하기

#!/usr/bin/python from json2html import * import json import os import sys json_dir = "/home/crypto/report" json_list = os.listdir(json_dir) #json 리스트들을 반복문으로 가져와 변환하기 for file in json_list: data_path = os.path.join(json_dir,file) data = open(data_path,'r')#파일 열기 json_data = data.read()#파일 읽기 foo = json.loads(json_data)#파일 로드하기 html = json2html.convert(foo)#파일 변환 utf = html.encode('utf-8')#utf-8..

파이썬 2022. 11. 8. 12:57

[web] user-agent 확인하기

브라우저가 사용하는 user-agent를 확인하고 생성해주는 사이트를 소개한다. https://www.useragentstring.com/ UserAgentString.com - unknown version www.useragentstring.com 사이트에 접속하면 브라우저의 user-agent를 보여주니 필요할 경우 복사해서 사용하면 된다.

웹 해킹/웹 공부 2022. 11. 4. 17:34

[python] cp 명령어로 여러 디렉토리 파일을 하나에 옮기기

import sys import os dir = "/home/crypto/.cuckoo/storage/analyses" report = "/home/crypto/report" dir_list = os.listdir(dir) for re_dir in dir_list: report_num = os.path.join(dir,re_dir) script = "cp -b %s/reports/report.json ~/report/%s.json" % (report_num,re_dir) try: os.system(script) print("script actiavted") except FileNotFoundError: print("File Not Found.") continue cuckoo가 샘플을 실행한 후 repor..

파이썬/파이썬 공부 2022. 11. 4. 17:24

[cuckoo] m2crypto 0.24.0 설치 에러

cuckoo를 실행하면서 m2crypto가 없어서 오류가 발생하는 경우가 있다. 분명 documentation에는 m2crypto를 설치하라고 했지만 당장에 필요가 없어서 설치를 안했다. 먼저 libssl1.0-dev와 swig를 설치해야 하는데 sudo apt-get install libssl1.0-dev swig ubuntu20.04 기준 libssl1.0-dev는 이제 지원을 안해주는 것 같다. swig는 잘 된다. sudo nano /etc/apt/sources.list add deb http://security.ubuntu.com/ubuntu bionic-security main sudo apt update && apt-cache policy libssl1.0-dev sudo apt-get in..

이거 왜 안돼? 2022. 11. 3. 17:39

[cuckoo] cuckoo sandbox api 이용하기

https://cuckoo.readthedocs.io/en/latest/usage/api/ REST API — Cuckoo Sandbox v2.0.7 Book Following is a list of currently available resources and a brief description of each one. For details click on the resource name. /cuckoo/status GET /cuckoo/status/ Returns status of the cuckoo server. In version 1.3 the diskspace entry was added. The disk cuckoo.readthedocs.io cuckoo sandbox에서 rest api를 활용해..

프로젝트 2022. 11. 3. 16:59

파일 다운로드(HTTP) 패킷 분석

아래에 구글 드라이브로 공유한 패킷 파일은 악성코드를 다운받는 패킷을 캡쳐한 것이다. 해당 파일에서 추출한 파일은 절대 실행시키지 말자! https://drive.google.com/file/d/1sd_kytqBFKbRx-ZFFXrnOZuwhBm_pppI/view?usp=sharing bin.pcapng drive.google.com 패킷을 wireshark로 열어보면 다음과 같이 열린다. 전체 패킷은 다운로드 과정 외에도 필요없는 패킷이 포함되어 있다. 이 중 다운로드와 관련된 패킷만 보기 위해서 File -> Export Objects -> HTTP로 확인해보면 다음과 같이 여러 페이지와 bin.sh를 받은 파일들을 확인할 수 있다. 이 중 bin.sh를 클릭해보면 전체 패킷 중 파일을 다운로드한 패..

웹 해킹/웹 공부 2022. 10. 31. 15:31

머신러닝 파라미터와 하이퍼 파라미터

파라미터 파라미터는 일반적인 함수에서는 사용자의 전달값을 함수에서 사용할 수 있게 값을 받아주는 매개변수를 의미한다. 머신러닝에서도 비슷하게 사용자가 전달한 데이터로부터 모델 내부에서 결정되는 변수이다. 하이퍼 파라미터 파라미터가 주어진 데이터에 의해 모델이 결정하는 값이라면 하이퍼 파라미터는 사용자가 결정하는 값이다. SVM에서 C값과 같이 모델에서 사용자가 직접 설정하는 값이다.

머신러닝 2022. 10. 3. 13:55

머신러닝 원핫 인코딩

단어 집합 단어 집합은 서로 다른 단어들의 집합이다. book과 books는 비슷해보이지만 단어 집합의 의미에선 다른 단어이다. 이렇게 중복을 허용하지 않고 모든 단어를 모아 놓은 것을 단어 집합이라고 한다. 이 단어들을 가지고 숫자(사실은 벡터)로 바꾸는 방법을 배운다. 원핫 인코딩을 하기 전에 먼저 단어 집합을 만들어야 한다. 중복 없이 다른 단어 500개가 모여서 문장을 만들면 크기가 500인 단어 집합이 만들어진다. 이 집합에 1부터 500까지의 인덱스를 부여한다. 고유한 인덱스를 가진 단어들을 벡터로 바꿔야한다. 이렇게 만들어진 벡터 중 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인덱스는 0을 부여한다. 케라스에서 지원하는 to_categorical을 이용해 원핫인코딩을 사용할 수 있다..

머신러닝 2022. 9. 30. 11:06

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

티스토리툴바