금융사기 탐지를 위한 기계학습 알고리즘

사기 행위는 기업과 소비자에게 매년 수십억 달러의 비용이 듭니다. 이러한 활동은 ML을 사용하여 비상상적인 패턴을 식별함으로써 탐지할 수 있습니다. 규칙 기반 탐지는 비용과 시간이 많이 듭니다. 또한 광범위한 그물망을 드리우므로 합법적인 거래가 잘못 표시될 수 있습니다.

이상 탐지 알고리즘

이상 탐지 알고리즘은 ML 기반 모델로 트랜잭션 데이터의 이상 징후를 식별할 수 있습니다. 이러한 모델은 사기를 나타낼 수 있는 패턴이나 정상적인 행동으로부터의 이탈을 식별하고 의심스러운 트랜잭션이나 추가 조사를 위한 계정을 플래그로 지정하는 등의 작업을 수행할 수 있습니다.

머신 러닝 알고리즘은 클라우드 컴퓨팅 플랫폼에서 즉시 사용할 수 있는 소프트웨어로 제공되는 경우가 증가하여 이를 사용할 수 있는 개발자가 크게 증가하고 있습니다. "머신 러닝의 민주화"라고 불리는 이러한 추세는 사이버 보안, 사기 방지 및 고객 서비스와 같은 비즈니스 기능의 효과를 높이는 데 도움이 될 수 있습니다.

의사 결정 트리, 로지스틱 회귀 및 랜덤 포레스트와 같은 지도 기계 학습 모델을 사용하여 신용 카드 사기를 탐지할 수 있습니다. 이러한 모델은 높은 정확도를 달성하기 위해 대규모 데이터 세트에서 훈련될 수 있습니다. 그러나 모델이 노이즈를 과적합시키지 않고 실제 사기를 놓치지 않도록 데이터 세트의 균형을 맞추는 것이 중요합니다. 이는 관련 없는 데이터를 제거하고 특징을 추출하여 수행됩니다. 점 이상 징후는 가장 간단한 형태의 이상 징후로, 단일 관측치가 다른 데이터 점에 비해 특이합니다.

지도학습

지도 학습 알고리즘은 레이블이 지정된 데이터를 분석하여 올바른 출력 태그에 새로운 입력 변수를 할당하는 함수를 찾습니다. 예를 들어 스팸 필터는 과거 메시지를 분석하고 메시지가 스팸인지 여부를 정의하는 패턴을 식별하는 방법을 학습합니다. 그런 다음 이러한 지식을 미래의 메시지에 적용하여 빠르고 정확하게 분류할 수 있습니다.

지도 학습 모델의 예로는 사기 탐지 시스템과 추천 엔진이 있습니다. 후자는 지도 학습을 사용하여 사용자 행동을 분석하고 구매 내역을 통해 관련 제품과 서비스를 식별합니다. 지도 학습은 또한 이미지 분류를 뒷받침합니다. 예를 들어, 얼굴 인식 알고리즘은 소셜 미디어 이미지에서 사람을 태깅할 수 있습니다.

지도 학습은 기계 학습에 대한 인기 있는 접근 방식이며, 보이지 않는 새로운 데이터의 출력을 정확하게 예측하는 능력을 포함하여 많은 이점이 있습니다. 그러나 레이블이 지정된 대규모 훈련 데이터 데이터 세트가 필요하므로 수집하는 데 시간과 비용이 많이 들 수 있습니다. 또한 과적합 및 과소적합과 같은 문제에 취약합니다. 과적합은 모델이 훈련 데이터에서는 잘 수행되지만 테스트 데이터에서는 제대로 수행되지 않을 때 발생하고, 과소적합은 모델이 너무 광범위하게 일반화하고 데이터에서 중요한 패턴을 인식하지 못할 때 발생합니다.

비지도 학습

비지도 학습에서는 레이블이 지정된 입출력 쌍이 없는 원시 데이터에 대해 모델을 학습시킵니다. 이는 데이터 세트 내의 고유한 패턴과 관계를 발견하는 것을 목표로 합니다. 이 기계 학습 알고리즘의 하위 범주는 클러스터링, 차원 축소 및 이상 탐지 작업에 유용합니다.

예를 들어, 이미지 분석과 자연어 처리 알고리즘은 종종 유사성에 기초하여 이미지의 다른 특징 또는 단어 그룹을 식별하기 위해 감독되지 않은 학습을 사용합니다. 이러한 그룹화는 사진에서 고양이 또는 개를 식별하는 것과 같은 분류 목적으로 사용될 수 있습니다. 감독되지 않은 학습은 또한 온라인 소매 웹사이트의 "이것을 산 사람, 역시 산 사람" 섹션에 일반적으로 표시된 "자주 함께 산" 관계와 같은 데이터 세트 내에서 일반적인 발생을 찾는 데 인기가 있습니다.

비지도 학습은 데이터 세트의 이상치 또는 변칙적인 행동을 감지하는 데 특히 효과적입니다. 사용자는 주어진 데이터 세트의 정상적인 패턴에서 벗어난 비정상적인 이벤트를 찾을 수 있습니다. 비지도 학습 알고리즘은 고객 세분화, 타겟 마케팅 캠페인을 위한 구매자 페르소나 프로필 생성, 데이터 전처리 및 기능 엔지니어링 지원에도 널리 사용됩니다.

뉴럴 네트워크

많은 연구자들이 사기 탐지를 위한 다양한 알고리즘을 개발하려고 노력했습니다. 어떤 연구자들은 지도 학습을 사용했고 다른 연구자들은 지도되지 않은 방법을 사용했습니다. 가장 유망한 지도되지 않은 방법 중 하나는 신경망입니다.

이 방법에서는 데이터 세트를 모델에 입력한 다음 시스템이 트랜잭션의 사기 여부를 예측합니다. 알고리즘은 데이터를 사용하여 기존의 통계 및 기계 학습 방법이 놓칠 수 있는 숨겨진 패턴과 이상 징후를 식별합니다.

네트워크는 각각 가중치와 편향성을 가진 일련의 층으로 구성됩니다. 각 입력은 각각의 가중치를 곱한 다음 다음 층으로 전달됩니다. 만약 한 층의 출력이 임계값을 초과하면, 그것은 "발사"하고 정보를 다음 층으로 전달합니다.

그런 다음 네트워크는 중복 항목을 제거하고 각 항목 쌍 간의 거리를 계산하는 등 데이터에 대한 일련의 작업을 수행합니다. 이를 통해 가장 가능성이 높은 항목 쌍을 찾을 수 있으며, 이를 사용하여 트랜잭션이 사기인지 여부를 판단할 수 있습니다.

의사결정 나무와 앙상블 방법

의사 결정 트리는 강력하고 널리 사용되는 머신 러닝 알고리즘으로 목표 변수를 예측하는 데 사용할 수 있습니다. 이해하고 해석하기 쉽지만 과적합되기 쉬울 수 있으며, 이는 훈련 데이터에 너무 밀접하게 적응하고 새로운 데이터에 대해 잘 수행되지 않는다는 것을 의미합니다.

이 문제를 극복하기 위한 한 가지 방법은 여러 기본 모델을 하나의 예측 모델로 결합하는 앙상블 방법을 사용하는 것입니다. 가장 일반적인 앙상블 방법 중 하나는 랜덤 포레스트인데, 랜덤 포레스트는 의사 결정 트리 분류기 모음을 사용하여 예측을 수행합니다.

랜덤 포레스트를 구축하려면 먼저 훈련 데이터와 튜플(또는 레코드)을 사용합니다. 그런 다음 각 속성에 대해 특정 속성을 가진 튜플의 샘플을 무작위로 선택합니다. 그런 다음 트리의 각 노드에 대해 일련의 특성(예: 엔트로피, 지니 지수, 분류 오류, 정보 획득 및 견인 기준)을 사용하여 해당 지점에서 분할할지 여부를 결정합니다. 그런 다음 결정 트리에 "투표"되어 최종 예측이 결정됩니다.

지원 벡터 시스템

지원 벡터 머신은 분류 및 회귀에 사용할 수 있는 지도 학습 알고리즘의 한 종류입니다. 그들은 고차원 특징 공간에서 클래스를 분리하는 최적의 선 또는 초평면을 찾음으로써 작동합니다. 최적의 분리 마진은 각 클래스에서 가장 가까운 데이터 포인트 사이의 거리를 조사하여 결정됩니다. 알고리즘은 큰 특징 공간에서 이 최적의 분리 마진을 찾고 가장 가까운 데이터 포인트를 결정합니다(지원 벡터라고 함).

계산 효율을 높이기 위해 원래의 유한 차원 입력 데이터는 커널 함수 표시 스타일 k(x,y)라는 함수를 사용하여 더 높은 차원의 특징 공간에 매핑됩니다. 선형, 2차, 방사형 기저 함수(RBF), 시그모이드 등 많은 커널 함수가 존재합니다.

SVM은 고차원 공간에서 매우 효과적이며 특징의 차원이 매우 클 수 있는 텍스트 분류 및 감정 분석에 특히 유용합니다. 또한 학습 데이터의 일부만 의사 결정에 사용되기 때문에 메모리 효율적입니다. 이를 통해 과적합을 방지하고 모델이 새로운 데이터 세트에 잘 일반화되도록 할 수 있습니다.

소소한 잡학다식