-
정보
SCP-3334: 말 그대로 10억 개의 밈
저자: PandoraNuker
원작: http://www.scp-wiki.net/scp-3334
역자: rinkaru
파일명: SCP-3334-adv.png
저자: Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus
라이선스: CC BY 3.0
출처: https://arxiv.org/abs/1312.6199
파일명: SCP-3334-nn.png
추가 정보: Neural net diagram image was generated from a python script in the open-source machine learning library Caffe from the Berkeley Vision and Learning Center using the schematic of GoogLeNet (replicated by BVLC with help from Szegedy from a paper by Google and some universities), and then modified.
일련번호: SCP-3334
등급: 타우미엘
특수 격리 절차: SCP-3334-1의 일차 인스턴스는 제15기지 데이터센터에 있는 수백개의 서버 디스크에 저장하며, 이차 원격 복제본은 제19기지와 제64기지에 보관한다.
암호화된 형태의 SCP-3334-1의 사용은 오직 프로젝트 MEDUSA에서 개발된 기계학습 모델의 학습 및 검증을 목적으로만 허가된다. SCP-3334-1에 대한 다른 용도의 접근 요청은 SCP-3334에 대한 HMCL 관리자 또는, 격리 실패나 MEDUSA 오작동 상황에서 MTF 뮤-4 (“디버거”) 팀장의 승인을 필요로 한다. 암호화되지 않은 SCP-3334-1에 대한 모든 접근은 금지된다.
SCP-3334-1이 포함된 서버는 은폐되어 오직 기지 데이터센터 네트워크에만 연결된다. 매 2주마다, 제15기지의 일차 카피는 저장 매체의 전달을 통해 제19기지와 제64기지의 이차 복제본과 동기화해야 한다.
SCP-3334-2의 복사본은 제15기지, 제19기지, 제49기지, 제64기지, 제77기지, 제81기지의 서버 디스크에 보관하며, 유사한 절차로 물리적 방법을 통해 매 1주마다 동기화해야 한다. 아울러 프로젝트 MEDUSA는 재단의 도구, 루틴 및 운영과 같은 많은 부분에서 사용되고 있으나, SCP-3334-2 자체는 프로젝트 MEDUSA의 서비스로서의 소프트웨어(Software as a Service; SaaS) 중앙 집중식 배포 모델을 통해서만 로컬 접속이 가능하다. 이는 재단 내부 사용자가 MEDUSA에 요청을 보낼 시, MEDUSA가 상기한 데이터센터에서 SCP-3334-2를 로컬로 처리하여 격리를 유지함을 의미한다.
SCP-3334 격리팀, 프로젝트 MEDUSA 직원 및 SCP-3334 HMCL 관리자가 허가한 프로젝트 공동 작업자들 중의 승인받은 인원만이 SCP-3334-2에 직접 접근할 수 있다. SCP-3334-2의 임시 사본은 시각 밈 및 인식재해(visual memetic and cognitohazards; VMC 재해) 작업을 위한 표준 규약이 준수되는 한 프로젝트 MEDUSA의 개발 작업을 위해 로컬 데스크탑 컴퓨터에서 사용할 수 있다. SCP-3334-2의 모든 요소는 시각화를 금지한다.
재단 확장형 파일 시스템 (Foundation Scalable File System; FSFS)과 scipDB:
SCP-3334-1와 SCP-3334-2의 인스턴스는 SCP-3334-1의 보안, 무결성 및 가용성을 보장하기 위해 scipDB 시스템의 소프트웨어 테이블에 저장한다. scipDB 시스템은 많은 수의 서버에서 실행되도록 재단 내부에서 개발한 분산 noSQL 다차원 데이터 맵 소프트웨어로 대용량의 민감한 또는 위험한 재단 내부 데이터를 저장한다. 이는 뛰어난 가용성, 내결함성 및 확장성을 가진 구조화된 데이터 저장 시스템으로 여러 서버에서 데이터를 복제하여 데이터 손실을 방지하고 처리량을 늘리며, 가십 규약(gossip protocol)으로 오류를 감지하고 항엔트로피 머클 트리로 오류로부터 복구를 수행한다. SCP-3334-1에 대한 특수 격리 절차는 가용성과 무결성보다 안정성을 우선 순위로 하며, SCP-3334-1 데이터 손실이나 손상을 어느 정도 허용함으로서 비허가 접근의 가능성을 줄인다. 이를 위해 SCP-3334-1을 저장하는 scipDB 테이블은 복제 계수가 표준치보다 2 낮고 일부 scipDB 일관성 기능을 비활성화한다. SCP-3334-2의 정확성 및 가용성은 재단의 운영과 직결되어 있기 때문에 표준 복제 계수와 모든 일관성 기능을 사용하도록 설정한다.
scipDB 테이블은 프로젝트 MEDUSA의 통상적인 작업자에게 적합한 데이터 읽기 및 추가 기록을 위해 최적화된 분산 및 탈중앙화 파일 시스템인 재단 확장형 파일 시스템(Foundation Scalable File System; FSFS) 상에 구축한다. 비허가 접근을 막기 위해 최신 버전의 파일 수준 256 비트 AES 암호화를 저장된 SCP-3334의 모든 인스턴스에 대해 적용한다.
규약 3334-10-켐펠렌:
규약 10-켐펠렌의 이행을 위해 50명의 D계급 인원들이 할당되며, 필요에 따라 정기적으로 교체한다. 이들에게 요구되는 사항은 정상적인 시각, 의식 및 인간 문화와 사회에 대한 기본적인 경험과 지식뿐이다. SCP-3334 격리팀은 효율성을 위해 이전의 사고나 실험으로 인해 다른 프로젝트에서 효용을 잃었으나 이러한 요구 사항을 최소한으로 충족시킬 수 있는 인원을 필요로 한다.
규약 10-켐펠렌은 인간 피험자를 fMRI 스캐너를 통해 잠재적 시각 밈 및 인식재해에 노출시켜 변칙성을 검증한다. 잠재적 VMC 재해는 프로젝트 MEDUSA에서 기록하거나 재단 현장 팀에 제출될 수 있다. 검증된 변칙 VMC 재해는 SCP-3334-1로 지정되며 프로젝트 MEDUSA에 사용된다. 규약 10-켐펠렌에 사용된 D계급 인원에게는 실험이 끝난 후 기억소거제를 처방한다.
규약 10-켐펠렌을 폐기하고 SCP-3334-1에 학습 및 검증 데이터의 자동 추가를 위해 D계급을 사용한 시도는 사건 3334-1 등의 MEDUSA 오작동 사건들을 발생시켰다. SCP 재단의 방대한 규모로 인해 VMC 재해를 탐지하는 주요 수단으로서 D계급을 사용하는 건 현실적으로 불가능하다. 따라서 이 규약은 현재의 프로젝트 MEDUSA에서 사용할 수 있는 잠재적 학습 및 검증 데이터를 수동으로 검증하는 보조적인 수단으로서 현재 보존되어 있다.
프로젝트 MEDUSA:
프로젝트 MEDUSA는 분석학부(Department of Analytics)가 비변칙적이고 현대 기술의 범위 내에서 기계학습 기술을 통한 시각 밈 및 인식재해(VMC 재해)의 탐지를 목적으로 하는 자동화 시스템의 구축을 위한 재단 내부적 프로젝트이다.
프로젝트 MEDUSA는 현재 커맨드 라인 밈 탐지 유틸리티, Anansi, Shelob 및 Aragog 재단 웹 크롤러, Giulianna 이미지 분석 소프트웨어, SCRAMBLE 고글, [편집됨], 이외의 수많은 SCP의 격리에 사용되는 VMC 재해의 탐지가 필요한 많은 도구, 루틴 및 작업에서 사용되고 있다.
프로젝트 MEDUSA는 고급 기계 학습 알고리즘(현재로서는 순환 심층 Q 신경망의 앙상블)을 사용한다. 높은 수준에서, 이 알고리즘은 SCP-3334-1의 VMC 재해와 일반적인 이미지를 훈련 예제로서 받아들이고 이를 구분할 수 있도록 스스로를 발전시킨다. 충분한 훈련을 거치면 새로운 사례(이미지)에 대해 VMC 재해인지의 여부를 예측할 수 있다. 이러한 의미에서 이는 약인공지능(weak AI)이며 의식의 존재 없이 특정 작업에서 스스로를 향상시킬 수 있다. 프로젝트 MEDUSA는 의식을 지닌 인공지능, 즉 강인공지능(strong AI)을 사용하거나 개발하지 않는다. 그러한 연구는 이 프로젝트의 범위를 벗어난다.
MEDUSA 앙상블에서 단일 신경망에 대해 생성된 다이어그램.
범례: 적색 (Convolution), 주황색 (Pooling), 청색 (ReLu/Softmax), 보라색 (Fully Connected), 녹색
(LSTM)
인공지능 기법을 사용하여 인식재해를 식별하기 위한 초기의 노력은 서포트 벡터 머신(Support Vector Machine; SVM)의 개선에 초점을 맞췄으며, 이는 컨볼루션 신경망이 스스로 분류 정확도를 크게 향상할 때까지 계속되었다. 또한 비디오 및 비정적 시각 인식재해를 분석하기 위해 장단기 메모리(Long-Short Term Memory; LSTM) 레이어를 추가하여 네트워크를 순환시킬 수 있도록 하였다..
밈 재해의 탐지는 알고리즘의 식별 뿐만 아니라, 이미지의 내용과 그 내용이 가진 개념과의 관계를 이해할 필요가 있었기 때문에 특히 난해했다. 그러나 과거의 연구와 결합하여, 심층 강화학습으로 이를 이룩해 냈다. 심층 강화학습의 이론적인 유연성은 두 개의 국소적인 프로그램이 아닌 하나의 심층 신경망에서 시각 밈과 인식재해를 모두 감지할 수 있게 해주었다. 이 개발로 인해 프로젝트 CASSANDRA가 구축되었고, 이는 프로젝트 MEDUSA로 이어졌다(부록 3334-1을 참고하라).
MEDUSA는 현재 앙상블로의 범주화를 통해 분산 및 예상 일반화 오차를 줄이고 실제 성능을 향상시키기 위해 순환 심층 Q 신경망의 앙상블을 사용하고 있다. 앙상블의 각 네트워크는 다이어그램에 표시된 대로 정책 네트워크와 가치 네트워크라는 두 개의 하위 네트워크로 분기된다. 정책 네트워크에는 40개, 가치 네트워크에는 30개의 레이어가 있으며 모든 레이어에는 정규화를 위한 드롭아웃(dropout)이 적용된다. 네트워크는 가중치가 확률적 구배 강하(stochastic gradient descent; SGD)와 역전파(backpropagation)로 갱신되는 동안 탐사 및 개발 단계에서 $\epsilon$를 어닐링(annealing)하는 $\epsilon$-탐욕 학습 전략을 사용하여 학습된다. 추가적인 하이퍼파라미터 사양에 대한 정보는 필요에 따라 제공된다.
사건 3334-1의 결과로 인해, 주요 구성 요소 분석 및 계단식 분류기를 사용하여 입력을 전처리하여 적대적인 입력을 식별 및 제거하고 MEDUSA 모델의 악의적인 조작 및 악화를 방지한다.
학습 속도, 손실 함수, 활성화 함수, 학습률 감퇴/탄력 파라미터, 영향력 초기화, 드롭아웃 정규화, 또는 신경망 구조를 포함하되 이에 국한되지 않는 MEDUSA 모델 하이퍼파라미터에 대한 임의의 차위 변경 사항은 검토 및 승인을 위해 프로젝트 MEDUSA 조정 팀에게 제안되어야 한다. 조정 팀은 현재 자동 조정 알고리즘을 이용하여 대부분의 하이퍼파라미터를 결정한다.
기존 MEDUSA 모델에 대한 중대한 변경 사항은 프로젝트 MEDUSA 감독관에게 공식 제안서로 제출해야 한다. 제안된 수정안은 모든 주요 프로젝트 MEDUSA 팀의 심사를 거치며 일반화 오차, 완전 회귀 테스트, 그리고 SCP-3334-1의 데이터를 사용하는 10겹 교차검증 정확도(10-folds cross-validation)에 대해 입증될 수 있는 신뢰 범위로 수학적 검증을 충족해야 공식적으로 구현할 수 있다.
매 2주마다, 현재의 MEDUSA 기계학습 모델은 최근의 VMC 재해를 반영하기 위해 SCP-3334-1의 새로운 교육 데이터에 대한 재훈련을 받는다. 또한 프로젝트 MEDUSA 팀은 SCP-3334-1에서 가져온 유효성 검사 데이터 세트에서의 실행을 포함한 완전 회귀 테스트를 수행하며, 이 테스트의 통과엔 99.9%의 분류 정확도가 요구된다. 새 모델이 통과되면 SCP-3334-2는 적절하게 업데이트되고 백업되며, 마지막으로 알려진 기능 커밋은 재단 내부 코드베이스 버전 제어 시스템에 태그된다. 모델 비대화 및 실성능 저하의 방지를 위해 격주 단위를 넘어서는 모델의 재확인에는 프로젝트 MEDUSA 감독관의 승인이 필요하다.
활성화된 MEDUSA 모델의 성능은 실제 정확도를 위해 모니터링된다. 권장되는 운영 정확도는 99.9%이다. 이 정확도가 90% 미만으로 떨어질 경우 MEDUSA 오작동 사태가 공표된다. 이 경우 모델의 매개 변수는 SCP-3334-2의 마지막 버전으로 되돌려지고 코드베이스는 마지막 태그가 붙은 커밋으로 복원된다. 문제가 즉시 해결되지 않으면 프로젝트 MEDUSA 팀은 MTF 뮤-4 ("디버거")를 호출해야 한다. 지원이 불가능한 상황이 장기간 이어질 경우 SCP-3334 격리 팀은 임시로 프로젝트 MEDUSA를 대체하여 규약 10-켐펠렌을 수행하기 위해 1000명까지의 D계급 인원을 요청할 수 있다. 그러나 재단 활동 전반에 걸친 VMC 재해 탐지를 위한 요구사항의 양과 시간 민감성, 또한 공공 생활에서의 인터넷의 편재성 및 속도 등을 감안할 때 프로젝트 MEDUSA는 중요한 기반 요소임에도 무기한 중단의 잠재적 영향은 알려져 있지 않다. 재단의 자동 VMC 재해 탐지 기능의 손실 또는 미흡으로 인해 LV-0 '베일이 벗겨지다' 시나리오가, 중대한 격리 실패나 변칙적 VMC 재해의 확산이 발생할 경우 다양한 K급 세계멸망 시나리오 중 하나가 발생할 수 있다.
설명: SCP-3334는 프로젝트 MEDUSA의 구현에 필요한 다양한 변칙적 데이터이다.
SCP-3334-1은 규약 10-켐펠렌을 통해 수집된 1564288274개의 변칙적 시각 밈 및 인식재해(VMC 재해)이다. 이 데이터 세트는 원본 VMC 재해의 변형 및 변환을 비롯한 데이터 증가 기법을 사용하여 인위적으로 증량되었다. SCP-3334-1의 약 90%가 학습 자료로 지정되어 있으며, 프로젝트 MEDUSA에서 기계학습 모델을 훈련하는 예제로 사용된다. 나머지 10%는 유효성 검사 데이터로, 테스트 중의 실제 정확도를 예측하는 데 사용된다. 개별 이미지는 SCP-3334-1-#으로 적절하게 구분된다.
SCP-3334-2는 프로젝트 MEDUSA의 신경망 모델에 사용된 수치적 내부 가중치다. 이 가중치는 신경망이 자신에게 주어진 입력 이미지를 재해로 분류하는지에 대한 여부를 결정하고, 훈련 및 학습 중에 신경망에 의해 수정된다. 기계학습 연구의 최근 결과는 컨볼루션 신경망의 중간 레이어 내에서의 계층적 표현의 학습을 보여주며, SCP-3334-2를 잠재적 시각 밈/인식재해로서 지정 및 격리를 정당화한다.
부록 3334-1: 20██/██/██, 심층 강화학습의 새로운 기술과 여러 분류의 시각적 위험 분류를 통합하는 능력에 대한 최근 문헌을 고려하여 분석학부 이사관은 프로젝트 CIRCE과 프로젝트 ODIN을 시각 밈과 인식재해에 대한 자동 탐지 시스템을 개발하는 프로젝트 CASSANDRA 하나로 통합하라 지시하였다. 이전에 SCP 데이터베이스나 변칙 개체 목록에 산재된 VMC 재해의 상당 부분을 하나의 세트로 통합하여 SCP-3334라는 고유 명칭을 부여하였다.
부록 3334-2: 20██년 ██월 ██일, 제15기지에서 SCP-████와 관련된 중대한 격리 실패가 발생하여 개발자 ██명이 사망하거나 무력화되었으며, 그중 ██명은 프로젝트 CASSANDRA 또는 SCP-3334의 격리에 관련되어 있었다. 프로젝트 CASSANDRA의 테스트 팀장 토레스 박사는 실종된 상태다. 이런 유능한 인력의 막대한 손실은 인적 자원과 기술 인력의 충원을 위해 외부 기업체 및 대학으로부터 인원을 모집한다는 전례 없는 결과를 초래했다.
프로젝트 CASSANDRA의 감독관은 다수의 신입 사원 입사를 용이하게 하기 위해 CASSANDRA 코드베이스 전체를 오픈소스 Theano 기계 학습 플랫폼으로 이전한다는 초기의 제안을 거부했다. 그러나 재단 인원들과의 토의를 거친 끝에 프로젝트를 위해 기존의 오픈 소스 플랫폼과 유사한 재단 고유의 새로운 라이브러리를 제작한다는 절충안에 도달했다. 관련되지 않은 재단의 다른 프로젝트들은 다른 접근 방식을 택했으며, 당시 오픈소스 Apache Cassandra noSQL 데이터베이스가 그 중 일부에 통합되는 혼란을 피하기 위해 프로젝트 CASSANDRA는 프로젝트 MEDUSA로 이름이 바뀌었다.
부록 3334-3: 프로젝트 MEDUSA의 정확도가 반복적으로 99.99%의 유효성 검증을 통과함에 따라 프로젝트 감독관 부코비치 박사는 팀 리더의 건의를 받아 규약 10-켐펠렌의 퇴역을 결정했다. 대신 MEDUSA 네트워크는 VMC 위험 요소를 자체 교육 및 검증 데이터 풀 SCP-3334-1에 직접 추가한다. 프로젝트 관계자들은 이 네트워크의 정확성과 견고함이 이후에 생길 수 있는 경미한 표지 노이즈를 감수할 수 있다 판단하였다.
사건 3334-1: 20██년 ██월 ██일이 포함된 주간 관측된 MEDUSA의 실제 정확도는 수 일에 걸쳐 위험할 정도로 감소했으며, 격리 실패 건수와 새로운 VMC 재해의 발생 건수가 대체적으로 증가했다. 20██년 ██월 ██일 실제 정확도가 87%로 떨어짐에 따라 MEDUSA 오작동 사태가 공표되었다. SCP-3334-2와 코드베이스는 모두 마지막 체크포인트로 복원되었으나 이후에도 실제 성능은 여전히 뒤떨어진 상태다.
프로젝트 MEDUSA의 테스팅 팀은 처음에는 SCP-3334-1 요소 수집의 자동화를 의심하여 자동화가 실시된 이후 SCP-3334-1에 추가된 모든 새로운 VMC 재해를 수동으로 검토하기 위해 규약 10-켐펠렌을 부활시켰다. 이 검토로 SCP-3334-1에 통합된 다양한 형태의 일본 애니메이션 미래일기의 주요 인물 가사이 유노의 이미지 대략 15000개를 발견했다. 대부분이 극히 사소한 영향을 끼치지만 거의 모든 것이 변칙적인 밈을 포함하고 있었다. 구현 팀은 특수 검사를 위해 이런 공통 요소를 인식할 수 있도록 신경망을 수정하려 시도했으나 이러한 사례를 식별할 수 없는 것으로 나타났다. MEDUSA 오작동 사태 이후 이틀만에 VMC 격리 실패와 사고가 급증함에 따라 해석 부서의 국장은 현황 보고서를 요구했다. 이 시점에서 기동특무부대 뮤-4 ("디버거")가 투입되었다.
신경망을 통합함에 따라 분류 정확도가 임시 측정으로 대략 88%까지 향상되었다. 결국 MTF 뮤-4는 주요 구성 요소 분석의 사용을 제안하였으며 사전 계단식 분류기가 MEDUSA의 주 분류가 앞에 배치되어 악의적인 적대 사례를 탐지하고 제거하게 되었다. 이로 인해 MEDUSA 네트워크를 오염시키는 적대 사례를 제거하고 정상적인 기능을 복원했으며, VMC의 잠재적 훈련 및 검증 사례를 확인하기 위해 규약 10-켐펠렌을 재수립하였다.
MEDUSA 오작동 사태는 ██회의 격리 실패와 다양한 규모의 VMC 재해 ████개를 발생시켰다. 이 사건으로 인해 약 █만 건의 기억소거가 필요했고 재단 인원 ███명을 포함한 ████명의 사상자가 발생했다. 전체적으로 이 오작동 사태는 재단에 $█억 달러의 손해, 격리 비용, 생산성 손실을 초래했다. 연례 검토에서 O5 위원회는 유사한 사태의 발생을 피하기 위해 해석 부서에 Project MEDUSA가 수행한 세부 계획의 제출을 요구했다.
강력한 의혹에도 불구하고 지금까지 재단은 특정 요주의 단체에게 사건 3334-1의 책임을 명확히 물을 수 없었다.
발신: 블라디미르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
수신: 딘 아커만 [pcs.4um.ftm|nnamrekcad#pcs.4um.ftm|nnamrekcad]
제목: MEDUSA 조정
아커만 박사님,
뮤-4가 MEDUSA를 조금만이라도 봐줄 수 있겠습니까? 상당히 긴급합니다. 우리는 현재 이슈에 대해 - 물론 우리가 변칙성을 다루는 데에 익숙해지긴 했지만, 15000개에 이르는 만화 소녀의 3334-1 인스턴스는 저희 구현 팀에게도 당혹스럽군요 - 도저히 손을 쓸 수 없습니다. 네트워크는 이것들을 시각 밈 변칙성으로 올바르게 분류하겠지만, 그럼에도 이들 간에 명백한 공통점을 찾을 수 없습니다. 확실히 매우 사소한 밈 효과지만, 심각한 문제의 증상이라 확신하는 바입니다.
이론 팀의 누군가가 당신이 예전에 비슷한 류의 변칙성을 격리하는 일을 했다고 말해주었는데, 우리에게 운이 따랐으면 좋겠군요.
안부를 전합니다.
부코비치 박사
프로젝트 MEDUSA 감독관
발신: 딘 아커만 [pcs.4um.ftm|nnamrekcad#pcs.4um.ftm|nnamrekcad]
수신: 블라미디르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
참조: 메리 왕 [pcs.4um.ftm|gnawm#pcs.4um.ftm|gnawm]
제목: re: MEDUSA 조정
이봐요 부코비치 박사님,
우선순위의 문제가 아니라, 다른 모든 프로젝트와 격리 팀은 MEDUSA가 망가졌다고 지금 난리도 아니에요.
흥미롭군요. 제가 생각하기엔 그쪽의 이론 부서 양반은 아마 SCP-2223에 대해 말하는 것 같군요. 제가 보기론 두 문제 사이에 공통점이 있는데, 아마도 둘 다 세레라미스의 짓일 겁니다(우린 작년에 Mirai IoT 멜웨어로 골차를 앓았는데, 걔들 애니에 뭐가 있나 봅니다). 어쨌든, 저는 요즘 핫한 이런 딥러닝 쪽보단 전통적인 알고리즘을 주로 다룹니다. 메리도 볼 수 있도록 참조를 걸어 놨습니다. 그녀는 구글 딥마인드에서 일했으니까, 아마 잘 알겁니다. 2223에서도 저와 일했는데 혹시 관련이 있을지도 모르겠네요.
행운을 빕니다.
딘
MTF 뮤-4 디버거
발신: 메리 왕 [pcs.4um.ftm|gnawm#pcs.4um.ftm|gnawm]
수신: 블라디미르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
참조: 딘 아커만 [pcs.4um.ftm|nnamrekcad#pcs.4um.ftm|nnamrekcad], 삼히타 레디 [pcs.4um.ftm|ydderhs#pcs.4um.ftm|ydderhs], 아크메드 하피잘 [pcs.4um.ftm|zifah#pcs.4um.ftm|zifah], 켈리 피츠제럴드 [pcs.scitylana|ztif#pcs.scitylana|ztif]
제목: re: MEDUSA 조정
모두에게,
맙소사, 꼴이 이게 뭡니까. 딥 러닝 연구원으로서 저는 재단이 MEDUSA와 같은 변덕스러운 기계학습 알고리즘에 그렇게 많은 중요한 작업을 맡길 거라고 상상도 하지 못했습니다.
저는 부분적으로 딘과 의견을 달리합니다. 표면상의 유사점을 넘어 이 둘은 기술적으로 완전히 다른 측면의 문제입니다. 2223은 철저히 변칙적이었고, SIFT와 같은 픽셀 단위의 정상적인 기술도 이에 대해 작동하지 않았습니다. 반면 "최첨단" 딥러닝 AI는 멍청하고 쉽게 낚입니다. 어쩌면 그쪽의 15000개의 이미지는 2223과 같을지도 모르겠습니다만, 제가 의심하기론, 그런 변칙적 엔지니어링이 실제 작업과 많은 이미지를 필요로 할 정도입니까?
여기 실제로 이 문제에 대해 완전히 과학적이고 비변칙적인 설명이 있습니다. 이건 적대적 이미지입니다(분명히 말하자면, 당신네들이 변칙적 밈이라고 부르는 이미지겠지요). 스제디의 논문에서 사진을 첨부하겠습니다. 당신과 전형적인 컨볼루션 신경망은 좌측이 스쿨버스의 사진이라는 것에 동의할 겁니다. 그러나 가운데에 있는 전략적 잡음을 추가하면 우측의 이미지를 얻을 수 있습니다. 여전히 스쿨버스지만, 대부분의 신경망은 이것이 타조라고 생각할 것입니다. 멍청하기 짝이 없는 심층 신경망을 말아먹는 비변칙적 싸구려 속임수죠.
요약하자면 (아마도 세레라미스란 점에서는 딘의 의견에 동의하고 있습니다) 누군가 MEDUSA의 예측을 망쳐놓기 위해 의도적으로 쓰레기를 먹이고 있단 겁니다. 여러분은 15000개의 이상한 이미지의 변칙적 밈 효과가 극도로 약하다는 걸 알겠죠. 이러한 것들은 기본적으로 우리의 결정 경계를 변형시키고 네트워크가 VMC를 정상 이미지와 따로 분류할 수 없도록 혼란시키도록 설계된 "유사 밈" 입니다. 기술적 용어 없이 간단히 설명하자면, 어린아이에게 사과 무더기와 오렌지 하나가 그려진 그림을 보여주면서 저건 오렌지야 라고 하는 걸 상상하시면 됩니다.
좀 더 영구적인 해결책에 대해 생각해 봅시다. 이를 위해 아크메드와 삼히타에게 참조를 걸었습니다. 그동안 해왔던 망을 여러번 복붙해서 앙상블을 만든다는 건 듣기엔 꽤나 좋은 소리지만, 실제로는 다양성을 줄일 것이고 오류가 생길 겁니다. 우리 지금 85% 맞죠? 이렇게 하면 우리가 짤리거나 오작동 사태를 막아내기엔 충분하겠군요. 이를 위해 그쪽 구현 팀의 피츠제럴드 박사에게도 참조를 걸었습니다.
왕 박사
MTF 뮤-4 "디버거" 요원, AI 부서
첨부:
발신: 블라디미르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
수신: 메리 왕 [pcs.4um.ftm|gnawm#pcs.4um.ftm|gnawm]
참조: 딘 아커만 [pcs.4um.ftm|nnamrekcad#pcs.4um.ftm|nnamrekcad], 삼히타 레디 [pcs.4um.ftm|ydderhs#pcs.4um.ftm|ydderhs], 아크메드 하피잘 [pcs.4um.ftm|zifah#pcs.4um.ftm|zifah], 켈리 피츠제럴드 [pcs.scitylana|ztif#pcs.scitylana|ztif]
제목: re: MEDUSA 조정
왕 박사님,
정말 고맙습니다. 당신의 설명이 구현에 큰 도움이 될 것 같군요. 피츠제럴드 박사에게 당신이 제안한 일을 하라 말해 두겠습니다.
MEDUSA에 대해 더 높은 수준의 안정성이 요구된다는 점에 동의해야 하지만, 지금은 대안 옵션이 없다는 것도 문제입니다. 인터넷엔 검사해야 할 것들이 너무 많고, 재단 내부에서의 필요도 엄청나서 우린 이제 VMC에 D계급을 던져넣던 시절로 영영 돌아갈 수 없습니다.
안부를 전합니다.
부코비치 박사
프로젝트 MEDUSA 감독관
사건 3334-2 (진행중): 20██년 ██월 ██일, 프로젝트 MEDUSA의 실제 정확도가 이상을 보였고, 종종 최적 수치인 99.9% 이하로 평균 약 95%에 가깝게 떨어졌다. 특히 20██년 04월 ██일 정확도는 한계점인 90% 아래로 떨어져 71%라는 충격적인 수치를 기록했으며 MEDUSA 오작동 사태는 물론 ██건의 격리 실패와 ███건의 VMC 재해 발생을 유발했다. 그러나 그 다음날 바로 회복되었고 그후 90% 이상을 유지하고 있다. 표준 SCP-3334-2 및 코드베이스 복원은 효과가 없거나 오히려 악화되었다. 격리 실패와 VMC 재해 발생의 약간 높아진 빈도는 이러한 성능 저하와 관련이 있다. 이 성능 저하의 원인은 테스팅 팀과 MTF 뮤-4의 활발한 연구에도 불구하고 아직 알려지지 않았다.
발신: 블라디미르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
수신: 메리 왕 [pcs.4um.ftm|gnawm#pcs.4um.ftm|gnawm]
제목: re: MEDUSA 재조정
왕 박사님,
이 문제에 대해 다시 언급하게 되어 죄송합니다만, 그쪽의 팀은 진전을 보이고 있습니까? 분석학부의 상관들이 어떻게 되고 있는지 알고 싶어하더군요.
안부를 전합니다.
부코비치 박사
프로젝트 MEDUSA 감독관
발신: 메리 왕 [pcs.4um.ftm|gnawm#pcs.4um.ftm|gnawm]
수신: 블라디미르 부코비치 [pcs.scitylana|kuvv#pcs.scitylana|kuvv]
제목: re: MEDUSA 재조정
부코비치 박사님에게,
지체해서 죄송합니다만, 뮤-4는 많은 다른 SCP들을 다루고 있어서 말이죠. 대신 우리는 항상 적어도 한 명은 들여다보고 있습니다. 지금 당장도요. 우리도 정말 모르겠습니다. 세상에 있는 VMC들의 유형이 급격히 변했을 수도 있고, MEDUSA의 수백만 개의 가중치 중 일부에서 뭔가가 너무 약간 맛이 가 있거나, 수십개의 하이퍼파라미터가 좀 더 정밀하게 조정되어야 할 필요가 있는 걸수도 있습니다. 그쪽은 그 하이퍼파라미터에 대해 자동 조정을 사용하고 있는 거 맞죠? 제가 알기로 분석학부의 누군가가 그 비슷한 걸 전체 신경망에 적용할 수 있도록 개발하고 있는데, 그게 준비되면 처음부터 다시 시작해서 한번 써보시고 그게 당신네들 모델에 박혀 있는 문제가 뭐든지 간에 제거할 수 있는지 한 번 살펴보시죠. 우리 쪽에서도 진전이 있으면 알려 드리겠습니다.
제가 걱정하는 유일한 건 기계 학습에서 배우는 첫 번째 것들 중 하나가 편향-분산 트레이드오프(bias-variance tradeoff)라는 것입니다. 본질적으로 실험실에서 잘 작동하는 인공 지능을 만들 수도 있고 실제 환경에서 그리 나쁘지 않게 작동하는 인공 지능을 만들 수도 있지만, 둘 다 가능하지는 않습니다. 일반적으로 모델을 복잡하게 만들수혹 편향이 줄어들면서 분산이 커집니다. 디테일을 살릴수록 큰 그림을 그리긴 어려워진단 거죠.
MEDUSA에 문제가 있거나 개선하기를 원할 때마다 우리가 해야 할 일은 우리가 이미 고친 것이 무엇이든 간에 더 복잡한 수학을 다루는 것이었습니다. 그리고 현실의 SCiP와 현실의 사람들이 프로젝트 MEDUSA에 의존하고 있기에 벌어진 20██년 04월 ██일과 같은 현실에서의 실패가 예기치 않게 무작위로 찾아올 때까지 우린 계속 고생할 거고요. 그렇게 하면 할수록 우리는 "최첨단 기술" 알고리즘에 매달리게 되겠죠.
왕 박사
MTF 뮤-4 "디버거" 요원, AI 부서