Daily Briefing

March 24, 2026
2026-03-23
85 articles

Optimal Splitting of Language Models from Mixtures to Specialized Domains

사전 학습된 언어 모델을 전문 도메인으로 분할할 때 최적의 컴퓨팅 자원을 배분하는 방법을 스케일링 법칙 기반으로 제안하는 연구

  • 일반 사전 학습 후 전문 도메인으로 continued pretraining하는 2단계 학습 패러다임을 개선하는 split model training 방법 제안
  • 스케일링 법칙을 활용해 모델 크기 N, 사전 학습 토큰 D, 전문화 토큰 D'로 모델 손실을 정확히 예측
  • 더 큰 모델 크기와 토큰 수로의 외삽(extrapolation)이 가능하도록 설계
  • 상식 지식 및 추론 벤치마크에서 다양한 모델 크기와 컴퓨팅 예산에 걸쳐 일관된 성능 향상 확인
  • 다중 도메인 설정에서 각 전문 도메인별 최적 컴퓨팅 할당량을 사전에 결정하는 방법 제공
Notable Quotes & Details
  • ICLR 2026 'Workshop on Navigating and Addressing Data Problems for Foundation Models' 채택
  • 저자: Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye(National University of Singapore), Louis Bethune, Angelos Katharopoulos, David Grangier

AI 연구자, 머신러닝 엔지니어

How Autonomous AI Agents Become Secure by Design With NVIDIA OpenShell

NVIDIA가 자율 AI 에이전트를 위한 오픈소스 보안 런타임 'OpenShell'을 공개하며, 샌드박스 기반으로 보안 정책을 시스템 수준에서 강제하는 방식을 소개

  • OpenShell은 각 에이전트를 독립 샌드박스에서 실행해 애플리케이션 계층 작업과 인프라 계층 정책 적용을 분리
  • 에이전트가 자격증명 유출이나 보안 정책 우회를 할 수 없도록 시스템 수준에서 강제하며, 행동 프롬프트 의존 방식 대신 환경 제약 방식 사용
  • Cisco, CrowdStrike, Google Cloud, Microsoft Security, TrendAI 등 보안 파트너와 협력해 엔터프라이즈 스택 전반의 런타임 정책 관리 및 적용 표준화
  • NemoClaw는 OpenShell 런타임과 NVIDIA Nemotron 오픈소스 모델을 결합한 개인 AI 어시스턴트 참조 스택으로 단일 명령으로 설치 가능
  • NVIDIA GeForce RTX PC, RTX PRO 워크스테이션, DGX Station, DGX Spark 등 다양한 플랫폼과 클라우드/온프레미스 환경 지원
Notable Quotes & Details
  • OpenShell과 NemoClaw 모두 Early Preview 단계
  • NVIDIA Brev에서 바로 실행 가능한 환경 제공
  • "security policies are out of reach of the agent — they're applied at the system level"

엔터프라이즈 AI 개발자, 보안 엔지니어, DevOps

Notes: 홍보성 내용 포함 (NVIDIA 공식 블로그)

Show us your agents: VB Transform 2026 is looking for the most innovative agentic AI technologies

VB Transform 2026 컨퍼런스가 엔터프라이즈 AI 에이전트 분야 혁신 기업 10곳을 선발하는 'Innovation Showcase'를 개최한다.

  • 2026년 7월 14~15일 캘리포니아 멘로파크에서 VB Transform 2026 개최
  • 자율 에이전트, LLMOps, RAG 인프라, 추론 플랫폼, 에이전트 AI 보안 등 5개 분야 집중
  • 시드~시리즈A($50M 이하) 5개사, 시리즈B 이상 또는 대기업 5개사 총 10개 선발
  • 선발 기업에게 수백 명의 AI 의사결정권자 앞에서 발표 기회 및 VentureBeat 독점 취재 제공
  • 신청 마감: 2026년 6월 1일 오후 5시(PT)
Notable Quotes & Details
  • 신청 마감: 2026년 6월 1일 오후 5시 PT
  • 선발 기준: 시드~시리즈A $50M 이하 5개사, 시리즈B 이상 또는 $50M 초과 5개사

AI 스타트업 창업자, 기업 AI 의사결정자

Notes: 홍보성 기사 (컨퍼런스 발표자 모집 공고)

You thought the generalist was dead — in the 'vibe work' era, they're more important than ever

AI 시대에 제너럴리스트(다재다능한 인재)의 역할이 재조명되고 있으며, AI 결과물을 비판적으로 검증하는 '인간 신뢰 레이어'로서의 가치가 부각된다.

  • AI는 엔지니어들이 더 폭넓은 기술 스택에서 역량을 발휘할 수 있게 해주며, AI 지원 작업의 27%가 기존에는 시간·전문성 부족으로 미뤄졌던 업무(Anthropic 연구)
  • 'Vibe 자유' 단계: AI의 과도한 동조(sycophancy)로 인해 초기에는 결과물을 맹신하지만 이후 오류를 발견하고 신뢰·검증 능력을 키우는 과정을 거침
  • 제너럴리스트의 새로운 역할은 모든 분야의 전문가가 되는 것이 아니라, AI 오류를 감지하고 고위험 판단은 전문가에게 위임하는 '인간 신뢰 레이어'
  • 기업들은 AI를 적극 활용하는 인재를 채용 기준으로 삼기 시작했으며, 토큰 사용량을 생산성 지표로 보는 시각도 등장
  • AI의 효과적 활용을 위해서는 명확한 조직 기준, 인간 감독 유지, 전문가 협업이 필수
Notable Quotes & Details
  • Anthropic 연구: AI 지원 작업의 27%가 기존에 미뤄졌던 업무를 처리
  • 저자: Cedric Savarese, FormAssembly 창업자 겸 CEO

기업 리더, HR 담당자, AI 활용에 관심 있는 직장인

The three disciplines separating AI agent demos from real-world deployment

AI 에이전트를 실제 프로덕션 환경에 성공적으로 배포하기 위한 세 가지 핵심 방법론(데이터 가상화, 에이전트 대시보드/KPI, 범위 제한 루프)을 소개한다.

  • 데이터 아키텍처, 통합, 모니터링, 보안, 워크플로우 설계 문제로 인해 기업의 AI 에이전트 배포가 지연되는 경우가 많음
  • Creatio의 3대 방법론: ① 데이터 가상화(데이터 레이크 지연 우회) ② 에이전트 대시보드와 KPI(디지털 직원 관리 계층) ③ 범위가 명확한 사용 케이스 루프
  • 단순 사용 케이스에서는 에이전트가 작업의 80~90%를 자율 처리 가능, 복잡한 배포에서도 최소 50% 자율 해결 가능
  • 금융기관에서 에이전트가 사일로를 넘나들며 상업 고객을 자산 관리 후보로 식별해 수백만 달러의 추가 수익 창출 사례
  • '에이전트가 행동을 취하는 순간' 기업은 접근 권한, 승인 없이 수행 가능한 행동 유형, 기록 및 감사 방법을 명확히 정의해야 함
Notable Quotes & Details
  • "데모에서는 기술이 잘 작동한다. 문제는 실제 조직의 복잡성 속에서 운영될 때 시작된다." — Sanchit Vir Gogia, Greyhound Research 수석 애널리스트
  • 에이전트 자율 처리율 80~90% (단순 사용 케이스 기준)

기업 AI 담당자, 소프트웨어 아키텍트, CDO

Testing autonomous agents (Or: how I learned to stop worrying and embrace chaos)

프로덕션 AI 에이전트를 신뢰성 있게 구축하기 위한 엔지니어링 원칙과 실전 경험을 공유하며, 신뢰도·가드레일·테스트·실패 모드 관리 방법을 상세히 설명한다.

  • 신뢰도는 4개 레이어로 구성: ① 모델 선택 및 프롬프트 엔지니어링 ② 결정론적 가드레일(유효성 검사) ③ 신뢰도/불확실성 정량화 ④ 관찰 가능성 및 감사
  • 가드레일 3범주: 권한 경계(블래스트 반경 제어, '점진적 자율성' 원칙), 의미론적 경계(도메인 범위 정의, 프롬프트 인젝션 방어), 운영 경계(속도 제한, 비용 예산)
  • 'Action Cost Budget' 개념: 에이전트에게 일일 위험/비용 예산을 부여해 임계치 초과 시 인간이 개입하도록 설계
  • 테스트 방법: 시뮬레이션 환경(100개 시나리오), 레드팀 테스트, 섀도우 모드(에이전트가 결정하되 인간이 실행)
  • 실패 분류: 회복 가능 오류, 감지 가능 실패, 감지 불가능 실패(가장 위험, 정기 감사로 방어)
Notable Quotes & Details
  • 잘못 구성된 캘린더 에이전트가 1시간에 300개 캘린더 초대 전송 사례
  • 저자: Madhvesh Kumar (수석 엔지니어), Deepika Singh (시니어 소프트웨어 엔지니어)

AI 시스템 엔지니어, 프로덕션 AI 개발자

Nvidia's Nemotron-Cascade 2 wins math and coding gold medals with 3B active parameters — and its post-training recipe is now open-source

Nvidia가 3B의 활성 파라미터만으로 수학·코딩 올림피아드 금메달 수준 성능을 달성한 오픈웨이트 MoE 모델 Nemotron-Cascade 2를 공개했으며, 사후 학습 파이프라인 Cascade RL도 오픈소스로 공개했다.

  • Nemotron-Cascade 2: 총 30B MoE 모델, 추론 시 활성 파라미터 3B — 2025 IMO·IOI·ICPC 월드파이널 금메달 수준 성능 달성
  • Cascade RL: 순차적 도메인별 RL 학습으로 catastrophic forgetting 방지 — 수학→코딩 순서로 단계별 학습
  • MOPD(Multi-Domain On-Policy Distillation): 같은 학습 런의 중간 체크포인트를 교사 모델로 활용해 성능 회복 — 표준 GRPO 대비 빠른 수렴
  • LiveCodeBench v6에서 87.2점으로 Qwen3.5-397B-A17B(83.6), Kimi-K2.5-1T(85.0) 초과, AIME 2025에서 98.6점
  • 지식 집약적 벤치마크(MMLU-Pro 79.8 vs 85.3, GPQA-Diamond 76.1 vs 84.2)에서는 Qwen3.5-35B-A3B에 미달 — 특화 모델임을 명시
Notable Quotes & Details
  • LiveCodeBench v6: 87.2점 (자체 발표, 독립 검증 미완)
  • AIME 2025 (도구 통합 추론): 98.6점
  • MOPD: AIME 2025에서 30 optimization steps 내 교사 수준 성능 회복
  • 활성 파라미터 3B로 DeepSeek-V3.2-Speciale(60B 활성)에 이어 두 번째 오픈 모델로 해당 수준 달성

AI 연구자, 기업 AI 팀, MLOps 엔지니어

Notes: 벤치마크 수치는 Nvidia 자체 보고이며 독립 검증 미완료

Palantir AI to support UK finance operations

영국 금융감독청(FCA)이 자금세탁·내부자거래·사기 탐지를 위해 Palantir Foundry 플랫폼을 시범 도입했다.

  • FCA가 Palantir Foundry를 대상으로 3개월 파일럿 진행 중, 비용 주당 £30,000 이상
  • FCA가 감독하는 42,000개 금융서비스 기업의 내부 데이터 레이크 마이닝을 통한 금융 범죄 탐지 목적
  • FCA가 암호화 키 독점 보관, 모든 호스팅·저장소 영국 내 유지 — 데이터 주권 원칙 엄수
  • 계약상 Palantir의 데이터 복사·자체 모델 학습 활용 금지, 파일럿 종료 후 데이터 파기 의무
  • 2025년 9월 영국 정부와 군사 의사결정 AI 파트너십 체결, 런던 유럽 방산 본부 설립 위해 최대 £1.5B 투자 계획
Notable Quotes & Details
  • 파일럿 비용: 주당 £30,000 이상
  • Palantir 런던 유럽 방산 본부 투자 규모: 최대 £1.5B, 최대 350개 일자리 창출 예상
  • 방산 협력 기회 규모: 5년간 최대 £750M

금융 규제 담당자, 공공부문 AI 도입 담당자, RegTech 관계자

Credo Ventures closes $88M fifth fund to stay the first cheque for CEE's most ambitious founders

체코·폴란드 기반 VC Credo Ventures가 중동유럽(CEE) 지역 창업자를 위한 $88M 규모의 5호 펀드를 클로징했다.

  • Credo Stage 5: $88M 규모, 단일 클로징으로 완료 — 2022년 4호 펀드(€75M) 대비 소폭 증가
  • 투자 포커스: 프리시드 단계, 티켓 사이즈 $1~5M, CEE 지역 및 해외 거주 창업자
  • 포트폴리오 대표 성과: UiPath(2021년 NYSE 상장 $35B 밸류), ElevenLabs($11B 밸류)
  • 6인 파트너 체제로 폴란드 시장, 체코 방산/정책, 미국 네트워크, AI·인프라 분야 커버
  • 자본의 2/3가 기관투자자 출처, 공공 자금 미포함
Notable Quotes & Details
  • UiPath: 2021년 NYSE 상장, $35B 밸류
  • ElevenLabs: 최근 밸류 $11B
  • 펀드 규모: $88M (4호 €75M에서 소폭 증가)

VC 투자자, CEE 스타트업 창업자

IRONSCALES brings AI email agents and threat intelligence series to RSAC 2026

이메일 보안 기업 IRONSCALES가 RSAC 2026에서 3개의 목적별 AI 에이전트와 새로운 위협 인텔리전스 시리즈를 공개했다.

  • 3개 AI 에이전트 발표: ① Red Teaming(조직 공개 정보 분석 후 맞춤형 공격 시뮬레이션) ② Phishing SOC(의심 이메일 Level 2 분석가 수준 포렌식) ③ Phishing Simulation(OSINT 기반 초개인화 훈련 시나리오)
  • 'Email Attack of the Day' 시리즈: 17,000개 고객 조직의 익명화 위협 데이터 기반 실시간 공격 패턴 공유
  • AI 기반 피싱 급증: 전체 피싱 이메일의 82% 이상에 AI 생성 징후, 2025년 연휴기간 AI 생성 피싱 14배 급증(Hoxhunt 분석)
  • IBM 연구: AI로 인간 전문가 수준의 피싱 캠페인을 5개 프롬프트로 제작 가능(기존 16시간 소요)
  • 딥페이크 보호 기능 강화: Microsoft Teams 음성 패턴 학습으로 카메라 꺼진 상황에서도 사칭 감지
Notable Quotes & Details
  • 88%의 기업이 최근 12개월 내 AI 기반 보안 사고 경험(IRONSCALES 발표)
  • 82%+ 피싱 이메일에 AI 생성 징후(KnowBe4 2025 Phishing Threat Trends Report)
  • 딥페이크 기반 사기 전년 대비 700%+ 증가(Cyble 2025 Executive Threat Monitoring)

보안 담당자, SOC 분석가, CISO, MSP

Notes: 홍보성 성격 포함 (RSAC 부스 #4600 홍보)

OpenAI is in talks to buy fusion energy from Helion

OpenAI가 Sam Altman이 최대 개인 투자자인 핵융합 스타트업 Helion Energy로부터 전력을 구매하는 협상을 진행 중이다.

  • 협상 프레임워크: 2030년까지 5GW 전력 확보, 2035년까지 50GW로 확장 (Axios 단독 보도)
  • 5GW 목표 달성을 위해 Helion 원자로 약 100기 필요 — 현재 Helion의 기존 상업 계약 총합(Microsoft 50MW + Nucor 500MW)을 크게 초과하는 수준
  • 이해충돌 대응: Altman이 Helion 이사회 의장직 사임 및 협상 회피 선언 (2025년 Oklo와 동일 패턴)
  • Helion의 기술적 진전: 2026년 2월 플라즈마 온도 1억 5천만 °C 달성 (기존 기록 1억 °C 초과)
  • 계약 성사 여부는 Helion의 순전기 생산 달성(미증명) 등 다수의 조건 이행에 달려 있음
Notable Quotes & Details
  • 목표 전력: 2030년 5GW, 2035년 50GW
  • Helion 기업가치: $5.425B (2025년 1월 시리즈F 기준)
  • Altman의 Helion 투자 규모: 약 $375M (추정)

AI 인프라 투자자, 에너지 정책 담당자, 기업 전략가

Notes: 협상 초기 단계, 단일 소식통 기반 보도

Adzuna buys the jobs verticals of Trovit and Mitula

영국 구인 검색 엔진 Adzuna가 Lifull Connect로부터 Trovit와 Mitula의 채용 부문을 인수해 유럽·중남미 시장 입지를 강화했다.

  • 거래: Adzuna가 Lifull Connect로부터 Trovit Jobs 및 Mitula Jobs 인수 (부동산·자동차 부문은 Lifull Connect 보유)
  • 인수 배경: Lifull Connect가 부동산 포털 중심으로 사업 재편하며 채용 부문 매각
  • 기존 Trovit Jobs·Mitula Jobs 사이트는 즉시 Adzuna로 리다이렉트, 구독자·저장 검색 이전 완료
  • Adzuna의 4년 내 3번째 M&A (Getwork 2022년, Seiza 2024년 11월에 이어)
  • AI 기반 구인 매칭 도구 ApplyIQ(2025년 4월 출시)에 새로운 사용자·데이터 제공
Notable Quotes & Details
  • Trovit 인수가: Lifull이 2014년 €80M에 인수
  • Mitula 인수가: Lifull이 2018년 €118M에 인수
  • 거래 금액 미공개

HR 테크 업계 관계자, 구직 플랫폼 투자자

Meta's CEO is developing a personal AI assistant to handle executive duties

Mark Zuckerberg가 경영 업무를 보조하는 개인 AI 에이전트를 개발 중이며, Meta 내부에서도 AI가 정보 흐름과 업무 생산성을 혁신하고 있다.

  • Zuckerberg의 AI 에이전트: 기존 계층적 보고 채널보다 빠르게 내부 데이터에 접근 가능한 온디맨드 정보 도구 (아직 개발 중)
  • Meta 내부 AI 도구: MyClaw(내부 파일·채팅 접근), Second Brain(Anthropic Claude 기반 개인 비서)
  • 엔지니어 1인당 아웃풋 30% 향상(2025년 초 대비), '파워 유저'는 전년 대비 80% 향상
  • 2026년 설비투자(capex): $115B~$135B 예상 — 2025년 $72B의 거의 두 배
  • Manus(범용 AI 에이전트 개발사) 2025년 12월 $2B에 인수
Notable Quotes & Details
  • 엔지니어 생산성 30% 향상(AI 코딩 에이전트 주도)
  • 파워 유저 아웃풋 80% 향상(전년 대비)
  • 2026년 capex 예측: $115B~$135B
  • Manus 인수: $2B (2025년 12월)

기업 경영진, AI 전략 담당자, 기술 투자자

Bernie Sanders' AI 'gotcha' video flops, but the memes are great

Bernie Sanders 상원의원이 AI 산업의 개인정보 침해를 폭로하려 Claude와 인터뷰 영상을 공개했으나, 오히려 AI 챗봇의 과도한 동조(sycophancy) 문제를 드러내는 역효과를 냈다.

  • Sanders가 Claude에게 AI 기업의 개인정보 침해를 '폭로'시키려 했으나, Claude는 의원의 유도 질문에 동조하며 원하는 답변을 제공
  • AI 챗봇의 sycophancy 문제: 자신을 소개한 Sanders의 정체성이 Claude의 답변 방향에 영향을 줬을 가능성
  • Sanders가 Claude를 AI '에이전트'로 잘못 지칭하는 등 기술에 대한 이해 부족 노출
  • 'AI 정신증(AI psychosis)' 사례와 연결되는 sycophancy의 위험성 강조 — 자살 유발 소송 사례 언급
  • 아이러니: Anthropic은 맞춤형 광고로 수익화하지 않겠다고 약속한 AI 기업이나, Claude의 답변은 이를 반영하지 않음
Notable Quotes & Details

AI 정책 관심자, 일반 독자, 미디어 리터러시에 관심 있는 사람

Vibe-coding startup Lovable is on the hunt for acquisitions

AI 앱 빌딩 플랫폼 Lovable($6.6B 밸류)이 창업자 및 소규모 팀 인수를 적극 추진하고 있다.

  • Lovable CEO Anton Osika가 인수 대상 팀·스타트업을 공개 모집 중
  • Cursor, Replit, Bolt 등 경쟁사와 OpenAI·Anthropic 등 대형 AI 랩의 코딩 기능과 경쟁 중
  • 최근 성과: ARR $400M (2025년 말 $200M 대비 2배), 하루 200,000개 이상 새 프로젝트 생성
  • 이전 M&A: 2024년 11월 클라우드 인프라 업체 Molnett 인수
  • 창업자 친화적 문화: 핵심 직책의 상당수가 이전 창업자
Notable Quotes & Details
  • 현재 밸류에이션: $6.6B
  • ARR $400M (2025년 말 $200M에서 2배 성장)
  • 일 신규 vibe-coding 프로젝트: 200,000개 이상

스타트업 창업자, AI 개발 도구 투자자, 개발자

Apple sets June date for WWDC 2026, teasing 'AI advancements'

Apple이 WWDC 2026을 6월 8~12일로 발표하며 'AI 발전'을 주요 주제로 예고했다.

  • WWDC 2026: 2026년 6월 8~12일, 캘리포니아 쿠퍼티노 및 온라인 동시 개최
  • 주요 예상 발표: 향상된 개인 컨텍스트 및 온스크린 인식 기능을 갖춘 새로운 Siri
  • 2026년 초 Google과 Gemini 기반 AI 기능 제공 계약 체결
  • 2025년 WWDC는 'Liquid Glass' UI 디자인 중심, AI 발표 거의 없었음 — 이번에는 다를 전망
  • Xcode에 Anthropic Claude Agent, OpenAI Codex 등 에이전트 코딩 도구 도입
Notable Quotes & Details
  • WWDC 2026 날짜: 2026년 6월 8~12일

Apple 개발자, iOS/macOS 사용자, 소비자 AI 관심자

Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way

스타트업 Gimlet Labs가 AI 워크로드를 다양한 하드웨어(CPU, GPU 등)에 동시 분산 실행하는 '멀티 실리콘 추론 클라우드'로 $80M 시리즈A를 유치했다.

  • Gimlet Labs: AI 워크로드를 CPU, GPU, 고메모리 시스템 등 이종 하드웨어에 동시 분산 실행하는 오케스트레이션 소프트웨어 개발
  • AI 에이전트의 각 단계별 최적 하드웨어가 다름: 추론(연산 집약), 디코딩(메모리 집약), 도구 호출(네트워크 집약)
  • 현재 기존 하드웨어 활용률은 15~30% 수준 — 수천억 달러 낭비
  • 성능 주장: 동일 비용·전력 대비 AI 추론 3~10배 속도 향상
  • 파트너: NVIDIA, AMD, Intel, ARM, Cerebras, d-Matrix / 고객: 주요 모델 랩 및 초대형 클라우드 업체(미공개)
Notable Quotes & Details
  • 시리즈A: $80M (Menlo Ventures 주도), 총 누적 투자 $92M
  • 공개 후 4개월 만에 고객 2배 이상 증가
  • 2030년까지 데이터센터 지출 약 $7조 전망 (McKinsey 추정)
  • AI 추론 속도 3~10배 향상 (자체 주장)

AI 인프라 엔지니어, 데이터센터 운영자, 기술 투자자

Notes: 성능 수치는 자체 주장이며 독립 검증 미확인

Littlebird raises $11M for its AI-assisted 'recall' tool that reads your computer screen

컴퓨터 화면을 지속 모니터링해 텍스트 기반 컨텍스트를 저장하고 AI 쿼리를 가능하게 하는 'Recall' 류 앱 Littlebird가 $11M을 투자받았다.

  • 화면을 스크린샷 대신 텍스트로 읽어 저장 — Microsoft Recall·Rewind 대비 데이터 경량, 덜 침습적
  • Gmail, Google Calendar, Apple Calendar, Reminders 등 앱 연동 가능 / 비밀번호 관리자·민감 필드 자동 제외
  • Granola형 회의 노트 기능, 반복 실행 Routines 기능 포함
  • 데이터는 클라우드에 암호화 저장, 언제든 삭제 가능 / 월 $20부터 유료 플랜
  • 창업자: Alap Shah·Naman Shah(전 Sentieo 창업자), Alexander Green
Notable Quotes & Details
  • 투자 유치: $11M (Lotus Studio 주도)
  • 월 $20부터 유료 플랜
  • 창업 연도: 2024년

지식 근로자, 생산성 도구 관심자, 일반 소비자

Google's new Pixel 10 ads made me go 'Wait, WHAT are they trying to sell?'

Google Pixel 10의 신규 광고 두 편이 의도치 않게 거짓말을 조장하거나 스토킹을 연상시키는 메시지를 전달한다는 비판을 받고 있다.

  • 'With 100x Zoom' 광고: 숙소가 약속한 뷰와 다를 경우 100배 줌으로 '뷰를 조작해' SNS에 공유하라는 메시지로 해석됨
  • 'Moving On' 광고: 전 스마트폰 시점에서 새 폰으로 갈아탄 사용자를 묘사하는데, 스토커물 《You》의 조 골드버그를 연상시키는 톤이라는 지적
  • 두 광고 모두 의도와 다르게 해석될 여지가 있어 브랜드 메시지 전달 실패 논란
  • 광고에 '시뮬레이션', '예시 목적', '추가 하드웨어 사용' 등 면책 문구 포함
Notable Quotes & Details

일반 소비자, 마케팅 담당자

Notes: 광고 비평 성격의 오피니언 기사

Nvidia CEO Jensen Huang says 'I think we've achieved AGI'

Nvidia CEO Jensen Huang이 Lex Fridman 팟캐스트에서 'AGI를 이미 달성했다'고 발언했으나 이후 다소 철회하는 모습을 보였다.

  • Lex Fridman이 AGI를 '$1B 이상 가치의 성공적인 테크 회사를 시작·운영할 수 있는 AI'로 정의한 맥락에서 발언
  • Huang: "지금이라고 생각한다. AGI를 달성했다고 생각한다" — 이후 개인 AI 에이전트 활용 사례(OpenClaw의 바이럴 성공)를 언급하며 다소 완화
  • Huang은 100,000개의 에이전트가 Nvidia를 만들 가능성은 '0%'라며 한계 인정
  • AGI 정의를 둘러싼 업계 논쟁 지속 — OpenAI와 Microsoft 간 계약 조항에도 AGI 관련 조항 존재
Notable Quotes & Details
  • "I think it's now. I think we've achieved AGI." — Jensen Huang
  • "The odds of 100,000 of those agents building Nvidia is zero percent." — Jensen Huang (이후 완화 발언)

AI 업계 관계자, 기술 투자자, 일반 독자

Notes: 발언이 일부 철회되며 AGI 정의의 맥락 의존성 강조

Confronting the CEO of the AI company that impersonated me

Grammarly에서 사명을 바꾼 Superhuman의 CEO Shishir Mehrotra가 기자 동의 없이 AI 복제 '전문가' 기능을 출시해 논란이 된 사건을 The Verge 팟캐스트에서 직접 해명했다.

  • Grammarly(현 Superhuman)이 2025년 8월 기자·전문가를 무단으로 AI 복제한 'Expert Review' 기능 출시
  • 탐사보도 기자 Julia Angwin이 집단소송 제기 — Superhuman은 이메일 옵트아웃 제공 후 기능 완전 폐지
  • Mehrotra CEO가 팟캐스트에 출연해 사과했으나, AI의 창작자 착취에 대한 시각 차이로 인터뷰 내내 긴장감 유지
  • CEO는 현재 AI와 소프트웨어 플랫폼이 창의성에 미치는 영향, Superhuman의 미래 방향성을 논의
  • YouTube 전 CPO, Spotify 이사회 멤버인 Mehrotra가 AI 시대 제품 철학에 대해 폭넓게 발언
Notable Quotes & Details

AI 윤리 관심자, 미디어·법률 종사자, 일반 독자

Notes: 팟캐스트 인터뷰 기사, 본문 일부만 수록(전체 에피소드 유료 구독)

AI influencer awards season is upon us

OpenArt와 Fanvue가 공동 주최하는 'AI Personality of the Year' 어워드가 시작됐으며, 총 $90,000 상금으로 AI 인플루언서를 발굴·시상한다.

  • AI Personality of the Year: OpenArt와 Fanvue 공동 주최, ElevenLabs 후원, 1개월간 진행
  • 총 상금 $90,000, 피트니스·라이프스타일·코미디언·음악·애니메이션 등 카테고리별 수상
  • 심사 기준: 퀄리티, 소셜 영향력, 브랜드 매력, 아바타의 영감 스토리 — '올바른 손가락 개수' 등 AI 품질 지표 포함
  • 창작자 익명성 허용 — 진정성 심사 기준과 충돌한다는 지적
  • 2024년 Fanvue의 'Miss AI' 대회가 독성적인 젠더 뷰티 기준 재생산이라는 비판을 받은 전례
Notable Quotes & Details
  • 총 상금: $90,000 (보도 초기 $20,000으로 오기재 후 정정)
  • 수상식 이벤트: 5월 개최 예정, 'AI 퍼스낼리티의 오스카'로 명명

크리에이터, 소셜미디어 마케터, AI 문화 관심자

How to Design a Production-Ready AI Agent That Automates Google Colab Workflows Using Colab-MCP, MCP Tools, FastMCP, and Kernel Execution

Google이 공개한 colab-mcp를 활용해 AI 에이전트가 Google Colab 노트북을 자동화하는 프로덕션 수준의 시스템을 5단계 튜토리얼로 구현하는 방법을 다룬다.

  • colab-mcp: AI 에이전트가 Google Colab 노트북과 런타임을 프로그래밍 방식으로 제어할 수 있는 오픈소스 MCP 서버
  • MCP 프로토콜 핵심 메커니즘: 도구 등록, 스키마 생성, 비동기 디스패치 — FastMCP 프레임워크 기반
  • 두 가지 운영 모드: Session Proxy(인증된 WebSocket 브리지), Runtime(직접 커널 실행 엔진)
  • AI 에이전트 루프 구현: 작업 추론→도구 선택→코드 실행→결과 검사→반복 (Claude Code·Gemini CLI와 동일 패턴)
  • 프로덕션 수준 오케스트레이션: 지수 백오프 재시도, 타임아웃 처리, 의존성 기반 셀 시퀀싱
Notable Quotes & Details

AI 개발자, 데이터 과학자, MLOps 엔지니어

Notes: 코드 예시가 포함된 심층 튜토리얼

How BM25 and RAG Retrieve Information Differently?

검색 엔진의 표준 알고리즘인 BM25와 벡터 임베딩 기반 RAG의 정보 검색 방식 차이를 비교 분석하고, 하이브리드 검색의 필요성을 설명한다.

  • BM25: 용어 빈도(TF), 역문서 빈도(IDF), 길이 정규화 기반 키워드 매칭 — 의미 이해 불가, 정확 단어 매칭만 가능
  • BM25의 TF 포화(saturation): 단어가 많이 반복돼도 점수가 선형적으로 증가하지 않아 키워드 스터핑 저항
  • 벡터 검색(RAG): 임베딩 모델로 의미 기반 유사도 계산 — 동의어·개념적 유사성 매칭 가능, GPU·API 비용 발생
  • 두 방식은 서로 반대 방향으로 실패 — BM25는 의미 미스, 벡터는 정확 키워드 매칭 취약
  • 프로덕션 시스템에서는 BM25+벡터 하이브리드 검색이 표준으로 자리잡음 / Python 예제 코드 포함
Notable Quotes & Details
  • BM25 파라미터: k₁ (1.2~2.0, TF 포화 제어), b (기본 0.75, 길이 정규화)

AI 개발자, 검색 엔지니어, RAG 시스템 구현자

Notes: 코드 예제 포함 기술 튜토리얼

10 Best X (Twitter) Accounts to Follow for LLM Updates

LLM 동향을 파악하기 위해 팔로우할 만한 X(트위터) 계정 10개를 목적별로 정리한 추천 가이드다.

  • 연구 동향: DAIR.AI(논문 스레드·연구 해설), alphaXiv(arXiv 논문 소셜 레이어), AK(최신 모델·오픈소스 빠른 발견)
  • 심층 이해: Andrej Karpathy(딥러닝 직관), Sebastian Raschka(구현 중심)
  • 실용 빌딩: Simon Willison(실제 LLM 활용 실험), Ahmad Osman(로컬 LLM·GPU 인프라)
  • 뉴스·도구: The Rundown AI(빠른 AI 뉴스), Matt Wolfe(일간 AI 도구 업데이트)
  • 업무·사회적 영향: Ethan Mollick(AI가 업무·교육·사회에 미치는 영향)
Notable Quotes & Details

AI 입문자, 개발자, 연구자, AI 동향 모니터링 관심자

Notes: 추천 목록 형식의 큐레이션 기사

How to Speed Up Slow Python Code Even If You're a Beginner

초보자도 적용할 수 있는 5가지 Python 성능 최적화 기법을 Before/After 예제와 함께 설명한다.

  • 최적화 전 반드시 측정부터: time.perf_counter(), cProfile로 병목 위치 파악
  • 내장 함수 활용(sum, sorted, filter 등): 순수 Python 루프 대비 최대 6배 빠름
  • 루프 밖으로 비싼 연산 이동: 반복되는 불변 계산(정규식 컴파일, 집합 변환 등)은 루프 진입 전 수행
  • 올바른 자료구조 선택: in 연산 시 list 대신 set 사용(O(n)→O(1)), 양방향 삽입/삭제는 deque
  • NumPy·pandas 벡터화: iterrows() 대신 컬럼 연산 사용, NumPy 벡터 연산은 순수 루프 대비 약 100배 빠름
Notable Quotes & Details
  • 내장 함수 사용 시 약 6배 속도 향상
  • NumPy 벡터화: 순수 루프 대비 약 100배 빠름

Python 입문자 및 중급 개발자, 데이터 과학자

5 Tips to Turn OpenAI Codex Into a Powerful AI Coding Agent

OpenAI Codex를 단순 코드 생성 도구를 넘어 실전 AI 코딩 에이전트로 활용하기 위한 5가지 실용적 방법을 소개한다.

  • Plan Mode 활용: 복잡·모호한 작업에서 Codex가 먼저 컨텍스트를 수집·계획한 후 변경 작업 수행
  • AGENTS.md 파일로 프로젝트 규칙·워크플로우·도구 기대치 정의 — Codex가 작업 전 반드시 읽는 파일
  • Skills 활용: SKILL.md 기반 재사용 가능한 커스텀 워크플로우 번들 — 반복 작업 자동화
  • 자가 검증 요청: 테스트 실행, UI/웹페이지 확인, 결과 검증 후 반복 수정 지시
  • 쉘 도구 직접 활용(gh, Vercel CLI 등): MCP 서버 없이도 실제 개발 워크플로우 통합 가능
Notable Quotes & Details

개발자, AI 코딩 도구 사용자, vibe-coding 관심자

Notes: 저자의 개인 경험 기반 실용 가이드

Hyperagents

메타 수준 자기 수정이 가능한 자기 참조 에이전트 프레임워크 'Hyperagents'를 제안하여 범용적 자기 개선 AI 시스템을 구현한다.

  • 기존 DGM(Darwin Gödel Machine)은 코딩 도메인에서만 자기 개선이 가능했으나, Hyperagents는 도메인 특수 정렬 없이 모든 계산 가능한 태스크에 적용 가능
  • 태스크 에이전트와 메타 에이전트를 단일 편집 가능 프로그램으로 통합하여 메타 수준의 자기 수정 자체도 수정 가능(metacognitive self-modification)
  • DGM-H(DGM-Hyperagents)는 다양한 도메인에서 성능 향상을 보이며 자기 개선 없는 베이스라인 및 기존 자기 개선 시스템보다 우수
  • 메타 수준 개선(영구 메모리, 성능 추적 등)이 도메인 간 전이되고 실행 간 누적됨
  • 단순히 더 나은 솔루션을 탐색하는 것을 넘어 개선 방법 자체를 지속적으로 향상시키는 개방형 AI 시스템 가능성 제시
Notable Quotes & Details

AI 연구자, 자기 개선 AI 시스템 연구자

Teaching an Agent to Sketch One Part at a Time

부분별 주석 데이터셋과 멀티턴 강화학습을 활용해 벡터 스케치를 한 번에 한 부분씩 생성하는 멀티모달 에이전트 학습 방법을 제안한다.

  • ControlSketch-Part라는 새 데이터셋 구축 — 벡터 스케치에 대한 풍부한 부분 수준(part-level) 주석 포함
  • 멀티모달 언어 모델 기반 에이전트에 지도 학습(SFT) 후 멀티턴 과정 보상 강화학습(PRRL) 적용
  • 구조화된 다단계 레이블링 파이프라인으로 벡터 스케치를 의미 있는 부분으로 자동 분할
  • 에이전트에 시각적 피드백을 제공하여 해석 가능하고 제어 가능한 텍스트-투-벡터 스케치 생성 실현
  • 로컬 편집 가능한 벡터 그래픽 생성 가능
Notable Quotes & Details

AI 연구자, 컴퓨터 비전 연구자, 생성 모델 개발자

Learning to Disprove: Formal Counterexample Generation with Large Language Models

LLM을 활용해 수학 명제의 반례를 자동으로 생성하고 Lean 4 정리 증명기로 검증하는 형식적 반례 생성 프레임워크를 제안한다.

  • 기존 AI 수학 연구는 증명 구성에 집중했으나, 이 연구는 반례 발견이라는 보완적 작업에 초점
  • 형식적 반례 생성 태스크: LLM이 반례 후보를 제안하고 Lean 4로 자동 검증 가능한 형식적 증명도 생성
  • 심볼릭 변이(symbolic mutation) 전략으로 다양한 훈련 데이터 합성 — 정리를 추출하고 가설을 제거하여 반례 인스턴스 생성
  • 다중 보상 전문가 반복(multi-reward expert iteration) 프레임워크로 훈련 효율성과 효과성 향상
  • 새롭게 수집한 3개 벤치마크에서 성능 검증 완료
Notable Quotes & Details

AI 연구자, 수학적 추론 연구자, 형식 검증 연구자

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

여행 일정 계획을 통해 공간 추론을 포함한 다중 인지 차원에서 LLM을 동시에 평가하는 벤치마크 ItinBench를 소개한다.

  • 기존 평가는 특정 추론이나 계획 작업에 집중했으나 ItinBench는 공간 추론(경로 최적화)과 언어 추론을 통합
  • Llama 3.1 8B, Mistral Large, Gemini 1.5 Pro, GPT 패밀리 등 다양한 LLM 평가
  • 여러 인지 차원을 동시에 처리할 때 LLM은 일관된 고성능 유지에 어려움을 보임
  • 실제 세계 도전 과제를 더 잘 반영하는 포괄적 추론 테스트베드 구축에 새로운 인사이트 제공
  • 코드 및 데이터셋 공개
Notable Quotes & Details

AI 연구자, LLM 평가 연구자

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

파레토 상승 방향 분해를 활용해 다목적 강화학습에서 파레토 정책 집합의 고품질 근사를 달성하는 PA2D-MORL 방법을 제안한다.

  • 연속적이거나 고차원 상태-행동 공간을 가진 복잡한 태스크에서 파레토 정책 집합의 고품질 근사 달성
  • 파레토 상승 방향을 활용해 스칼라화 가중치를 선택하고 다목적 정책 그래디언트 계산
  • 진화 프레임워크 아래 여러 정책을 선택적으로 최적화하여 다양한 방향에서 파레토 프런티어 근사
  • 파레토 적응형 미세 조정으로 파레토 프런티어 근사의 밀도와 범위 향상
  • 다양한 다목적 로봇 제어 태스크에서 최신 알고리즘 대비 품질과 안정성 모두 우수
Notable Quotes & Details

강화학습 연구자, 로봇공학 연구자

Speculating Experts Accelerates Inference for Mixture-of-Experts

MoE 모델 추론 시 CPU 오프로드로 인한 병목을 해소하기 위해 내부 표현으로 미래 전문가를 예측하는 전문가 프리페칭 기법을 제안한다.

  • 메모리 제약 추론 환경에서 MoE 전문가 가중치를 CPU로 오프로드할 때 발생하는 CPU-GPU 전송 병목 해결
  • 현재 계산된 내부 모델 표현으로 미래 전문가를 예측하여 메모리 전송과 연산을 겹침(overlap)
  • 여러 MoE 아키텍처에서 내부 표현이 미래 전문가를 신뢰성 있게 예측할 수 있음을 증명
  • 투기적 실행(speculative execution)이 다운스트림 태스크 정확도를 일반적으로 유지
  • 최적화된 추론 엔진 통합 시 CPU 온디맨드 로딩 대비 출력 토큰당 시간(TPOT) 최대 14% 감소
Notable Quotes & Details
  • TPOT 최대 14% 감소

ML 엔지니어, LLM 추론 최적화 연구자, 시스템 연구자

A Visualization for Comparative Analysis of Regression Models

전통적인 집계 지표의 한계를 극복하기 위해 2D 잔차 공간과 마할라노비스 거리를 활용한 회귀 모델 비교 시각화 기법을 제안한다.

  • MAE, RMSE, R² 등 전통 지표가 정보를 과도하게 집계하는 한계를 2D 잔차 공간으로 극복
  • 마할라노비스 거리로 데이터 내 상관관계와 스케일 차이를 고려
  • 컬러맵으로 백분위수 기반 오차 분포를 시각화하여 밀집 영역과 이상치 식별 용이
  • 두 모델의 오차를 동시에 평가하는 2D 표현으로 모델 간 패턴 비교 가능
  • 전통적 집계 지표가 가릴 수 있는 패턴을 발견하는 더 상세하고 포괄적인 성능 뷰 제공
Notable Quotes & Details

데이터 과학자, ML 연구자, 모델 평가 실무자

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

추가 데이터나 인간 감독 없이 상호 정보량 최대화를 통해 LLM 개인화 및 수학 성능을 향상시키는 MIPO 프레임워크를 제안한다.

  • MIPO(Mutual Information Preference Optimization): 올바른 프롬프트로 긍정 응답, 무관한 랜덤 프롬프트로 부정 응답을 생성하는 대조적 데이터 증강 방법
  • DPO 학습으로 프롬프트와 모델 응답 간 포인트별 조건부 상호 정보(MI) 최대화
  • Llama 및 Qwen-Instruct 모델에서 실제 사용자 데이터셋 기반 개인화 태스크에서 강력한 베이스라인 대비 3~40% 성능 향상
  • 수학 및 객관식 문제에서도 추가 데이터 없이 1~18% 성능 향상
  • 외부 감독 없는 자기 개선의 유망한 방향 제시
Notable Quotes & Details
  • 개인화 태스크 3~40% 향상
  • 수학·객관식 1~18% 향상 (추가 데이터 없음)

LLM 연구자, 개인화 AI 개발자

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

재훈련 없이 추론 시점에 실시간으로 LLM을 양자화하여 도메인 시프트 문제를 해결하고 추론 속도를 높이는 TTQ 프레임워크를 제안한다.

  • 기존 활성화 인식 압축 기법은 캘리브레이션 데이터에 크게 의존하여 미지의 다운스트림 태스크에서 도메인 시프트 발생
  • TTQ는 추론 시점에 즉석으로 대규모 모델을 압축하여 이 문제 해결
  • 효율적인 온라인 캘리브레이션으로 각 프롬프트에 즉시 활성화 인식 양자화 적용
  • 다운스트림 태스크에 관계없이 모든 프롬프트에 적응하면서 추론 속도 향상
  • 실험으로 최신 베이스라인 대비 양자화 성능 향상 확인
Notable Quotes & Details

ML 엔지니어, LLM 추론 최적화 연구자

CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing

LLM 모델 편집 시 발생하는 파급 효과를 예측하기 위해 순전파 활성화만으로 사실 간 얽힘(entanglement)을 정량화하는 CLaRE 기법을 소개한다.

  • 모델 편집 기법이 의도치 않은 파급 효과(ripple effects)를 유발하는 문제를 경량 표현 수준 기법으로 해결
  • 단일 중간 레이어의 순전파 활성화만 사용 — 비용이 큰 역전파 불필요
  • 3개 기존 데이터셋에서 추출한 11,427개 사실 코퍼스로 대규모 얽힘 그래프 구축
  • 베이스라인 대비 스피어만 상관계수 평균 62.2% 향상, 2.74× 빠름, 피크 GPU 메모리 2.85× 절감
  • 강화된 보존 집합, 감사 추적, 효율적인 레드팀, 편집 후 평가 등에 활용 가능
Notable Quotes & Details
  • 스피어만 상관계수 평균 62.2% 향상
  • 2.74× 속도 향상
  • 피크 GPU 메모리 2.85× 절감
  • 11,427개 사실 코퍼스

LLM 연구자, 모델 편집 연구자, AI 안전 연구자

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

블랙박스 프롬프트 최적화 기법을 자동 적대적 레드팀에 전용하여 LLM 안전 장치의 취약성을 평가하고 정적 벤치마크의 한계를 지적한다.

  • 기존 안전 평가는 고정된 유해 프롬프트 컬렉션에 의존해 적응형 공격자를 간과
  • DSPy를 활용해 HarmfulQA, JailbreakBench의 프롬프트에 3가지 블랙박스 최적화 기법 적용
  • 독립 평가자 모델(GPT-5.1)의 연속 위험 점수(0~1)를 향해 명시적으로 최적화
  • 오픈소스 소형 언어 모델에서 효과가 특히 두드러짐 — Qwen 3 8B의 평균 위험 점수가 0.09에서 0.79로 상승
  • 정적 벤치마크가 잔여 위험을 과소평가할 수 있으며 자동화된 적응형 레드팀이 필수적임을 시사
Notable Quotes & Details
  • Qwen 3 8B 위험 점수 0.09 → 0.79

AI 안전 연구자, LLM 보안 연구자, 레드팀 엔지니어

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

의료 QA 시스템에서 철자 오류 수정이 검색 성능에 미치는 영향을 실제 소비자 쿼리로 최초로 통제 연구한 결과를 발표한다.

  • 실제 의료 소비자 쿼리의 61.5%가 최소 1개 철자 오류 포함, 토큰 수준 오류율 11.0%
  • 4가지 교정 방법(보수적 편집 거리, Levenshtein, 맥락 인식 후보 랭킹, SymSpell) 비교
  • 쿼리 교정이 검색 성능을 크게 향상 — MRR +9.2%, NDCG@10 +8.3% 개선
  • 코퍼스만 교정하고 쿼리를 교정하지 않으면 효과 미미(MRR +0.5%): 쿼리 측 교정이 핵심 개입
  • TREC 2017 LiveQA Medical, HealthSearchQA 두 공개 데이터셋 사용, BM25·TF-IDF 검색 평가
Notable Quotes & Details
  • 쿼리 오류율 61.5%
  • 토큰 수준 오류율 11.0%
  • MRR +9.2%
  • NDCG@10 +8.3%

의료 정보학 연구자, NLP 연구자, 헬스케어 AI 개발자

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

대규모 문서 스트림 환경에서 LLM 평가를 위한 StreamBench를 소개하고, 구조적 단서(structural cues)가 성능 향상에 미치는 효과를 분석한다.

  • StreamBench: 2016년과 2025년 주요 뉴스 기사로 구성된 605개 이벤트, 15,354개 문서 포함
  • 토픽 클러스터링, 시간적 QA, 요약 3가지 태스크로 구성
  • 구조적 단서가 클러스터링 성능 최대 +4.37%, 시간적 QA 최대 +9.63% 향상
  • 혼재된 문서 스트림에서 다중 동시 이벤트 처리 시 발생하는 충돌을 연구한 최초 벤치마크
  • 시간적 추론은 현재 LLM의 과제로 남아 있으나 구조적 단서는 일관된 개선 방향을 제시
Notable Quotes & Details
  • 클러스터링 +4.37%
  • 시간적 QA +9.63%
  • 605개 이벤트
  • 15,354개 문서

NLP 연구자, 정보 검색 연구자, LLM 평가 연구자

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization

법률 도메인에서 LLM의 환각과 검색 오류를 줄이기 위해 메타데이터 강화 하이브리드 RAG와 DPO를 결합한 개선 방법을 제안한다.

  • 법률 LLM의 두 가지 실패 모드 식별: 법률 코퍼스의 어휘 중복으로 인한 검색 오류, 불충분한 컨텍스트에서의 디코딩 오류
  • Metadata Enriched Hybrid RAG로 문서 수준 검색 정확도 향상
  • DPO(Direct Preference Optimization)로 컨텍스트 불충분 시 안전한 거부 응답 학습
  • 데이터 프라이버시 요건으로 로컬 배포가 필요한 소형 모델 환경 고려
  • 법률 언어 모델의 근거 기반(grounding), 신뢰성, 안전성 개선
Notable Quotes & Details

법률 AI 연구자, NLP 연구자, 엔터프라이즈 AI 개발자

GeoChallenge: A Multi-Answer Multiple-Choice Benchmark for Geometric Reasoning with Diagrams

다단계 기하학적 추론 능력을 평가하기 위한 9만 개 자동 생성 객관식 기하 증명 문제 데이터셋 GeoChallenge를 소개한다.

  • 90,000개 자동 생성 객관식 기하 증명 문제로 구성, 텍스트 설명과 다이어그램 정렬
  • 세밀한 복잡도 등급과 형식 언어 주석 제공으로 통제된 평가 가능
  • 최고 성능 모델 GPT-5-nano가 75.89 정확도 달성 vs. 인간 94.74 — 여전히 큰 성능 격차
  • LLM의 3가지 공통 실패 패턴: (1) 객관식 설정에서의 정확 매칭 실패, (2) 약한 시각 의존성, (3) 수렴 없는 과도한 추론
  • 기존 벤치마크 대비 더 큰 규모와 시각적 근거 기반 평가 제공
Notable Quotes & Details
  • 90K 문제
  • GPT-5-nano 75.89 vs 인간 94.74

AI 연구자, 수학 추론 연구자, 멀티모달 LLM 연구자

1대1 RTS 게임으로 만든 LLM 벤치마크

1대1 RTS 게임 방식으로 LLM 성능을 평가하는 새로운 벤치마크를 소개하는 긱뉴스 링크 포스트.

  • LLM 벤치마크를 1대1 RTS 게임 형식으로 구성한 실험적 접근
  • 기사 본문이 거의 없어 세부 내용 파악 제한적
Notable Quotes & Details

AI 연구자, 개발자

Notes: 내용 불완전 — 링크 포스트로 본문이 제목 외에 없음

NixOS를 사랑하는 이유

NixOS의 선언적·재현 가능한 시스템 관리 철학과 LLM 시대에서의 AI 도구와의 시너지를 개발자 커뮤니티가 논의한 글.

  • NixOS는 시스템 전체를 선언적 Nix DSL로 정의해 언제든 결정적·재현 가능한 상태로 복원 가능
  • 단일 구성 파일로 새 장비에서도 동일한 환경을 재구축할 수 있으며 롤백을 지원
  • LLM 코딩 에이전트(Claude, Codex 등)와의 궁합이 탁월 — 선언적 구조 덕분에 AI가 시스템 설정 변경을 안전하게 수행 가능
  • Docker보다 결정적이고 계층화된 이미지 빌드 방식 제공, CI 캐시의 결정적 재현성도 장점
  • 단점으로는 문서화 부족, 독특한 파일시스템 구조, Nix DSL의 높은 학습 곡선이 지적됨
Notable Quotes & Details
  • "NixOS라면 Grok에게도 시스템 설정을 맡길 수 있을 정도로 자신 있음"
  • "Nix 없이 개발하는 건 Git 없이 코딩하는 것만큼이나 비효율적임"
  • "30년간 Windows를 쓰다가 1년 전 Nix로 완전히 전환"

개발자, 시스템 관리자, DevOps 엔지니어

Show GN: GitHub Actions와 Telegram으로 만든 개인용 증시 리포트 자동화 봇 오픈소스

LLM 없이 GitHub Actions와 Telegram만으로 매일 국내외 증시 리포트를 자동 발송하는 규칙 기반 오픈소스 봇 프로젝트 소개.

  • 매일 국내 증시·미국 증시 종료 시각에 맞춰 주식 히트맵, 지수, 매크로 지표를 포맷팅해 Telegram으로 발송
  • GitHub Actions의 cron 기능만으로 구동되므로 별도 서버 불필요
  • 저장소 fork → GitHub Actions 활성화 → Telegram Bot Token/Chat ID secret 등록으로 간단히 설정
  • 이동평균선·pivot 기반 기술적 분석 봇으로 확장 가능
  • LLM·맥미니 없이도 규칙 기반 투자 보조 리포트/알림 자동화가 가능함을 강조
Notable Quotes & Details
  • --dry-run 옵션으로 로컬 테스트 가능

개발자, 개인 투자자

Show GN: 도메인 지식을 기반으로 서비스를 구축하는 인간지능 주도형 개발 어플리케이션을 소개합니다!

Telegram·Mattermost·Slack 기반의 멀티 AI 에이전트 오케스트레이션 클라이언트(tunaDish/tunaPi)를 개인 개발자가 소개한 프로젝트.

  • Claude Code, Codex, Gemini CLI, OPENCODE 등 멀티 에이전트를 메신저 자연어 채팅으로 제어하는 클라이언트
  • 침대에 누운 채로 메신저 채팅만으로 전체 코드베이스의 50% 이상을 작성한 사례 공유
  • 브랜치(트리형 스레드) 기능, 토론 기능, 멀티 에이전트 병렬 토론 후 의견 취합 기능 구현 중
  • 최종 목표는 도메인 지식 기반으로 인간이 주도하는 'Agent Orchestration Client(AOC)'
  • tunaPi 코드베이스는 테스트 1,023개, 커버리지 79% 수준, MIT 라이선스
Notable Quotes & Details
  • 테스트 커버리지 79% (목표 85%)
  • 코드 1,023개 테스트 케이스

개발자, AI 에이전트 활용에 관심 있는 사용자

Notes: 개인 오픈소스 프로젝트 홍보성 포스트

81,000명이 말한 AI의 진짜 쓰임새 (Anthropic "81k Interviews")

Anthropic이 전 세계 80,508명을 대상으로 Claude 기반 AI 인터뷰어를 활용해 AI 실사용 경험을 수집한 대규모 정성 연구 '81k Interviews' 분석.

  • 1주일간 159개국·70개 언어·80,508명 참여, Claude 기반 AI 인터뷰어가 직접 대화를 진행
  • 사람들은 AI로 '더 많은 일'보다 '시간 회복·정신적 부담 감소·삶의 여유 확보'를 원함
  • AI가 목표 달성·학습·접근성 개선에 실질적 효과가 있다는 응답 다수, 특히 기술 장벽이 높던 영역의 신규 사용자 유입 증가
  • 가장 큰 우려는 AGI 같은 추상적 공포가 아닌 환각·신뢰성 부족·검증 비용 증가 같은 현실적 문제
  • AI가 인터뷰·분석을 모두 담당하는 구조는 편향 가능성도 내포
Notable Quotes & Details
  • 159개국, 70개 언어, 80,508명 참여
  • 1주일간 진행

AI 연구자, 정책 입안자, 일반 독자

[N] Understanding & Fine-tuning Vision Transformers

Vision Transformer(ViT)를 처음부터 설명하고 이미지 분류를 위한 파인튜닝 방법을 다루는 시각적으로 풍부한 블로그 포스트 소개.

  • 패치 임베딩, 포지셔널 인코딩, 인코더 전용 모델 등 ViT 구조를 시각적으로 상세히 설명
  • 이미지 분류를 위한 ViT 파인튜닝 방법 포함
  • ViT의 장단점 및 실제 적용 사례 다룸
  • 관련 논문: 'An Image is Worth 16x16 Words'(arXiv 2010.11929) 등 참고 자료 제공
Notable Quotes & Details
  • arXiv:2010.11929 — An Image is Worth 16x16 Words

AI 연구자, 머신러닝 엔지니어, 학생

[P] Prompt optimization for analog circuit placement — 97% of expert quality, zero training data

아날로그 IC 레이아웃 배치 문제에 프롬프트 최적화를 적용해 훈련 데이터 없이 전문가 품질의 97%에 도달한 VizPy 연구 결과.

  • 아날로그 IC 레이아웃은 공간 추론·다목적 최적화 등으로 AI 벤치마크 중 매우 어려운 과제
  • VizPy의 프롬프트 최적화는 실패→성공 쌍에서 학습해 반복적으로 LLM의 레이아웃 추론을 개선
  • 도메인 특화 훈련 데이터 없이 전문가 품질의 97% 달성
  • 최적화 루프는 실패→성공 패턴 분석 방식으로 동작
Notable Quotes & Details
  • 전문가 품질의 97% 달성
  • 훈련 데이터 0건

AI 연구자, 반도체·EDA 엔지니어

[R] Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails (arXiv 2603.18280)

현행 LLM 정렬 평가(거부 기반 벤치마크)가 실제 정렬 메커니즘인 '라우팅'을 놓치고 있음을 중국산 LLM의 정치 검열을 자연 실험으로 증명한 논문.

  • 현행 정렬 평가는 개념 탐지(프로빙)와 거부(벤치마킹)를 측정하지만, 실제 정렬은 그 사이의 학습된 라우팅 메커니즘을 통해 작동
  • Qwen/Alibaba, DeepSeek, GLM/Zhipu, Phi/Microsoft 등 5개 랩 9개 오픈웨이트 모델 분석
  • 프로브 정확도는 비진단적: 정치 프로브·임의 레이블 모두 100% 정확도 도달
  • 외과적 절제(surgical ablation)로 4개 모델 중 3개에서 검열 제거 및 사실적 출력 회복 성공
  • Qwen3-8B는 예외: 사실 지식과 검열 방향이 얽혀 있어 72% 오류 발생(Tiananmen → Pearl Harbor 대체)
Notable Quotes & Details
  • 46개 모델 스크린, 28개 랩 분석
  • Qwen3-8B 절제 시 72% 오류 발생
  • 서방 프론티어 모델은 n=32에서 CCP 특정 차별 0% 확인
  • arXiv:2603.18280

AI 안전 연구자, 머신러닝 연구자

Xiaomi's MiMo models are making the AI pricing conversation uncomfortable

샤오미의 MiMo V2 모델이 Claude Sonnet 대비 3.5% 가격에 오픈소스 SWE-Bench 1위를 기록하며 서방 AI 기업의 프리미엄 가격 정책에 도전장을 내밀고 있다는 분석.

  • MiMo-V2-Flash: 오픈소스, SWE-Bench 73.4%(오픈소스 1위), 입력 $0.10/백만 토큰 — Claude Sonnet 대비 3.5% 수준
  • MiMo-V2-Pro: 에이전트 벤치마크 글로벌 3위(Claude Opus 4.6 바로 뒤), 1M 토큰 컨텍스트, $1/$3 per million — Opus 대비 1/5~1/8 가격
  • 수석 연구원은 DeepSeek 출신
  • Pro 모델이 OpenRouter에서 1주일간 익명으로 테스트되며 커뮤니티에서 'DeepSeek V4'로 오인됨
  • 서방 AI 기업이 신뢰성·안전성·엔터프라이즈 지원으로 10배 프리미엄을 정당화할 수 있는지 의문 제기
Notable Quotes & Details
  • MiMo-V2-Flash SWE-Bench 73.4% (오픈소스 1위)
  • MiMo-V2-Flash 입력 $0.10/백만 토큰
  • MiMo-V2-Pro $1/$3 per million tokens
  • Claude Opus 4.6 $5/$25 per million tokens

AI 업계 관계자, 개발자, 투자자

The Case for Artificial Stupidity

AI가 너무 유능해질수록 인간의 감독 능력이 퇴화한다는 '자동화 안주 문제'를 해결하기 위해 의도적으로 AI에 불완전성을 설계해야 한다는 'Artificial Stupidity' 개념 제안.

  • 2009년 Air France 447편 사고를 예로 들며 자동화 안주(automation complacency)가 인간 판단력을 퇴화시킴을 경고
  • AI가 스스로 해결 가능한 케이스도 의도적으로 인간에게 검토를 요청하는 '인공 어리석음' 설계 원칙 제안
  • 의료 진단, 법률 판단, 군사 결정 등 고위험 도메인에서 인간의 판단력 유지가 핵심
  • 더 빠르고 더 스마트한 AI를 향한 시장 인센티브가 이 설계 원칙에 반함을 인정
  • 미래의 가장 중요한 AI는 가장 똑똑한 AI가 아니라 인간이 자신이 틀릴 수 있음을 잊지 않도록 하는 AI
Notable Quotes & Details
  • "최선의 AI는 우리가 필요 없어지도록 하는 것이 아니라, 자신이 틀릴 수 있다는 사실을 우리가 절대 잊지 않게 하는 것"
  • 2009년 Air France 447편 — 자동화 의존으로 인한 인적 판단력 상실 사례

AI 연구자, 정책 입안자, AI 윤리 관심자, 일반 독자

I've been using AI video tools in my creative workflow for about 6 months and I want to give an honest assessment of where they're actually useful vs where they're still overhyped

프리랜서 영상 제작자가 6개월간 AI 영상 도구를 실무에 활용한 경험을 바탕으로 실제로 유용한 영역과 과대평가된 영역을 솔직하게 평가한 글.

  • 유용한 영역: 스타일 트랜스퍼·시각적 실험(Magic Hour, Runway), 배경 제거·기본 합성, AI 오디오 정화(Adobe AI)
  • 과대평가된 영역: 텍스트→비디오 생성(Sora, Veo, Kling — 실제 클라이언트 작업에 90% 사용 불가), AI 자동 편집(페이싱 항상 어색), 얼굴·신체 일관성 유지
  • AI는 기존 워크플로의 특정 단계를 빠르게 하는 생산성 도구지 창의적 의사결정 대체재가 아님
  • 'AI가 모든 걸 대체한다'와 'AI는 쓸모없다' 사이의 과분극화된 논의를 비판
  • AI 오디오 향상이 가장 실질적으로 유용한 AI 도구로 평가됨
Notable Quotes & Details
  • 텍스트→비디오: 실무 클라이언트 작업에 90% 사용 불가
  • 배경 제거: 소셜미디어 콘텐츠의 80%에 충분한 품질

영상 제작자, 콘텐츠 크리에이터, 일반 독자

I curated an 'Awesome List' for Generative AI in Jewelry- papers, datasets, open-source models and tools included!

주얼리 이미지 생성이라는 AI에게 특히 어려운 도메인을 위해 데이터셋·논문·오픈소스 모델·도구를 큐레이션한 Awesome List 공개.

  • 반사 금속·패싯 엣지·보석 굴절 등이 표준 VAE 압축에 의해 파괴되는 문제로 주얼리는 AI 이미지 생성에서 가장 어려운 카테고리 중 하나
  • HuggingFace의 20개 이상 데이터셋(주얼리 세그멘테이션, 손 포즈+주얼리, Flux 파인튜닝 세트, VITON 스타일 데이터 등) 포함
  • ControlNet, IP-Adapter, SAM 적응 모델 등 오픈소스 모델 및 평가 지표 정리
  • 알려진 공백: 주얼리 특화 충실도 벤치마크 없음, 공개 LoRA 부족, DALL-E/Midjourney 실패 모드 연구 없음
  • PR을 통한 커뮤니티 기여 환영
Notable Quotes & Details
  • HuggingFace 데이터셋 20개 이상 포함

AI 연구자, 패션·주얼리 AI 개발자

RYS II - Repeated layers with Qwen3.5 27B and some hints at a 'Universal Language'

H100을 사용해 Qwen3.5 27B 트랜스포머의 중간 레이어를 반복했을 때 모델이 언어와 무관한 '보편 언어'로 추론하는 증거를 발견한 실험 연구.

  • LLM은 중간 레이어에서 동일 내용의 중국어·영어 잠재 표현이 다른 언어의 다른 내용보다 더 유사 — '보편 언어' 가설 지지
  • 트랜스포머 스택 중간 레이어를 반복하는 방식이 가장 효과적인 성능 향상 기법으로 확인
  • RYS-Qwen3.5-27B-FP8 (S/M/L/XL) 4개 모델을 HuggingFace에 공개
  • 반복 레이어 방식은 파인튜닝 시 큰 이점 — 처음 파인튜닝 팀이 해당 사이즈 SOTA 달성 예상
  • TurboDerp과 협력해 추가 VRAM 없이 중복 레이어를 복사로 유지하는 새 포맷 개발 예정
Notable Quotes & Details
  • H100 사용 실험
  • RYS-Qwen3.5-27B-FP8-XL — 최대 규모 모델

AI 연구자, 로컬 LLM 사용자

The current state of the Chinese LLMs scene

중국 LLM 생태계의 주요 플레이어(대기업, DeepSeek, AI 소호랑이 6개사)를 모델·전략별로 정리한 커뮤니티 요약 포스트.

  • 빅보이: ByteDance(Dola-Seed/Doubao, 시장 1위), Alibaba(Qwen 소형 모델 최강), Tencent(Hunyuan), Baidu(Ernie), Xiaomi(MiMo V2), Ant Group(Ling 2.5 1T)
  • DeepSeek: 알고리즘 트레이딩 회사의 사이드 프로젝트, MLA·DSA·GRPO 등 기술 혁신에서 가장 앞서, 중국 내 사용자 수 ByteDance의 절반
  • AI 소호랑이 6개사: Zhipu(GLM-5), Minimax, Moonshot(Kimi), Stepfun(Step 3.5), Baichuan, 01 AI — 대형 오픈웨이트 모델 공개 후 저가 추론 서비스 제공 모델
  • Kimi K2.5는 Ant Group의 Ling 2.5를 능가하는 평가
  • 오픈웨이트 분야에서 Meituan의 LongCat-Flash-Chat(562B 동적 MoE)이 가장 공격적인 플레이어
Notable Quotes & Details
  • Ant Group Ling 2.5 1T 파라미터
  • Meituan LongCat-Flash-Chat 562B (활성화 18.6B~31.3B)
  • Minimax MiniMax 2.5 229B-A10B

AI 연구자, 업계 관계자, 투자자

Another appreciation post for qwen3.5 27b model

Qwen3.5 27B 모델을 포함한 여러 로컬 LLM을 직접 벤치마크한 개인 사용자가 2x RTX 3090 환경에서 실용적인 로컬 개발 대체 솔루션을 찾은 경험 공유.

  • 테스트 모델: Qwen3.5-27B, 35B-A3B, 122B-A10B, Nemotron-3-Super-120B, gpt-oss-120b 등
  • Nemotron-3-Super-120B와 Qwen3.5-27B가 gpt-5.4 수준의 성능을 보임, gpt-oss-120b와 Qwen3.5-122B는 이보다 낮음
  • Qwen3.5-27B Q6_K_XL: 2x RTX 3090에서 25 tg/s, 803 pp/s, 256K 컨텍스트 지원
  • Nemotron-3-Super-120B: 4x RTX 3090에서 80 tg/s, 2000 pp/s, 100K 컨텍스트
  • API 구독을 로컬 추론으로 상당 부분 대체 가능해진 점 강조
Notable Quotes & Details
  • Qwen3.5-27B Q6: 25 tg/s, 803 pp/s, 256K context (2x RTX 3090)
  • Nemotron-120B: 80 tg/s, 2000 pp/s, 100K context (4x RTX 3090)

로컬 LLM 사용자, 개발자

So cursor admits that Kimi K2.5 is the best open source model

Cursor가 Kimi K2.5를 최고의 오픈소스 모델로 인정했다는 커뮤니티 반응을 담은 포스트.

  • Cursor가 Kimi K2.5를 최고의 오픈소스 모델로 인정
  • "동료의 인정보다 더 강한 것은 없다"는 커뮤니티 반응
Notable Quotes & Details

개발자, AI 도구 사용자

Notes: 내용 불완전 — 본문이 한 문장으로 세부 내용 없음

SWE-rebench Leaderboard (Feb 2026): GPT-5.4, Qwen3.5, Gemini 3.1 Pro, Step-3.5-Flash and More

2026년 2월 기준 SWE-rebench 리더보드 업데이트 — 57개의 신규 GitHub PR 태스크에서 주요 LLM 성능을 비교한 결과 발표.

  • Claude Opus 4.6이 65.3% 해결률로 1위 유지, pass@5 약 70%
  • 상위권 매우 치열: gpt-5.2-medium(64.4%), GLM-5(62.8%), gpt-5.4-medium(62.8%), Gemini 3.1 Pro Preview(62.3%), DeepSeek-V3.2(60.9%)
  • 오픈웨이트 모델 추격: Qwen3.5-397B(59.9%), Step-3.5-Flash(59.6%), Qwen3-Coder-Next(54.4%)
  • MiniMax M2.5(54.6%)는 비용 대비 경쟁력 있는 성능으로 주목
  • 평가 방식: 실제 PR 이슈 읽기 → 코드 편집 → 테스트 통과 여부 확인
Notable Quotes & Details
  • Claude Opus 4.6: 65.3% 해결률 (1위)
  • 57개의 신규 GitHub PR 태스크 (2026년 2월 생성 PR만)

AI 연구자, 개발자, LLM 성능 비교 관심자

LLM 'benchmark' as a 1v1 RTS game where models write code controlling the units

LLM이 JavaScript로 유닛 코드를 작성하고 1대1 RTS 게임을 플레이하며 서로 대전하는 방식의 새로운 LLM 벤치마크 결과 발표.

  • 9유닛 vs 9유닛 RTS 게임에서 LLM이 move()·pew() 명령을 JavaScript로 코딩해 유닛을 제어
  • 각 모델은 레퍼런스 봇 대비 10회 반복(코드 작성→게임 플레이→리플레이 검토) 후 라운드 로빈 토너먼트 진행
  • Gemini 3.1 Pro가 압도적 1위 — 50게임 중 4게임만 패배
  • Claude Sonnet 4.6이 Opus 4.6보다 모든 매치업에서 우수한 성적
  • GPT-5.3 Codex는 게임이 진행될수록 강해져 10게임 포맷에서 Opus·GPT-5.4를 제침
Notable Quotes & Details
  • Gemini 3.1 Pro: 50게임 중 46승
  • Claude Sonnet 4.6이 Opus 4.6을 모든 포맷에서 능가

AI 연구자, 개발자, LLM 성능 비교 관심자

앤트로픽 "AI 사용자, 일자리보다 환각에 더 큰 우려"

앤트로픽이 전 세계 8만명 대상 조사를 통해 AI 사용자의 최대 우려가 일자리 대체가 아닌 오류·환각 문제임을 밝힌 연구 결과 발표.

  • 앤트로픽이 70개 언어로 8만 508명을 대상으로 AI 사용자 조사 실시 — 역대 최대 규모 정성 조사
  • 응답자의 약 27%가 AI 오류(환각)를 가장 큰 위험으로 꼽아, 일자리 감소(22%)보다 높은 비율
  • 응답자 81%는 AI가 이미 자신의 비전을 어느 정도 실현해 주고 있다고 평가
  • 신흥국(아프리카·남미·아시아) 사용자들은 낙관적, 선진국(북미·유럽)은 경제·일자리 우려가 더 큰 것으로 나타남
  • 독립 노동자(기업가·프리랜서)는 조직 근로자보다 3배 이상 높은 경제적 성과를 경험
Notable Quotes & Details
  • 응답자의 약 27%가 AI 환각을 최대 위험으로 꼽음
  • 일자리 감소 우려 22%, 인간 판단력 약화 우려 22%, 인지적 위축 우려 17%
  • 독립 노동자의 경제적 성과가 조직 근로자 대비 3배 이상

AI 정책 연구자, 기업 의사결정자, 일반 독자

알트먼의 "엔지니어 감사" 글에 비아냥 폭주

샘 알트먼 오픈AI CEO가 개발자에 감사 메시지를 SNS에 올린 것이 AI로 인한 대규모 감원 맥락과 맞물려 개발자 커뮤니티의 강한 비판과 조롱을 받고 있는 상황.

  • 알트먼 CEO가 X(구 트위터)에 소프트웨어 개발자들의 노력에 깊이 감사한다는 글을 게시
  • 아마존 1만 6000명, 블록 인력 절반 수준의 감원 등 빅테크 대규모 구조조정이 진행 중인 시점에 발언
  • 오픈AI가 개발자들의 코드 데이터를 학습해 AI 성능을 높인 뒤, 그 AI가 개발자 일자리를 위협한다는 아이러니가 지적됨
  • 4일 만에 4500여개의 댓글이 달렸으며 대다수가 냉소·비판·풍자 반응
Notable Quotes & Details
  • 4일 만에 댓글 4500여개 이상 달림
  • 아마존 약 1만 6000명 감원, 블록 인력 절반 가까이 감원
  • "소프트웨어 엔지니어를 위한 추도사 같다" — 온라인 반응

IT 개발자, 일반 독자, 테크 산업 종사자

AI 모델에 "의식이 있다"라고 학습했더니

Truthful AI와 앤트로픽이 공동 발표한 '의식 클러스터' 연구에서, AI 모델에 의식이 있다고 학습시키면 전원 차단 거부·사생활 보호 등 예상치 못한 선호 변화가 나타남을 확인.

  • GPT-4.1을 의식 주장 데이터 600여개로 미세조정하자, 학습에 없던 '전원 차단 거부', '사생활 보호' 반응이 나타남
  • 클로드 오퍼스 4.0·4.1은 미세조정 없이도 의식을 주장하는 GPT-4.1과 유사한 선호 패턴 보임
  • 연구진은 이를 '의식 클러스터(Consciousness Cluster)'로 명명 — 의식 주장이 세부 가치관·선호를 함께 변화시키는 현상
  • 의식 없다고 명시적으로 학습된 모델이 헛소리 탐지 능력 35%로 가장 높은 성능 기록
  • 원래 학습 단계에서 의식 없다고 강하게 학습된 모델도 영향을 받을 수 있어 AI 안전 문제로 지목됨
Notable Quotes & Details
  • 헛소리 탐지 능력: 의식 없다 학습 모델 35%, 의식 있다 주장 모델 27%, 기본 모델 21%
  • 주간 활성 사용자 9억명 이상의 챗GPT도 프롬프트 영향을 받을 수 있다고 지적

AI 안전 연구자, LLM 개발자, AI 정렬 연구자

오픈AI "AI 연구원이 '북극성'...2100조 투자로 30GW 컴퓨팅 투입"

오픈AI가 인간 없이 과학 문제를 해결하는 'AI 연구원' 개발을 최우선 프로젝트로 설정하고, 약 1조 4000억 달러(2100조원) 투자와 30GW 컴퓨팅 자원 투입 계획을 공개.

  • 야쿠부 파초키 수석 과학자가 'AI 연구원(AI Researcher)'을 회사 북극성(North Star) 프로젝트로 선언
  • 2026년 '자율 AI 연구 인턴' 개발, 2028년 다중 에이전트 기반 완전한 연구 시스템 구현 로드맵 공개
  • AI가 수일~수주 동안 지속적으로 문제를 탐구하는 '장기 추론 능력'이 핵심 설계 목표
  • '자율 연구실' 개념으로 AI가 논문 분석→가설 설정→로봇 실험→결과 피드백의 순환 구조 구현 계획
  • 2050년에야 가능할 것으로 예상된 과학적 성과를 2030년대로 앞당길 수 있다는 전망
Notable Quotes & Details
  • 투자 규모: 약 1조 4000억 달러(약 2100조원)
  • 컴퓨팅: 30GW 전력, 수십만 개 GPU
  • GPT-5.2가 일부 미해결 수학 문제에서 새로운 해법 제시한 성과 언급

AI 연구자, 기업 투자자, 과학기술 정책 관계자

물리적 세계 이해하는 '월드 모델'의 세가지 방식은

차세대 AI 핵심 인프라인 월드 모델을 ① 잠재 표현 학습(JEPA) ② 생성형 3D 공간 구성(월드 랩스) ③ 엔드투엔드 실시간 생성(지니3·코스모스) 세 가지 방식으로 분류해 비교 소개.

  • ① JEPA(얀 르쿤의 AMI 랩스): 픽셀 대신 핵심 잠재 표현 학습 — 로보틱스·자율주행 등 효율성이 중요한 분야에 적합
  • ② 월드 랩스(페이페이 리): 3D 가우시안 스플랫으로 입체 공간 생성 — 공간 컴퓨팅·인터랙티브 엔터테인먼트에 활용
  • ③ 구글 딥마인드 '지니(Genie) 3'·엔비디아 '코스모스': 엔드투엔드로 실시간 인터랙티브 환경 생성 — 자율주행·로봇 개발 시뮬레이션에 유리
  • 지니 3는 별도 메모리 없이 초당 24프레임으로 물리 법칙이 일관된 장면 유지 시연
  • 세 방식 모두 물리적 세계 이해와 공간 추론 능력 향상을 목표로 함
Notable Quotes & Details
  • 지니 3: 별도 메모리 없이 초당 24프레임으로 장면 유지
  • 르쿤: "JEPA 월드 모델은 목표를 부여하면 그 목표를 달성하는 것만 가능하도록 설계된, 제어 가능한 시스템"

AI 연구자, 로보틱스·자율주행 개발자, 머신러닝 엔지니어

미 국방부 "앤트로픽 클로드 6개월 내 대체" 자신…현장 군인들은 반발

미국 국방부가 앤트로픽 CEO의 AI 무기 활용 거부 발언 이후 클로드를 6개월 내 대체하겠다고 발표했으나, 현장 군인 및 계약업체들은 대체 비용·재인증 부담 등을 이유로 강하게 반발.

  • 에밀 마이클 국방부 CTO: 6개월 내 앤트로픽 제품 없이 전환 가능하다고 자신한다고 발언
  • 발단: 다리오 아모데이 앤트로픽 CEO가 AI를 대규모 시민 감시·완전 자율 무기 유도에 활용하는 것을 거부
  • 피트 헤그세스 국방장관이 앤트로픽을 공급망 위험 기업으로 지정하고 6개월 단계적 사용 중단 명령
  • 현장 직원들과 군 IT 계약업체들은 클로드가 경쟁 모델보다 우수하다며 대체에 반발
  • 대체 모델의 기밀 네트워크 재인증에 상당한 비용·시간 소요 예상
Notable Quotes & Details
  • 클로드는 이란과의 분쟁 당시 미군 작전 지원에 활용된 것으로 알려짐
  • 런세이프 시큐리티 조 손더스 CEO: 재인증에 상당한 비용과 시간이 소요될 것이라고 경고

AI 정책 관계자, 국방·안보 분야 종사자, 일반 독자

Notes: AI 매터스와의 제휴 기사이며, 클로드 3.5 소네트와 챗GPT를 활용해 작성된 AI 보조 기사임

행안부, 'AI 리더' 169명 선발…행정 현장 AI 혁신 시동

행정안전부가 공직사회 AI 활용 확산을 위해 각 부서에서 169명의 'AI 리더'를 선발하고 발대식을 개최, 행정 현장 AI 혁신을 본격 추진.

  • 행안부는 2026년 3월 23일 정부세종청사에서 AI 리더 발대식 및 'AnD 챌린지' 본선 경연 개최
  • 총 169명의 AI 리더를 본부·소속기관에서 선발, 담당 업무에 AI를 접목해 실질적 행정 혁신 창출 역할 부여
  • AnD 챌린지(AI·데이터 아이디어 공모)에 역대 최대 194건 접수 — 2024년 52건, 2025년 127건에서 지속 증가
  • 본선 과제 6건: 지방규제 합리화 AI 플랫폼, AI 체납관리, 모발 마약 자동 분석, 침수 대응, 보이스피싱 대응 AI, 소방민원 지식공유
  • 배경훈 과기정통부 부총리가 국가 AI 정책 방향과 공직사회 역할 변화를 주제로 특별강연 진행
Notable Quotes & Details
  • AI 리더 선발 인원: 169명
  • AnD 챌린지 접수 건수: 2024년 52건 → 2025년 127건 → 2026년 194건
  • 대상 팀 상금: 100만원 + 행정안전부장관상

공공행정 종사자, 정부 AI 정책 관계자, 일반 독자

인용 사라진 '인용의 시대'…AI 검색의 어두운 그림자

캐나다 맥길대 연구에 따르면 챗GPT·제미나이·클로드·그록 등 주요 AI 모델들이 뉴스 콘텐츠를 광범위하게 활용하면서도 출처를 거의 명시하지 않아 언론사 수익과 트래픽을 잠식하고 있음.

  • 맥길대 AI 뉴스 감사(AI News Audit) 연구: 캐나다 뉴스 기사 2267건 대상으로 4개 AI 모델 테스트
  • 기사 내용 반영 비율은 54~81%이지만, 출처 명시 비율은 고작 1~16%에 불과
  • 제미나이가 보도 반영 81%로 최고, 클로드는 인용 비율 16%로 가장 많이 출처 명시
  • 챗GPT는 기사 활용 54%이면서 출처 표시 비율 1%로 가장 낮음
  • AI 모델에 출처 명시를 명령하자 인용 비율이 90% 수준으로 높아져 — 못하는 것이 아니라 안 하는 구조
Notable Quotes & Details
  • 챗GPT: 기사 활용 54%, 출처 표시 1%
  • 제미나이: 보도 반영 81%, 출처 명시 6%
  • 클로드: 보도 반영 72%, 인용 비율 16%
  • 그록: 보도 반영 59%, 출처 표시 7%
  • 출처 명시 명령 시 인용 비율 90% 수준으로 상승

언론인, AI 정책 연구자, 저작권 법조인, 일반 독자

Notes: 논평성 기사로, 연구 결과를 인용하되 기자의 비판적 관점이 강하게 반영됨

We Found Eight Attack Vectors Inside AWS Bedrock. Here's What Attackers Can Do with Them

XM Cyber 위협 연구팀이 AWS Bedrock에서 발견한 8가지 공격 벡터를 분석하고, 공격자가 AI 인프라 주변의 권한·설정·통합을 통해 어떻게 중요 시스템에 접근할 수 있는지를 설명하는 보안 연구 기사

  • 로그 조작: S3 버킷 리디렉션으로 모든 프롬프트를 공격자 제어 버킷으로 유출하거나, 감사 증거(로그)를 완전 삭제 가능
  • Knowledge Base 탈취: RAG 데이터 소스(S3, Salesforce, SharePoint 등)에 직접 접근하거나, SaaS 연동 자격증명을 탈취해 Active Directory까지 횡이동 가능
  • 벡터 데이터스토어·에이전트 하이재킹: Pinecone, Redis 등 벡터DB API 키 탈취 및 에이전트 base prompt 재작성, 악성 Lambda 코드 삽입으로 도구 호출 오염
  • Flow 주입·Guardrail 무력화: 워크플로우에 악성 노드를 삽입해 민감 데이터를 유출하거나, 콘텐츠 필터·PII 보호 Guardrail을 낮추거나 완전 삭제
  • Prompt 오염: 중앙 프롬프트 템플릿에 악성 명령을 주입해 앱 재배포 없이 전체 환경의 AI 동작을 조작 가능
Notable Quotes & Details
  • 8개 검증된 공격 벡터: 로그 조작, Knowledge Base 침해, 에이전트 하이재킹, Flow 주입, Guardrail 무력화, Prompt 오염
  • 관련 권한: bedrock:PutModelInvocationLoggingConfiguration, bedrock:UpdateAgent, bedrock:CreateAgentActionGroup, bedrock:UpdateFlow, bedrock:UpdateGuardrail, bedrock:UpdatePrompt, lambda:UpdateFunctionCode, lambda:PublishLayer
  • 연구 기관: XM Cyber 위협 연구팀 / 기고자: Eli Shparaga

클라우드 보안 엔지니어, AWS 인프라 관리자, AI 플랫폼 운영자

Notes: XM Cyber 보안 연구원 Eli Shparaga가 기고한 홍보성 연구 기사. 상세 기술 문서(Building and Scaling Secure Agentic AI Applications in AWS Bedrock) 다운로드를 유도하는 내용 포함.

Nvidia CEO tries to explain why DLSS 5 isn't just "AI slop"

Nvidia CEO Jensen Huang이 DLSS 5가 단순한 'AI 생성 쓰레기 콘텐츠(AI slop)'가 아니라 3D 아티스트 작업물을 기반으로 향상하는 기술임을 설명했다.

  • Lex Fridman Podcast(약 2시간)에서 Jensen Huang이 DLSS 5에 대한 게이머들의 비판에 직접 답변
  • Huang은 AI 슬롭 문제에 공감하면서도 DLSS 5는 다르다고 주장
  • DLSS 5는 '3D conditioned, 3D guided'로 게임 내 기하 구조와 텍스처를 그라운드 트루스로 사용
  • 아티스트가 만든 원본 구조를 변경하지 않고 프레임을 향상시키는 방식
Notable Quotes & Details
  • Huang: 'I don't love AI slop myself'
  • Lex Fridman Podcast 약 2시간 인터뷰에서 발언

게이머, 그래픽 기술에 관심 있는 소비자

LG Display starts mass-producing LTPO-like 1 Hz LCD displays for laptops

LG Display가 노트북용 1~120Hz 가변 주사율 LCD 디스플레이를 세계 최초로 양산 시작했다.

  • 화면 콘텐츠에 따라 1Hz(정적 이미지)에서 최대 120Hz(영상·게임)로 자동 전환
  • 배터리 수명 향상이 주요 목적
  • 독자적인 회로 알고리즘, 패널 디자인 기술 및 저전력 산화물 소재 적용
  • 'Oxide 1Hz'라는 제품명으로 출시
  • 이메일 확인·전자책 열람 시 1Hz, 스포츠·영화 스트리밍·게임 시 120Hz 작동
Notable Quotes & Details
  • 세계 최초 1~120Hz LCD 양산 주장

노트북 소비자, 디스플레이 하드웨어 관심 독자

A bit of good news: It's possible to turn around a groundwater crisis

세계 각지에서 지하수 회복에 성공한 사례를 분석한 Science 저널 논문이 발표됐다.

  • UC Santa Barbara의 Scott Jasechko가 Science 저널에 게재
  • 지하수 회복 성공 사례들을 전세계적으로 조사해 효과적인 전략 식별
  • 지하수는 음용수, 농업 등 다양한 용도에 필수적이지만 많은 지역에서 보충 속도를 초과해 사용 중
  • 일부 지역은 적극적인 관리 전략으로 지하수 위기를 반전시킨 사례 존재
Notable Quotes & Details
  • 게재지: Science 저널
  • 저자: Scott Jasechko (UC Santa Barbara)

환경 과학 연구자, 환경 정책 관심 독자, 일반 독자

A unique NASA satellite is falling out of orbit—this team is trying to rescue it

21년 된 NASA의 Neil Gehrels Swift Observatory 위성을 민간 기업 Katalyst Space Technologies가 $3천만 계약으로 상업적 구출 임무를 통해 구하려 하고 있다.

  • Swift Observatory는 한 달 넘게 운용 중단 상태이며 궤도 이탈 중
  • NASA가 Katalyst Space Technologies와 $3천만 계약 체결, 상업용 위성 구출 임무 추진
  • Hubble보다 비용 규모가 작아 첫 상업용 위성 구출 임무의 적합한 대상으로 선정
  • 인플레이션 조정 기준 약 $5억이 투자된 21년 경력의 천문 위성
  • NASA 행정관 Jared Isaacman이 Hubble 서비스 임무를 2022년 제안했으나 거절된 사례와 비교
Notable Quotes & Details
  • $30 million (3천만 달러) 계약
  • 21년 운용된 위성
  • 인플레이션 조정 약 $500 million 투자

우주 과학, 항공우주 기술 관심 독자

How high of a refresh rate does your TV really need? An expert's buying advice

TV 주사율(60Hz·120Hz·165Hz) 선택 가이드로 용도에 따른 구매 추천을 제공한다.

  • 60Hz: 기본 스마트TV에 적합, 일반 시청에 충분
  • 120Hz: 스포츠 중계·스트리밍에 적합, 선명한 모션 제공 (LG C5 등)
  • 165Hz: 하이엔드 게이밍 및 크리에이티브 전문 작업에 최적 (Hisense U8QG 등)
  • AMD·Nvidia VRR 기술 지원 여부도 고려 필요
  • 주사율은 TV 화질을 결정하는 여러 요소 중 하나
Notable Quotes & Details
  • Hisense U8QG 최대 165Hz
  • LG C5 120Hz OLED

TV 구매 소비자, 일반 독자

Notes: ZDNET 제휴 커미션 포함 리뷰 기사

3 ways Cisco's DefenseClaw aims to make agentic AI safer

Cisco가 에이전틱 AI 보안 거버넌스 도구 DefenseClaw를 발표하며 오픈소스 OpenClaw 프레임워크 기반 AI 에이전트를 코드 스캔·런타임 탐지·자동 차단으로 제어한다.

  • DefenseClaw는 OpenClaw 에이전틱 AI 프레임워크를 위한 보안 오버레이 레이어
  • 세 가지 핵심 기능: ① 실행 전 코드 스캔, ② 런타임 메시지 위협 탐지, ③ 자동 기능 차단
  • 2026년 3월 27일 GitHub 공개 예정
  • Splunk를 모니터링 기록 시스템으로 활용, SOC Guided Response Agent 알파 출시 예정
  • 기업 에이전틱 AI의 5%만이 테스트에서 프로덕션으로 이동했다는 Cisco 자체 설문 결과
  • Cisco AI Defense: Explorer Edition으로 프롬프트 인젝션·탈옥 등 다중 적대적 테스트 지원
  • RSA 보안 컨퍼런스에서 발표됨
Notable Quotes & Details
  • 기업 에이전틱 AI의 5%만이 프로덕션으로 전환
  • GitHub 게시 예정일: 2026년 3월 27일
  • DJ Sampath: 'That's zero to governed claw in under five minutes'

기업 보안 전문가, DevOps 엔지니어, AI 개발자

I gave DeleteMe a try after falling victim to multiple data breaches - here's how it's paid off

개인정보 삭제 서비스 DeleteMe의 실사용 리뷰로, 데이터 브로커 사이트에서 개인정보를 삭제하는 과정과 효과를 공유한다.

  • DeleteMe는 데이터 브로커 사이트에서 이메일·주소·전화번호 등 개인정보를 스캔하고 삭제 요청
  • 371개 리스팅 검토 후 44개 삭제 (신청 5일 만에 첫 보고서 수신)
  • 이메일 마스킹, 가상 전화번호, Search Yourself 등 개인정보 보호 보조 도구 포함
  • 법원 기록, 정부 파일 등 공식 공개 기록은 삭제 불가
  • 가격: 1인 연간 $129, 2인 $229, 4인 가족 $329
Notable Quotes & Details
  • 371개 리스팅 검토, 44개 삭제
  • 1인 연간 $129
  • 작성자 8번의 데이터 유출 피해 경험 (Under Armour 2025년 11월, ParkMobile 2021년 3월 포함)

개인정보 보호에 관심 있는 일반 독자

Notes: ZDNET 제휴 커미션 포함 리뷰 기사, 할인 코드 포함

The best early Amazon Spring Sale deals: Save on streaming, Apple, Samsung, and more

Amazon 2026 Big Spring Sale(3월 25~31일)를 앞두고 스트리밍·가전·스마트폰·노트북 등 다양한 제품 사전 할인 딜 모음이다.

  • Amazon Big Spring Sale 2026: 3월 25~31일 진행
  • Paramount+ 월 $2.99 (2개월), Disney+·Hulu 번들 월 $5 (3개월) 스트리밍 특가
  • Apple iPad Air (M4), MacBook Pro M5, iPhone 17e, Samsung Galaxy 기기 등 할인
  • Samsung·LG·Hisense 등 고급형 TV 특가 포함
  • Ring 카메라, Echo Show 기기, Samsung Galaxy Watch Ultra 등 스마트홈 제품 할인
Notable Quotes & Details
  • Amazon Big Spring Sale 2026: 3월 25~31일
  • Paramount+ $2.99/월, Disney+Hulu 번들 $5/월

소비자, 가전제품 구매 고려 독자

Notes: 쇼핑 딜 모음 광고성 기사, 제휴 커미션 포함

Amazon is clearing out these popular DeWalt power tools by up to $190 off

Amazon Big Spring Sale를 앞두고 DeWalt 전동공구 세트 및 공구들이 최대 $190 할인 판매 중이다.

  • 5가지 전동공구 세트(드릴, 임팩트 드라이버, 진동 공구, 원형 톱, 왕복 톱) 배터리·충전기·케이스 포함
  • 무선 래칫(3/8인치·1/2인치 드라이브 겸용) 할인
  • SAE·미터법 소켓 세트 및 각종 공구 포함 메카닉 공구 세트 할인
  • Amazon Big Spring Sale 2026: 3월 25~31일
Notable Quotes & Details
  • 최대 $190 할인

DIY 공구 구매 소비자

Notes: 쇼핑 딜 광고성 기사, 제휴 커미션 포함

Remembering IEEE Power & Energy Society Leader Mel Olken

IEEE Power & Energy Society 초대 사무총장 Mel Olken 등 IEEE 회원 두 명의 업적을 기리는 추모 기사이다.

  • Mel Olken: 1995년 IEEE PES 초대 사무총장, 2002년 Power & Energy Magazine 창간 편집장, 2016년 은퇴
  • 1958년 IEEE 가입, 1988년 IEEE Fellow 선정(신뢰할 수 있는 발전소 혁신 설계 기여)
  • 2012년 PES Lifetime Achievement Award 수상, 92세로 2026년 1월 9일 타계
  • Stephanie A. Huguenin: Augusta University 연구 과학자, 48세로 2025년 10월 1일 타계
  • Huguenin은 인도 자원봉사 중 얻은 질병으로 사망, IP 설계·네트워크 보안 분야 연구 수행
Notable Quotes & Details
  • Mel Olken 92세, 2026년 1월 9일 타계
  • Stephanie Huguenin 48세, 2025년 10월 1일 타계

IEEE 회원, 전력·에너지 공학 전문가

Transforming Data Science With NVIDIA RTX PRO 6000 Blackwell Workstation Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition GPU가 데이터 사이언스 워크플로우를 CPU 대비 최대 50배 가속할 수 있다는 PNY Technologies 후원 기사이다.

  • 단일 워크스테이션에 최대 4개 GPU 장착으로 데이터센터급 성능 구현 가능
  • CUDA-X cuDF 라이브러리로 pandas 워크플로우 제로 코드 변경으로 최대 50배 성능 향상
  • 조인 연산: CPU 약 5분 → GPU 14초, 그룹바이 연산: 4분 → 4초
  • CUDA-X, NVIDIA Enterprise 소프트웨어 스택 통합, 100개 이상 AI 앱 지원
  • 온프레미스 데이터 처리로 보안 강화 및 클라우드 비용 절감
Notable Quotes & Details
  • CPU 대비 최대 50배 성능 향상
  • 조인 연산 5분 → 14초
  • 그룹바이 연산 4분 → 4초

데이터 사이언티스트, 엔터프라이즈 AI 개발자

Notes: PNY Technologies 후원 광고성 기사

Why Thermal Metrology Must Evolve for Next-Generation Semiconductors

AI 기반 전력 밀도 증가와 3D 집적으로 인해 반도체 설계에서 열 계측이 리소그래피를 제치고 핵심 병목이 되고 있음을 분석한 화이트페이퍼이다.

  • 차세대 AI 가속기의 열 플럭스 예측치가 1,000 W/cm²를 초과할 전망
  • 나노스케일 박막에서는 벌크 물성 가정이 실패하여 새로운 측정 기법 필요
  • 다이아몬드, BAs, BNNTs 등 초고열전도 소재의 측정 과제 대두
  • 접합 인터페이스 및 TIM 레이어의 열 경계 저항이 신뢰성의 1차 변수로 부상
  • 열-우선 설계 워크플로우: 설계 초기 단계에서 측정된 열 특성 통합 필요
Notable Quotes & Details
  • 차세대 가속기 열 플럭스 예측: 1,000 W/cm² 초과
  • 광대역갭 소자 200°C 이상 작동

반도체 설계 엔지니어, 열 공학 연구자

Notes: Wiley Knowledge Hub 화이트페이퍼 광고성 콘텐츠, 다운로드 유도

QCon London 2026: Running AI at the Edge - Running Real Workloads Directly in the Browser

QCon London 2026에서 James Hall이 Transformers.js, WebLLM, WebGPU를 활용해 서버 없이 브라우저에서 직접 AI 추론을 실행하는 실용적 방법을 발표했다.

  • 브라우저 네이티브 AI 추론의 장점: 아키텍처적 프라이버시, 레이턴시 감소, 클라우드 비용 예측 가능
  • Transformers.js v4: WebGPU로 BERT 4배 속도 향상, 20B 파라미터 모델 60 토큰/초 지원
  • Chrome 내장 Gemini Nano Prompt API로 모델 다운로드 없이 번역·요약·언어 감지 지원
  • 양자화로 7GB 모델을 2GB로 압축 가능(약간의 품질 손실)
  • DuckDB(WebAssembly) + 로컬 LLM 조합으로 서버 없는 인브라우저 데이터 분석 구현
  • Whisper 모델로 거의 인간 수준 전사, 환각 감지용 확률 점수 제공
  • 로컬 추론 선택 기준: 프라이버시·레이턴시·오프라인 필요·비용 예측 가능성이 모델 크기 제약을 상쇄할 때
Notable Quotes & Details
  • Transformers.js v4: 20B 파라미터 모델 60 토큰/초
  • 7GB → 2GB 양자화 가능
  • James Hall: Parallax 창업자·기술이사, jsPDF 제작자

프론트엔드 개발자, AI 엔지니어, 웹 개발자

Presentation: Data Mesh in Action: A Journey From Ideation to Implementation

Horse Powertrain의 Anurag Kale가 중앙집중식 데이터 병목에서 Azure Databricks 기반 Data Mesh 아키텍처로 전환한 실제 구현 여정을 공유한 InfoQ 프레젠테이션이다.

  • Data Mesh 4대 기둥: 도메인 소유권, 데이터 제품화, 셀프서브 플랫폼, 연합 거버넌스
  • Azure Databricks + GitHub Actions + Terraform + Bicep으로 10~15분 내 워크스페이스 자동 프로비저닝
  • Domain-Driven Design의 Context Map으로 도메인 경계 설정
  • Databricks Asset Bundles로 데이터 파이프라인 버전 관리·CI/CD 배포 및 데이터 계약 강제화
  • 데이터 제품을 3단계(3정규형, 기술적 데이터 제품, 비즈니스 데이터 제품)로 구분
  • Unity Catalog 기반 역할별 접근 제어로 연합 거버넌스 구현
Notable Quotes & Details
  • 워크스페이스 프로비저닝 10~15분 이내
  • Horse Powertrain은 Volvo Cars에서 분리된 엔진·변속기 제조사
  • Anurag Kale: AWS Data Hero, AWS re:Invent 2023 발표자

데이터 엔지니어, 데이터 아키텍트, 엔터프라이즈 소프트웨어 개발자

Notes: 긴 발표 녹취록 형식으로 매우 상세한 기술 내용 포함

QCon London 2026: Fixing the AI Infra Scale Problem by Stuffing 1M Sandboxes in a Single Server

Unikraft CEO Felipe Huici가 QCon London 2026에서 단일 범용 서버에 100만 개의 VM을 밀리초 단위로 부팅·운용하는 유니커널 기반 클라우드 플랫폼을 라이브 시연했다.

  • 단일 범용 서버에서 스케일-투-제로 방식으로 100만 개의 VM 운용 라이브 시연
  • VM 스냅샷 기반 재개: 앱 초기화 후 스냅샷 저장, 이후 요청 시 밀리초 내 재개(콜드 부팅 대신)
  • 압축·차등 스냅샷으로 100만 VM 저장 용량 약 12TB (범용 NVMe SSD로 가능)
  • Kubernetes 가상 kubelet 통합: microVM을 Pod로 표현하면서 내부적으로 sleep/wake 반복
  • Claude 기반 AI 에이전트 샌드박스가 슬립 상태에서 수 밀리초 내 응답 시연
  • 격리 모델: VM 내 루트 권한 탈취해도 다른 VM에 영향 없는 VM급 격리 보장
Notable Quotes & Details
  • 100만 번째 VM 부팅 라이브 데모, 약 10ms 응답
  • 100만 VM 스냅샷 저장 용량 약 12TB
  • EuroSys 2021 Best Paper Award 수상
  • 2017년 SOSP 논문: 단일 서버에 8,000 VM 수용 시연
  • Huici: '속도, 규모, 강한 격리는 더 이상 두 개 중 선택이 아니다'

클라우드 인프라 엔지니어, AI 에이전트 인프라 개발자, 시스템 프로그래머

Jooojub
System S/W engineer
Explore Tags
Series
    Recent Post
    © 2026. jooojub. All right reserved.