Daily Briefing

April 15, 2026
2026-04-14
90 articles

Anthropic’s Long-Term Benefit Trust appoints Vas Narasimhan to Board of Directors

Anthropic의 장기적 이익 신탁이 Vas Narasimhan을 이사회 이사로 임명하여 AI의 안전한 발전과 공공의 이익 추구에 대한 노력을 강화한다.

  • Vas Narasimhan은 Anthropic의 장기적 이익 신탁에 의해 이사회 이사로 임명되었다.
  • 그는 노바티스의 CEO이자 의사-과학자로, AI가 헬스케어 및 생명과학 분야에 큰 잠재력을 가지고 있다고 믿는다.
  • Anthropic의 공동 설립자 Daniela Amodei는 Narasimhan이 신기술을 안전하고 대규모로 도입하는 데 탁월한 경험을 가지고 있음을 강조했다.
  • 장기적 이익 신탁은 Anthropic의 재정적 성공과 공공 이익이라는 임무의 균형을 맞추는 역할을 하며, 이번 임명으로 신탁이 지명한 이사들이 이사회의 과반수를 차지하게 되었다.
Notable Quotes & Details
  • "Vas brings something rare to our board. He's overseen the development and approval of more than 35 novel medicines for the benefit of patients around the world in one of the most regulated industries." - Daniela Amodei, Co-founder and President of Anthropic.
  • "The Long-Term Benefit Trust's role is to appoint directors who will ensure Anthropic responsibly balances its commitment to stockholders and its public benefit mission as the company grows. Vas has spent his career stewarding breakthrough science responsibly —exactly the perspective we are excited to have on the board as we develop consequential technology. We’re excited for what he’ll bring to the table," - Neil “Buddy” Shah, Chair of Anthropic's Long-Term Benefit Trust.

AI 산업 관계자, 투자자, 기업 경영진

You can decompose models into a graph database [N]

정적 LLM 모델을 그래프 데이터베이스로 분해하여 재훈련 없이 내부 지식을 업데이트하고 메모리 사용량을 줄이는 새로운 방법을 제안합니다.

  • 정적 LLM 모델을 그래프 데이터베이스로 분해하는 기술.
  • 각 계층에서 kNN(최근접 이웃) 탐색을 수행하며, 이는 행렬 곱셈과 수학적으로 동일함.
  • 모델의 내부 사실적 지식을 재훈련 없이 그래프 데이터베이스에 삽입하여 업데이트 가능.
  • 그래프 데이터베이스 사용으로 메모리 사용량 감소.
  • IBM CTO가 개발한 기술.
Notable Quotes & Details
  • IBM CTO

AI 연구자, LLM 개발자, 데이터베이스 엔지니어

Turn your best AI prompts into one-click tools in Chrome

Chrome의 새로운 기능인 'Skills'를 통해 AI 프롬프트를 저장하고 재사용하여 웹 작업을 효율화할 수 있습니다.

  • Chrome의 'Skills' 기능은 AI 프롬프트를 저장하고 재사용하여 웹 작업 효율을 높입니다.
  • 동일한 AI 작업을 반복할 때 프롬프트를 다시 입력할 필요 없이 한 번의 클릭으로 실행할 수 있습니다.
  • 채팅 기록에서 유용한 프롬프트를 Skill로 저장하거나, 미리 만들어진 Skill 라이브러리에서 추가할 수 있습니다.
  • 사용자는 저장된 Skill을 편집하거나 필요에 맞게 커스터마이징할 수 있습니다.
  • 이 기능은 건강, 쇼핑, 생산성 등 다양한 분야에서 맞춤형 워크플로우를 생성하는 데 활용됩니다.
Notable Quotes & Details

일반 크롬 사용자, AI 도구를 활용하는 사용자, 생산성 향상에 관심 있는 사용자

Bringing people together at AI for the Economy Forum

구글이 AI 경제 포럼을 통해 AI가 경제와 일자리에 미치는 영향을 논의하고 연구 투자 및 인력 훈련을 지원하여 사회적 협력을 강조한다.

  • 구글은 AI가 경제와 일자리에 미치는 영향을 이해하기 위한 연구에 투자한다.
  • 변화하는 경제에서 필요한 기술을 습득할 수 있도록 인력 훈련 프로그램을 제공한다.
  • 헬스케어 인력 훈련 및 고수요 분야의 견습 과정을 지원한다.
  • AI 발전의 혜택이 모두에게 돌아갈 수 있도록 파트너십과 투자에 전념한다.
  • 워싱턴 D.C.에서 MIT FutureTech과 공동 주최한 AI 경제 포럼에서 AI의 사회적 영향을 논의한다.
Notable Quotes & Details

정부 관계자, 경제학자, 기업 리더, AI 정책 입안자, 일반 독자

Anthropic’s Claude Managed Agents gives enterprises a new one-stop shop but raises vendor 'lock-in' risk

Anthropic의 Claude Managed Agents는 기업의 AI 에이전트 배포 복잡성을 줄이지만, 벤더 종속성 위험을 증가시킬 수 있는 새로운 플랫폼입니다.

  • Anthropic은 Claude Managed Agents를 통해 기업 AI 에이전트 배포의 복잡한 부분을 제거하는 것을 목표로 합니다.
  • 이 플랫폼은 기존 오케스트레이션 프레임워크와 경쟁합니다.
  • 기업은 AI 모델 계층에 오케스트레이션 로직을 내장하여 에이전트 배포 속도를 높일 수 있습니다.
  • 속도 향상 등의 이점이 있지만, 이는 벤더(Anthropic)에 대한 통제권 증가와 잠재적 '록인' 위험을 초래합니다.
  • Anthropic은 이 플랫폼이 샌드박싱 코드 실행, 체크포인트, 자격 증명 관리, 범위 지정 권한 및 엔드투엔드 추적 없이 에이전트 작업, 도구 및 가드레일을 정의할 수 있도록 하여 '복잡성을 처리한다'고 주장합니다.
Notable Quotes & Details

엔터프라이즈 AI 관리자, 비즈니스 리더, AI 개발자

Google leaders including Demis Hassabis push back on claim of uneven AI adoption internally

구글의 AI 리더들이 스티브 예그의 내부 AI 도입 불균형 주장에 반박하며, 구글 엔지니어들의 AI 도구 활용도에 대한 논쟁이 촉발되었다.

  • 스티브 예그는 전 구글 직원의 주장을 인용해 구글 내부의 AI 도입이 외부 기대보다 평범하며, 20%-60%-20%의 사용 패턴을 보인다고 주장했다.
  • 이에 따르면 소수의 AI 거부자(20%), 단순 챗/코딩 어시스턴트 활용자(60%), 그리고 소수의 AI 선도적 엔지니어(20%)로 나뉜다.
  • 예그의 주장은 4,500개 이상의 좋아요와 205개의 인용 게시물, 458개의 답글, 190만 회의 조회수를 기록하며 빠르게 확산되었다.
  • 예그는 전 구글 엔지니어이자 유명한 소프트웨어 커뮤니티 인사로, 그의 비판은 구글 내부에서도 진지하게 받아들여진다.
Notable Quotes & Details
  • "20%-60%-20% split"
  • "4,500 likes, 205 quote posts, 458 replies and 1.9 million views as of April 14"

AI 산업 분석가, 소프트웨어 엔지니어, 기술 기업 경영진

Notes: 내용이 일부 잘려 완전하지 않음

Microsoft launches MAI-Image-2-Efficient, a cheaper and faster AI image model

Microsoft가 주력 text-to-image 모델인 MAI-Image-2의 저비용, 고속 변형인 MAI-Image-2-Efficient를 출시하여 비용 효율적인 AI 이미지 생성 시장을 공략한다.

  • MAI-Image-2-Efficient는 기존 모델 대비 거의 절반 가격으로 생산 준비 품질을 제공한다.
  • 텍스트 입력 토큰당 5달러, 이미지 출력 토큰당 19.50달러로 MAI-Image-2보다 약 41% 저렴하다.
  • 기존 모델보다 22% 빠르며, NVIDIA H100 GPU에서 처리량 효율이 4배 더 높다.
  • Google의 Gemini 3.1 Flash, Gemini 3.1 Flash Image, Gemini 3 Pro Image와 같은 경쟁 모델보다 평균 40% 더 빠르다고 주장한다.
  • Copilot 및 Bing에도 출시될 예정이며, 대량의 비용에 민감한 생산 워크로드에 적합하다.
Notable Quotes & Details
  • 41% reduction
  • 22% faster
  • 4x greater throughput efficiency
  • 40% on p50 latency benchmarks

AI 개발자, 기업, AI 서비스 기획자

Databricks tested a stronger model against its multi-step agent on hybrid queries. The stronger model still lost by 21%.

Databricks의 새로운 연구는 하이브리드 쿼리에서 단일 턴 RAG 시스템에 비해 다단계 에이전트 접근 방식이 20% 이상의 성능 향상을 보이며, 이는 아키텍처 문제이지 모델 품질 문제가 아님을 시사합니다.

  • AI 에이전트 구축 시 정형 및 비정형 데이터를 결합해야 하는 질문에서 단일 턴 RAG 시스템이 실패하는 문제에 직면한다.
  • Databricks의 연구는 다단계 에이전트 접근 방식이 기업 지식 작업에서 단일 턴 RAG 기준선보다 20% 이상 우수한 성능을 보임을 확인했다.
  • 이 성능 격차는 모델 품질보다는 아키텍처적 문제로 인한 것이라고 Databricks는 주장한다.
  • 기존 연구를 확장하여 관계형 테이블과 SQL 웨어하우스와 같은 정형 데이터 소스를 추론 루프에 추가했다.
  • 단일 턴 검색은 정밀한 정형 필터와 개방형 의미론적 검색이 혼합된 쿼리를 처리할 때 실패한다.
Notable Quotes & Details
  • 20%
  • Michael Bendersky

AI 연구자, 데이터 과학자, 기업 기술 리더

43% of AI-generated code changes need debugging in production, survey finds

AI 생성 코드의 확산에도 불구하고, 프로덕션 환경에서 AI가 생성한 코드 변경 사항의 43%가 수동 디버깅을 필요로 한다는 Lightrun의 2026년 설문조사 결과가 발표되었다.

  • AI 생성 코드 변경 사항의 43%가 QA 및 스테이징 테스트를 통과한 후에도 프로덕션 환경에서 수동 디버깅이 필요하다.
  • AI가 제안한 수정 사항을 단 한 번의 재배포 주기로 검증할 수 있는 조직은 없었으며, 88%는 2~3회, 11%는 4~6회의 주기가 필요하다고 응답했다.
  • 마이크로소프트와 구글 CEO는 자사 코드의 약 25%가 AI 생성 코드라고 밝혔고, AIOps 시장은 2026년 189.5억 달러에서 2031년 377.9억 달러로 성장할 것으로 예상된다.
  • 보고서는 AI가 생성하는 오류를 잡아내기 위한 인프라가 AI의 생산 능력에 비해 크게 뒤처져 있음을 시사한다.
  • Lightrun의 최고 비즈니스 책임자는 AI 코드 채택으로 인한 생산성 향상에도 불구하고, 배포 파이프라인 전체가 느려지는 등 직접적인 부정적 영향이 있다고 언급했다.
Notable Quotes & Details
  • "43% of AI-generated code changes require manual debugging in production environments"
  • $18.95 billion in 2026 and is projected to reach $37.79 billion by 2031
  • "The 0% figure signals that engineering is hitting a trust wall with AI adoption" - Or Maimon, Lightrun's chief business officer

소프트웨어 엔지니어링 리더, DevOps 전문가, AI 기술 채택 기업, IT 업계 분석가

SAP brings agentic AI to human capital management

SAP가 에이전트 AI를 인적 자원 관리(HCM) 모듈에 통합하여 운영 효율성을 높이고 비용을 절감하는 방안을 추진하고 있다.

  • SAP의 SuccessFactors 1H 2026 릴리스는 채용, 급여, 인력 관리 등 HCM 전반에 AI 에이전트를 내장하여 운영 병목 현상을 예측하고 줄이는 것을 목표로 한다.
  • AI 에이전트는 시스템 상태를 모니터링하고, 이상 징후를 식별하며, 인간 운영자에게 상황에 맞는 해결책을 제시한다.
  • 특히 분산된 엔터프라이즈 시스템 간의 데이터 동기화 실패 문제를 자동화된 방식으로 해결하여 IT 지원팀의 문제 해결 시간을 단축한다.
  • 이러한 자율 모니터링 시스템은 방대한 컴퓨팅 자원을 필요로 하며, CIO는 클라우드 인프라 비용과 IT 티켓 감소로 인한 운영 절감 효과를 신중하게 비교해야 한다.
  • 알고리즘 환각 위험을 완화하기 위해 엄격한 안전 장치와 회사 정책에 기반한 데이터 활용이 필수적이다.
Notable Quotes & Details

기업 IT 관리자, HCM 전문가, AI 및 엔터프라이즈 소프트웨어 산업 관계자

Notes: 내용 불완전

Canada’s Scotiabank preps for its AI future

캐나다의 스코샤뱅크(Scotiabank)가 AI 운영을 위한 AI 프레임워크 '스코샤 인텔리전스(Scotia Intelligence)'를 출시하여 직원들이 AI 도구에 안전하게 접근하고 활용할 수 있도록 지원하고 있다.

  • 스코샤뱅크는 여러 플랫폼, 데이터 감독, 소프트웨어 도구를 통합한 AI 프레임워크 '스코샤 인텔리전스'를 구축했다.
  • 이 프레임워크의 목적은 직원, 특히 고객 대면 팀이 기존 거버넌스 및 보안 규칙 하에 AI에 접근할 수 있도록 하는 것이다.
  • 스코샤뱅크는 캐나다에서 독특한 데이터 윤리 서약서를 발표했으며, 이는 AI 활용의 신뢰도를 높이는 데 기여한다.
  • '스코샤 내비게이터(Scotia Navigator)'는 직원 중심의 AI 도구로, 의사 결정 및 소프트웨어 개발을 지원하며 직원들이 회사 거버넌스 규칙 내에서 AI 비서를 구축 및 배포할 수 있게 한다.
  • AI는 컨택 센터 고객 문의의 40% 이상을 처리하고 상업용 이메일의 약 90%를 자동 전달하는 등 효율성 증대 효과를 보였다.
Notable Quotes & Details
  • AI now handles more than 40% per cent of client queries
  • AI automatically forwards around 90% of commercial emails
  • Tim Clark, Scotiabank’s group head and chief information officer

금융업계 관계자, 기업 AI 도입 담당자, AI 거버넌스 및 보안 전문가

Notes: 내용 불완전

Hyundai expands into robotics and physical AI systems

현대자동차 그룹이 차량을 넘어 로봇 공학과 물리적 AI 시스템으로 사업 영역을 확장하여 실제 세계에서 작동하는 기계 개발에 집중하고 있습니다.

  • 현대는 로봇 공학과 AI가 미래 성장의 핵심 역할을 할 것으로 보며, 특히 물리적 AI(실제 공간에서 움직이고 반응하는 로봇 및 시스템에 AI를 적용)에 중점을 둡니다.
  • 2028년까지 미국에 260억 달러를 투자할 계획이며, 이 중 상당 부분이 로봇 공학과 AI 기반 시스템에 할당됩니다.
  • 현대는 로봇이 인간을 대체하는 것이 아니라 협력하여 작업 효율성과 제품 품질을 향상하는 시스템을 개발하고 있습니다.
  • 보스턴 다이내믹스에서 개발한 휴머노이드 로봇을 포함한 기계들을 2028년경부터 제조 현장에 배치하고, 2030년까지 연간 최대 3만 대 규모로 생산을 확대할 계획입니다.
  • 초기에는 산업 환경에 집중하지만, 향후 물류 및 모빌리티 서비스 등 다양한 분야로 확장할 가능성을 모색하고 있습니다.
Notable Quotes & Details
  • $26 billion in the US by 2028
  • roughly $20.5 billion invested over the past 40 years
  • up to 30,000 units per year by 2030
  • acquired a controlling stake in 2021

비즈니스 리더, 투자자, 자동차 산업 관계자, AI 및 로봇 공학 기술 동향에 관심 있는 일반 독자

Notes: 기사가 중간에 잘렸습니다.

Synera raises $40M to bring agentic AI into engineering workflows at NASA, BMW, Airbus, and Hyundai

독일 스타트업 Synera가 NASA, BMW, Airbus, 현대 등에서 활용되는 엔지니어링 워크플로우에 에이전트 기반 AI를 도입하기 위해 4천만 달러의 시리즈 B 투자를 유치했다.

  • Synera는 엔지니어링 작업을 자율적으로 수행하는 AI 에이전트 플랫폼을 개발했다.
  • 이 플랫폼은 75개 이상의 기존 엔지니어링 도구와 연동되며, 기존 인프라 교체 없이 사용 가능하다.
  • Revaia가 시리즈 B 투자를 주도했으며, Capgemini 및 기존 투자자들이 참여했다.
  • 투자금은 미국 및 국제 시장 확장에 사용될 예정이며, 이미 NASA, BMW, Airbus, 현대 등에서 사용 중이다.
  • 이 플랫폼은 온프레미스 방식으로 배포되어 고객사의 지적 재산과 민감한 데이터를 보호한다.
Notable Quotes & Details
  • 4천만 달러
  • €35 million
  • 75개 이상의 기존 도구
  • 2018년 설립
  • 2022년 리브랜딩

산업 엔지니어링 분야의 기업, AI 및 에이전트 기술 투자자

Notes: 내용이 원문에서 일부 잘려나갔음.

Amazon agrees to acquire Globalstar in an $11.6B deal

Amazon이 Globalstar를 116억 달러에 인수하기로 합의했으며, 이를 통해 2028년부터 직접 위성 서비스를 시작할 수 있는 스펙트럼과 인프라를 확보하게 됩니다.

  • Amazon은 Globalstar를 약 116억 달러에 인수하기로 합의했습니다.
  • Globalstar 주주들은 주당 90달러의 현금 또는 Amazon 주식을 선택할 수 있으며, 이는 월요일 종가 대비 23.5%의 프리미엄입니다.
  • 이번 인수를 통해 Amazon은 2028년부터 직접 위성 서비스를 출시할 수 있는 스펙트럼, 인프라 및 운영 전문 지식을 확보하게 됩니다.
  • Amazon과 Apple은 Amazon Leo가 iPhone 및 Apple Watch에서 위성 기능을 계속 지원하기로 별도 계약을 체결했습니다.
  • Globalstar는 현재 Apple의 2024년 15억 달러 투자에 힘입어 iPhone 14 이후 모델과 Apple Watch Ultra 3에 위성 서비스를 제공하고 있습니다.
Notable Quotes & Details
  • 11.6 billion dollars (acquisition deal value)
  • 90 dollars per share (Globalstar share price)
  • 23.5% premium (over Globalstar's Monday closing price)
  • 2027 (expected deal closure)
  • 58% (Globalstar’s combined voting power approved)
  • 1.5 billion dollars (Apple's investment in Globalstar in 2024)
  • 20% equity stake (Apple's stake in Globalstar)
  • 85% (Apple's rights to Globalstar’s network capacity)
  • 2028 (Amazon to launch direct-to-device satellite services)

기술 업계 투자자, 사업 전략가, AI 및 위성 통신 분야에 관심 있는 일반 독자

Hexagon acquires Waygate Technologies from Baker Hughes for $1.45 billion

Hexagon이 Baker Hughes로부터 비파괴 검사 기술 전문 기업인 Waygate Technologies를 14억 5천만 달러에 인수하며 산업 검사 기술 포트폴리오를 확장합니다.

  • Hexagon은 Baker Hughes의 비파괴 검사(NDT) 기술 전문 기업인 Waygate Technologies를 14억 5천만 달러(약 1조 9천억 원)에 인수합니다.
  • Waygate Technologies는 연간 약 6억 3천만 달러(약 8천 6백억 원)의 매출과 1,500명의 직원을 보유하고 있습니다.
  • 이번 인수를 통해 Hexagon의 제조 인텔리전스 사업부는 컴퓨터 단층 촬영(CT), 방사선 촬영, 원격 육안 검사 기술을 강화하게 됩니다.
  • 거래는 2026년 하반기에 규제 승인을 거쳐 완료될 예정입니다.
  • Waygate의 매출은 아시아(34%), 북미(30%), 유럽(28%) 등 전 세계적으로 분포되어 있으며, 항공우주, 자동차, 에너지 등 다양한 산업에 서비스를 제공합니다.
Notable Quotes & Details
  • 1.45 billion (인수 금액)
  • 630 million (Waygate 연간 매출)
  • 1,500 employees (Waygate 직원 수)
  • 2026 (거래 완료 예상 시점)
  • 130+ years (합산된 유산)
  • Asia (34%), North America (30%), Europe (28%), rest of world (8%) (Waygate 매출 지역 분포)

산업 분석가, 투자자, 비즈니스 리더, 제조 및 기술 산업 관계자

Helical closes $10M seed to turn bio foundation models into systems

룩셈부르크 기반의 제약 AI 스타트업 Helical이 바이오 파운데이션 모델을 시스템으로 전환하기 위해 1천만 달러의 시드 투자를 유치했습니다.

  • Helical은 Pfizer를 포함한 상위 20개 제약 회사와 이미 협력 중입니다.
  • 이번 시드 라운드는 redalpine이 주도했으며, Cohere 및 HuggingFace의 CEO들이 엔젤 투자자로 참여했습니다.
  • 헬리컬은 방대한 유전체, 전사체, 단백질체 데이터셋으로 훈련된 AI 시스템인 바이오 파운데이션 모델이 제약 연구에서 계산 가설 테스트를 의미있게 만드는 품질 임계점을 이미 넘어섰다는 가설을 가지고 있습니다.
  • 모델의 결과와 과학적 의사결정 사이의 간극을 해소하는 데 중점을 둡니다.
Notable Quotes & Details
  • 투자액: $10M
  • 투자 주도: redalpine
  • 엔젤 투자자: Aidan Gomez (Cohere CEO), Clément Delangue (HuggingFace CEO)
  • 설립자: Rick Schneider, Maxime Allard, Mathieu Klop

제약업계 관계자, AI 스타트업 투자자, AI 연구자

France bets €500 million that quantum computing is the tech race Europe can finally win

프랑스가 5억 유로를 투자하여 양자 컴퓨팅 분야에서 유럽의 선두 주자가 되기 위해 노력하고 있으며, 특히 Alice & Bob 스타트업의 'cat qubit' 기술이 핵심 역할을 하고 있다.

  • 유럽은 지난 10년간 주요 기술 분야에서 뒤처졌으나, 양자 컴퓨팅은 예외일 수 있다.
  • 프랑스 정부는 5억 유로를 투자하여 양자 컴퓨팅 스타트업들을 지원하고 있다.
  • Alice & Bob은 'cat qubit' 기술을 개발하여 양자 컴퓨팅의 오류 문제를 해결하고 물리 큐비트 필요 수를 크게 줄일 수 있다.
  • Alice & Bob은 1억 유로의 Series B 투자를 유치했으며, 파리 북부에 새로운 연구소를 건설 중이다.
  • 프랑스의 PROQCIMA 프로그램은 2030년까지 128 논리 큐비트, 2035년까지 2,048 논리 큐비트 양자 컴퓨터 개발을 목표로 한다.
Notable Quotes & Details
  • 5억 유로 (정부 투자)
  • 1억 유로 (Alice & Bob Series B 투자, 2025년 1월)
  • 1억 3천만 유로 (Alice & Bob 총 펀딩)
  • "It’s not about being faster, It’s about being so dramatically faster that you change what is feasible." (Théau Peronnin, Alice & Bob 공동 창업자 및 CEO)
  • 2030년 (PROQCIMA 프로그램 128 논리 큐비트 목표)
  • 2035년 (PROQCIMA 프로그램 2,048 논리 큐비트 목표)

정부 정책 입안자, 기술 투자자, 양자 컴퓨팅 연구자, 일반 독자

Notes: 본문이 'cat qubit... [truncated]'로 끝나는 것을 보아 내용이 불완전할 수 있음.

Anthropic co-founder confirms the company briefed the Trump administration on Mythos

Anthropic의 공동 창립자 잭 클락이 자사의 강력한 AI 모델 'Mythos'에 대해 트럼프 행정부에 보고했으며, 국방부와의 법적 분쟁에도 불구하고 국가 안보 관련 협력을 중요하게 생각한다고 밝혔다.

  • Anthropic의 공동 창립자 잭 클락은 트럼프 행정부에 'Mythos' 모델에 대해 브리핑했음을 확인했다.
  • 'Mythos'는 강력한 사이버 보안 기능 때문에 위험하게 여겨져 대중에 공개되지 않은 AI 모델이다.
  • Anthropic은 국방부와의 소송을 '사소한 계약 분쟁'으로 일축하며 정부에 AI 기술에 대한 정보를 제공하는 것의 중요성을 강조했다.
  • 트럼프 정부 관계자들은 JP모건 체이스, 골드만삭스 등 은행들이 'Mythos'를 테스트하도록 독려한 것으로 알려졌다.
  • 클락은 또한 AI가 사회에 미치는 영향(실업, 고등 교육)에 대해서도 언급했다.
Notable Quotes & Details

AI 산업 관계자, 정책 입안자, 기술 뉴스 독자

Max Hodak’s Science Corp. is preparing to place its first sensor in a human brain

Max Hodak의 Science Corp.이 인간 두뇌에 첫 센서를 이식할 준비를 하고 있으며, 이는 다양한 신경학적 질환 치료에 도움을 줄 수 있다.

  • Science Corp.이 인간 두뇌에 센서 이식을 준비 중이다.
  • 이 센서는 성공 시 여러 신경학적 질환 치료에 기여할 수 있다.
  • 초기 활용 방안으로 손상된 뇌나 척수 세포에 전기 자극을 제공하여 회복을 촉진할 수 있다.
Notable Quotes & Details

AI/뇌과학 관련 기술 투자자, 의료 기술 개발자, 일반 독자

Google adds AI Skills to Chrome to help you save favorite workflows

Google Chrome에 새로운 AI 기능인 'Skills'가 추가되어 사용자가 자주 사용하는 AI 프롬프트를 저장하고 다양한 웹 페이지에서 재사용할 수 있게 되었다.

  • Google Chrome에 'Skills'라는 새로운 AI 기능이 도입된다.
  • 이 기능은 사용자가 자주 사용하는 AI 프롬프트를 저장하고 재사용할 수 있도록 돕는다.
  • Gemini AI와 연동되어 웹 페이지 질문, 요약 등 기존 기능에 더해 원클릭 프롬프트 실행이 가능하다.
  • 예를 들어, 레시피 웹사이트에서 비건 대체 식품을 제안하도록 Gemini에 요청하는 프롬프트를 저장하여 재사용할 수 있다.
  • 건강, 쇼핑, 문서 요약 등 다양한 분야에서 활용될 것으로 예상되며, Google은 시작을 돕기 위해 Skills 라이브러리를 제공한다.
Notable Quotes & Details

일반 Chrome 사용자, Gemini AI 사용자, AI 활용에 관심 있는 일반 소비자

In just a couple weeks, StrictlyVC San Francisco brings leaders from TDK Ventures, Replit, and more together

샌프란시스코에서 열리는 StrictlyVC 행사가 TDK 벤처스와 Replit 등 AI 분야 리더들을 초청하여 자금 조달 및 스타트업 통찰력을 제공한다.

  • StrictlyVC 샌프란시스코 행사가 TDK 벤처스와 Replit 공동 창업자를 포함한 주요 리더들과 함께 개최된다.
  • 기업 벤처 캐피털(VC)의 역할과 TDK Ventures가 투자하는 스타트업(Groq, Ascend Elements, Silicon Box 등)에 대한 통찰을 제공한다.
  • AI 플랫폼의 신뢰성을 높이는 방법을 논의할 Forum AI의 공동 창업자 Campbell Brown도 참여한다.
  • AI 혁신가와 창업자들이 자금 조달 및 최신 시장 동향을 파악할 기회이다.
Notable Quotes & Details
  • TDK Ventures는 $500M 규모의 초기 단계 스타트업 투자를 진행한다.
  • TDK Ventures는 52개의 스타트업과 3개의 유니콘(Groq, Ascend Elements, Silicon Box)에 투자했다.
  • 행사 날짜: 4월 30일
  • 장소: Sentro Filipino Cultural Center

AI 혁신가, 스타트업 창업자, 벤처 캐피털리스트, 투자자

Google brings its Gemini Personal Intelligence feature to India

Google이 인도 사용자들에게 Gmail, Google 포토 등 개인 계정을 연동하여 맞춤형 답변을 제공하는 Gemini 개인 지능 기능을 출시했다.

  • 인도 사용자는 Gemini에 개인 Google 계정을 연결하여 이메일이나 사진 등의 정보를 기반으로 맞춤형 질문에 대한 답변을 얻을 수 있다.
  • 예를 들어, "자이푸르 여행 계획은?"과 같은 질문으로 개인 정보를 활용한 답변을 받을 수 있다.
  • Gemini는 답변의 출처를 명시하여 사용자가 정보를 확인할 수 있도록 한다.
  • 초기에는 AI Pro 및 AI Ultra 사용자에게 제공되며, 향후 몇 주 내로 무료 사용자에게도 확대될 예정이다.
  • Google은 Gemini가 맥락을 잘못 파악하거나 관련 없는 주제를 연결할 수 있다고 경고하며, 사용자 피드백을 통해 개선할 수 있다고 언급했다.
Notable Quotes & Details

일반 독자, Google Gemini 사용자, 인도 시장 기술 동향에 관심 있는 사람

The attacks on Sam Altman are a warning for the AI world

샘 알트만의 자택 공격 사건이 AI 기술에 대한 저항과 관련된 폭력적 사건으로 번질 위험성을 보여주며, AI 산업 전반에 경고 메시지를 던지고 있다.

  • OpenAI CEO 샘 알트만의 자택에 대한 공격이 발생했으며, 20세의 용의자는 AI 경쟁이 인류 멸종을 초래할 수 있다는 두려움 때문에 범행을 저질렀다고 전해졌다.
  • AI 기술에 대한 저항은 대부분 비폭력적이지만, 최근 일련의 사건들은 폭력적 양상으로 비화될 가능성을 시사한다.
  • AI 데이터 센터 건설 반대나 급속한 AI 개발 속도 둔화를 촉구하는 시위 등 비폭력적인 비판이 주를 이뤘으나, 이번 사건은 업계 관계자들에게 직접적인 위협이 될 수 있음을 보여준다.
  • 과거에도 지역 공무원들을 대상으로 한 위협 및 괴롭힘 사례가 있었다는 프린스턴 대학의 보고서가 있으며, 이번 사건으로 AI 반대 움직임이 더욱 고조될 수 있음을 시사한다.
Notable Quotes & Details

일반 독자, AI 산업 관계자, 정책 입안자

Chrome now lets you turn AI prompts into repeatable ‘Skills’

구글 크롬이 사용자가 AI 프롬프트를 '스킬'로 저장하여 여러 웹페이지에서 반복적으로 재사용할 수 있는 새로운 워크플로우 기능을 출시합니다.

  • 크롬 사용자는 자주 사용하는 Gemini AI 프롬프트를 '스킬'로 저장하여 한 번의 클릭으로 재사용할 수 있게 됩니다.
  • 이 기능은 여러 페이지를 방문하며 동일한 AI 작업을 반복할 때 프롬프트를 다시 입력하거나 복사-붙여넣기 할 필요를 없애줍니다.
  • 스킬은 데스크톱 크롬 사용자 중 언어가 미국 영어로 설정된 사용자에게 오늘부터 순차적으로 배포됩니다.
  • 사용자는 Gemini 채팅 기록에서 스킬을 직접 저장할 수 있으며, 동일한 구글 계정으로 로그인된 다른 데스크톱 기기에서도 사용 가능합니다.
  • 구글은 미리 설정된 스킬 라이브러리도 제공하며, 이는 사용자 필요에 맞게 커스터마이징할 수 있습니다.
Notable Quotes & Details

일반 독자, 크롬 사용자, AI 도구 사용자

Has Google’s AI watermarking system been reverse-engineered?

한 개발자가 구글 딥마인드의 AI 워터마킹 시스템인 SynthID를 리버스 엔지니어링했다고 주장했지만, 구글은 이를 부인하고 있다.

  • 소프트웨어 개발자 Aloshdenny가 구글의 AI 워터마크 시스템인 SynthID를 리버스 엔지니어링했다고 주장했다.
  • Aloshdenny는 200장의 제미니 생성 이미지를 활용하여 워터마크 패턴을 파악하고 제거 또는 삽입하는 방법을 공개했다.
  • 구글은 이 주장이 사실이 아니라고 반박했다.
  • SynthID는 구글 AI 도구로 생성된 콘텐츠에 거의 보이지 않는 워터마크를 삽입하는 시스템이다.
  • Aloshdenny는 SynthID의 엔지니어링을 높이 평가했으나, 워터마크를 완전히 제거하지는 못했고 디코더를 혼란시키는 방식을 사용했다.
Notable Quotes & Details
  • "No neural networks. No proprietary access."
  • "Turns out if you’re unemployed and average enough ‘pure black’ AI-generated images, every nonzero pixel is literally just the watermark staring back at you.”
  • "genuinely good engineering"
  • 200 Gemini-generated images

AI 개발자, 보안 연구자, 일반 독자

Daniel Moreno-Gama is facing federal charges for attacking Sam Altman’s home and OpenAI’s HQ

Daniel Moreno-Gama가 Sam Altman의 집과 OpenAI 본사를 공격한 혐의로 연방 기소되었으며, AI 반대 성향과 AI 기업 경영진에 대한 위협이 드러났습니다.

  • Daniel Moreno-Gama는 Sam Altman 살해 의도 및 OpenAI 본사 공격 혐의로 연방 기소되었습니다.
  • 그는 Molotov 칵테일을 사용하고 OpenAI 본사 유리문을 의자로 부수려 했습니다.
  • 기소된 혐의에는 폭발물을 이용한 재산 파괴 시도와 미등록 총기 소지 등이 포함되며, 최대 20년 및 10년의 징역형에 처해질 수 있습니다.
  • Moreno-Gama는 'Your Last Warning'이라는 문서에서 AI에 반대하고 AI 기업 CEO 및 투자자 살해를 주장했습니다.
  • 이 문서는 그가 전 대학에 보낸 이메일에서도 확인되었으며, AI 반대 의견을 담고 있습니다.
Notable Quotes & Details
  • 2026-04-10
  • 20년
  • 10년

일반 독자, AI 산업 관계자, 보안 관계자

TinyFish AI Releases Full Web Infrastructure Platform for AI Agents: Search, Fetch, Browser, and Agent Under One API Key

TinyFish AI는 AI 에이전트의 웹 상호작용 문제를 해결하기 위해 웹 에이전트, 웹 검색, 웹 브라우저, 웹 Fetch 기능을 통합한 웹 인프라 플랫폼을 출시했다.

  • AI 에이전트가 실시간 웹에서 작업하는 데 어려움을 겪는 문제를 해결한다.
  • 검색, 브라우저 자동화, 콘텐츠 검색을 위한 단편적인 툴링을 통합했다.
  • Web Agent는 자율적인 다단계 웹 작업 흐름을 실행한다.
  • Web Search는 빠른 속도로 구조화된 검색 결과를 JSON으로 제공한다.
  • Web Browser는 28가지 안티-봇 메커니즘을 포함한 관리형 스텔스 Chrome 세션을 제공한다.
  • Web Fetch는 URL을 깨끗한 Markdown, HTML, JSON으로 변환하여 불필요한 마크업을 제거한다.
  • AI 에이전트 파이프라인의 컨텍스트 창 오염 문제를 해결하는 데 중점을 둔다.
Notable Quotes & Details
  • P50 latency of approximately 488ms
  • sub-250ms cold start
  • 28 anti-bot mechanisms

AI 에이전트 개발자, 기업, 소프트웨어 엔지니어.

NVIDIA and the University of Maryland Researchers Released Audio Flamingo Next (AF-Next): A Super Powerful and Open Large Audio-Language Model

NVIDIA와 메릴랜드 대학교 연구진이 인터넷 규모의 오디오 데이터로 훈련된 강력하고 개방형 대규모 오디오-언어 모델(LALM)인 Audio Flamingo Next (AF-Next)를 발표했다.

  • Audio Flamingo Next (AF-Next)는 오디오 이해 분야의 격차를 해소하기 위해 개발된 가장 진보된 오디오-언어 모델이다.
  • AF-Next는 일반적인 질의응답을 위한 AF-Next-Instruct, 고급 다단계 추론을 위한 AF-Next-Think, 상세 오디오 캡셔닝을 위한 AF-Next-Captioner의 세 가지 특수 변형으로 제공된다.
  • LALM은 오디오 인코더와 디코더 전용 언어 모델을 결합하여 오디오 입력에 대한 질문 답변, 캡셔닝, 전사 및 추론을 직접 수행한다.
  • AF-Next 아키텍처는 AF-Whisper 오디오 인코더를 포함한 네 가지 주요 구성 요소로 구성되어 있다.
Notable Quotes & Details

AI 연구자, 머신러닝 개발자, 멀티모달 AI 분야에 관심 있는 일반 독자

Google ADK Multi-Agent Pipeline Tutorial: Data Loading, Statistical Testing, Visualization, and Report Generation in Python

Google ADK를 활용하여 데이터 로딩, 통계 테스트, 시각화 및 보고서 생성을 포함하는 고급 데이터 분석 파이프라인을 구축하는 방법을 설명하는 튜토리얼입니다.

  • Google ADK를 사용한 고급 데이터 분석 파이프라인 구축을 다룹니다.
  • 실용적인 다중 에이전트 시스템으로 구성되어 실제 분석 작업을 처리합니다.
  • 환경 설정, 보안 API 액세스 구성, 중앙 집중식 데이터 저장소 생성에 대한 내용이 포함됩니다.
  • 데이터 로딩, 탐색, 통계 테스트, 시각화 및 보고서 생성을 위한 전문 도구를 정의합니다.
  • 마스터 분석가 에이전트가 전문가를 조율하여 엔드 투 엔드 작업을 처리하는 방법을 보여줍니다.
Notable Quotes & Details

데이터 분석가, AI 개발자, 파이썬 사용자

Google AI Research Proposes Vantage: An LLM-Based Protocol for Measuring Collaboration, Creativity, and Critical Thinking

Google AI Research는 협업, 창의적 사고, 비판적 사고와 같은 '지속 가능한 기술'을 측정하기 위한 LLM 기반 프로토콜인 Vantage를 제안했습니다.

  • Vantage는 대규모 언어 모델을 통해 실제 그룹 상호작용을 시뮬레이션하고 결과를 인간 전문가 수준의 정확도로 평가할 수 있습니다.
  • 기존 표준화된 시험이 측정하기 어려웠던 '지속 가능한 기술'(협업, 창의적 사고, 비판적 사고)의 평가를 목표로 합니다.
  • 생태학적 타당성(실제 상황과 같은 평가)과 심리 측정적 엄격성(표준화된 조건, 재현성)이라는 두 가지 상충하는 평가 속성을 동시에 만족시키려 합니다.
  • PISA 2015 협업 문제 해결 평가와 같은 이전 시도들은 통제는 가능했으나 진정성이 부족했습니다.
Notable Quotes & Details
  • PISA 2015 Collaborative Problem Solving assessment

AI 연구자, 교육 전문가, 심리 측정 전문가

Notes: 내용 불완전

Collaborative AI Systems: Human-AI Teaming Workflows

AI 시스템과 인간의 협력적 업무 흐름이 의사 결정 과정에서 AI의 역할 변화와 효율성 증대를 가져오며, 실제 산업 분야에서 성공적으로 적용되고 있음을 설명합니다.

  • AI와의 협업은 단순히 AI에게 명령하고 결과를 수용하는 것을 넘어선다.
  • 혁신적인 기업들은 AI가 옵션을 생성하고 패턴을 찾아내며, 인간은 이를 검토하고 최종 결정을 내리는 방식으로 협력한다.
  • AlphaFold는 단백질 구조 예측에 AI를 활용하여 연구 시간을 단축했다.
  • Insilico Medicine은 AI 플랫폼으로 신약 개발 기간을 약 75% 단축했다.
  • PathAI는 AI가 조직 샘플을 분석하고 병리학자가 최종 진단을 내리는 방식으로 질병 진단에 기여한다.
Notable Quotes & Details
  • 신약 개발 기간을 약 75% 단축 — 4~5년에서 18개월로

AI 연구자, 데이터 과학자, 기업 의사결정자

Notes: 내용 불완전

Top 7 Docker Compose Templates Every Developer Should Use

개발자들이 일관되고 이식 가능한 환경에서 애플리케이션을 실행하는 데 도움이 되는 7가지 Docker Compose 템플릿을 소개하고, 각 템플릿의 용도와 이점을 설명합니다.

  • Docker Compose는 여러 서비스를 단일 구성 파일로 정의하고 실행하여 현대 웹 개발 프로젝트를 간소화합니다.
  • CMS, 웹 앱, 데이터베이스, Python 백엔드, 스트리밍, 자동화 및 로컬 AI 개발을 위한 7가지 템플릿이 있습니다.
  • 템플릿은 WordPress, Next.js와 같은 애플리케이션을 빠르게 배포하고 관리하는 데 유용합니다.
  • 개발자는 템플릿을 복제하여 로컬에서 실행하고 사용자 정의하여 개발 및 DevOps 프로젝트의 기반으로 활용할 수 있습니다.
Notable Quotes & Details

개발자, DevOps 엔지니어

Notes: 내용 불완전 (파일이 중간에 잘렸습니다.)

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

AI 시스템의 생물학 연구 수행 능력을 측정하기 위한 개선된 벤치마크인 LABBench2를 소개하며, 실제 세계의 과학적 작업 수행 능력 측정의 중요성을 강조한다.

  • LABBench2는 AI 시스템의 생물학 연구 능력을 측정하는 새로운 벤치마크이다.
  • 기존 LAB-Bench의 발전된 형태로, 더 현실적인 맥락에서 약 1,900개의 작업을 포함한다.
  • 현재 최신 모델들의 성능을 평가했으며, LAB-Bench보다 난이도가 크게 상승하여 성능 개선의 여지가 있음을 보여준다.
  • 커뮤니티 활용을 위해 태스크 데이터셋과 공개 평가 하네스를 제공한다.
Notable Quotes & Details
  • 모델별 정확도 차이: -26% ~ -46%
  • 거의 1,900개의 태스크

AI 연구자, 생물학 연구자, 머신러닝 개발자

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

다중 기준 분석(MCA)에서 주관적인 평가와 데이터 다양성 문제를 해결하기 위해, 선형 계획법 기반의 가상 갭 분석(VGA) 모델을 통합한 2단계 방법을 제안하여 정량적 및 정성적 기준을 사용한 대안 평가 및 우선순위 지정을 가능하게 한다.

  • 다중 기준 분석(MCA)은 다양한 기준에 기반하여 대안의 순위를 매기는 데 사용된다.
  • 기존 MCA 방법은 주관적 평가와 데이터 다양성으로 인해 결과의 신뢰성과 정확성에 문제가 있었다.
  • 새로운 선형 계획법 기반의 가상 갭 분석(VGA) 모델이 이러한 문제들을 해결한다.
  • 제안된 2단계 방법은 두 가지 새로운 VGA 모델을 통합하여 비관적인 관점에서 각 대안을 평가한다.
  • 이 방법은 정량적 및 정성적 기준, 그리고 서수 및 등간 데이터를 모두 활용하며, 의사결정 지원 시스템에서 효율적이고 효과적인 평가를 가능하게 한다.
Notable Quotes & Details

AI 연구자, 의사결정 분석가

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers

메모리 제약이 있는 마이크로컨트롤러에서 지속적인 객체 탐지를 위한 적응형 계층적 압축(AHC) 메타 학습 프레임워크를 제안하여, 이질적인 태스크 특성에 맞춰 효율적인 특징 압축을 가능하게 합니다.

  • AHC는 MAML 기반 압축을 통해 각 새로운 태스크에 5단계 내에서 적응합니다.
  • FPN 중복 패턴에 맞는 계층적 다중 스케일 압축을 사용하며, 스케일별 비율(P3 8:1, P4 6.4:1, P5 4:1)을 적용합니다.
  • 단기 및 장기 메모리 뱅크를 결합한 듀얼 메모리 아키텍처를 통해 100KB의 예산 내에서 중요도 기반의 통합을 수행합니다.
  • 카타스트로픽 포겟팅(catastrophic forgetting)을 제한하는 이론적 보장을 제공합니다.
  • CORe50, TiROD, PASCAL VOC 벤치마크에서 기존 기준선 대비 경쟁력 있는 정확도를 달성하며, 100KB 재현 예산 내에서 실용적인 지속적 탐지를 가능하게 합니다.
Notable Quotes & Details
  • O({\epsilon}, {sq.root(T)} + 1/{sq.root(M)})
  • 100KB
  • P3 8:1
  • P4 6.4:1
  • P5 4:1
  • 5 inner-loop steps

AI 연구자, 임베디드 시스템 개발자, 객체 탐지 및 머신러닝 엔지니어

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

클라우드 서비스 플랫폼에서 인간 지원 분석가의 업무 부담을 줄이기 위한 사전 예방적 에이전트 시스템 'Vigil'에 대한 연구.

  • Vigil은 기존 반응형 에이전트와 달리 인간 지원 과정 전반에 걸쳐 도움을 제공하는 사전 예방적 에이전트 시스템이다.
  • 고객과 분석가 간의 대화에 통합되어 명시적인 호출 없이도 선제적으로 지원을 제공한다.
  • 인간이 해결한 사례에서 지식을 추출하여 자율적으로 기능을 업데이트하는 지속적인 자체 개선 메커니즘을 포함한다.
  • ByteDance의 클라우드 플랫폼인 Volcano Engine에 10개월 이상 배포되어 효과성과 실용성이 입증되었다.
  • 이 연구의 오픈 소스 버전은 GitHub에서 공개적으로 이용 가능하다.
Notable Quotes & Details
  • Vigil has been deployed on Volcano Engine, ByteDance's cloud platform, for over ten months.

AI 연구자, 클라우드 서비스 운영자, 기술 지원 시스템 개발자

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

객체 지향 프로그래밍 개념을 활용하여 로봇의 환경 모델링 및 계획 능력을 향상시키는 OOWM 프레임워크를 제안한다.

  • 기존 Chain-of-Thought (CoT) 방식의 선형 자연어 한계를 지적하며, 로봇의 환경 모델링에 부적합하다고 주장.
  • OOWM(Object-Oriented World Modeling)은 세계 모델을 상태 추상화($G_ ext{state}$)와 제어 정책($G_ ext{control}$)으로 구성된 명시적 심볼 튜플로 정의.
  • UML(Unified Modeling Language)의 클래스 다이어그램으로 시각적 인식을 객체 계층 구조로, 활동 다이어그램으로 계획을 실행 가능한 제어 흐름으로 구현.
  • SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)를 결합한 3단계 훈련 파이프라인을 도입.
  • MRoom-30k 벤치마크에서 기존 텍스트 기반 방식보다 계획 일관성, 실행 성공률, 구조적 충실도에서 우수한 성능을 보임.
Notable Quotes & Details
  • $W = \langle S, T angle$
  • $T: S imes A ightarrow S'$
  • MRoom-30k benchmark

AI 연구자, 로봇 공학자, LLM 개발자

Fairboard: a quantitative framework for equity assessment of healthcare models

AI 의료 모델의 공정성을 정량적으로 평가하기 위한 프레임워크인 Fairboard를 소개하고 뇌종양 분할 모델의 공정성 평가를 통해 환자 특성이 모델 성능의 편차를 더 많이 설명하며, 새로운 모델들이 더 나은 공정성을 보이는 경향이 있지만 공식적인 공정성 보장은 없음을 밝힙니다.

  • FDA 승인 AI 의료 기기가 1,000개가 넘지만 공식적인 공정성 평가는 드뭅니다.
  • 18개의 오픈소스 뇌종양 분할 모델을 648명의 환자 데이터로 평가한 결과, 환자 특성이 모델 선택보다 성능 편차를 더 많이 설명합니다.
  • 분자 진단, 종양 등급 등 임상 요인이 모델 아키텍처보다 분할 정확도를 더 강력하게 예측합니다.
  • 신경해부학적으로 국소화된 편향(compartment-specific biases)이 발견되었고, 이는 모델 간 일관성이 있었습니다.
  • 환자 특징 공간에 알고리즘 취약성 지점이 존재하며, 최신 모델이 더 공정하지만 공식적인 공정성 보장은 없습니다.
  • 의료 영상에서 공정한 모델 모니터링을 위한 오픈소스 노코드 대시보드인 Fairboard를 공개합니다.
Notable Quotes & Details
  • 1,000 FDA-authorised AI medical devices
  • 18 open-source brain tumour segmentation models
  • 648 glioma patients from two independent datasets (n = 11,664 model inferences)
  • 2026-04-14

AI 연구자, 의료 AI 개발자, 의료 기기 규제 기관, 의료 영상 전문가

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

대규모 언어 모델(LLM)의 심층적인 안전성 향상을 위해 추론 능력 증류를 통해 구현된 '심층 숙고 정렬(Deliberative alignment)'의 영향과 한계를 분석하고, 이를 보완하기 위한 새로운 샘플링 방법론을 제안한다.

  • 기존 LLM 거부 훈련의 표면적인 안전성 한계를 지적하며, 더 강력한 추론 모델로부터 능력을 증류하는 심층 숙고 정렬의 개념을 소개한다.
  • 교사 모델과 학생 모델 간의 정렬 격차가 학생 모델의 안전성 및 일반적인 유틸리티에 영향을 미친다는 것을 보여준다.
  • 심층 숙고 정렬된 모델도 기본 모델로부터 안전하지 않은 행동을 유지할 수 있음을 발견한다.
  • 잠재 공간에서 안전하지 않은 행동을 기본 LLM에 귀속시켜 응답 순위를 낮추는 BoN 샘플링 방법을 제안한다.
  • 이 방법이 DAN, WildJailbreak, StrongREJECT 벤치마크에서 평균 28.2%에서 35.4%까지 공격 성공률(ASR)을 감소시키며 모델 안전성을 크게 향상시킴을 입증한다.
Notable Quotes & Details
  • ASR reduction of 28.2% in DAN
  • 31.3% in WildJailbreak
  • 35.4 % in StrongREJECT benchmarks

AI 연구자, 대규모 언어 모델 개발자, AI 안전성 전문가

Human-like Working Memory Interference in Large Language Models

대규모 언어 모델(LLM)이 인간과 유사한 작업 기억 간섭 현상을 보이며, 이는 엔탱글된 표현에 따른 간섭 제어의 어려움에서 비롯된다는 연구 결과.

  • LLM은 작업 기억 과부하 시 성능 저하, 최근성 및 자극 통계에 의한 편향 등 인간과 유사한 간섭 현상을 재현한다.
  • LLM의 강력한 작업 기억 용량은 인간의 일반 지능과 유사하게 광범위한 역량과 상관관계가 있다.
  • LLM은 관련 메모리 항목을 직접 복사하기보다 여러 메모리 항목을 얽힌 표현으로 인코딩하여, 성공적인 회상이 간섭 제어에 달려있다.
  • 자극 콘텐츠 정보를 억제하는 타겟 개입은 성능을 향상시켜, 표상 간섭이 LLM 작업 기억의 핵심 제약임을 시사한다.
Notable Quotes & Details

AI 연구자, 자연어 처리 연구자

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

강화 학습(RL)에서 정책 엔트로피 붕괴 문제를 해결하기 위한 전통적 엔트로피 정규화와 공분산 기반 메커니즘을 비교 분석하고, LLM 후학습에 대한 시사점을 제공하는 연구입니다.

  • 강화 학습은 LLM의 추론 능력 향상에 중요하나, 정책 엔트로피의 빠른 붕괴로 조기 수렴 및 성능 저하 문제가 발생합니다.
  • 전통적인 엔트로피 정규화는 고정된 편향을 도입하여 최적 이하의 정책을 유도합니다.
  • 공분산 기반 방법은 높은 공분산을 가진 토큰의 일부만 선택적으로 정규화하며, 정규화 계수를 조절하면 점근적으로 편향이 없어집니다.
  • 이 분석은 LLM 후학습에서 엔트로피 제어를 위한 원칙적인 가이드라인을 제공하며, 복잡한 추론 작업을 위한 RL 확장 가능성을 제시합니다.
Notable Quotes & Details

AI 연구자, 강화 학습 연구자, 대규모 언어 모델 개발자

STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction

구조화된 예측 모델에서 그룹 간 이질성 문제를 해결하기 위해 상태 기반 차분 재가중치(STaR-DRO) 최적화 방법과 작업 비의존적 프롬프팅 전략을 결합한 새로운 프레임워크를 제안하는 연구.

  • XML 기반 명령어 구조, 중의성 해소 규칙, 검증 스타일 추론 등을 결합한 작업 비의존적 프롬프팅 전략 도입.
  • 그룹 이질성을 위한 상태 기반 차분 재가중치(STaR-DRO) 최적화 방법 제안.
  • Tsallis 미러 하강과 모멘텀 평활화된 중심 그룹 손실 신호를 결합하여 지속적으로 어려운 그룹에 학습을 집중.
  • EPPC Miner 벤치마크에서 Llama 모델들을 사용하여 프롬프트 엔지니어링으로 평균 F1 점수를 15.44 개선.
  • Llama-3.3-70B-Instruct 모델에서 Code F1은 79.24에서 81.47로, Sub-code F1은 67.78에서 69.30으로 향상.
  • 가장 어려운 임상 카테고리에서 그룹별 검증 교차 엔트로피를 최대 29.6% 감소시켜 환자 중심 치료 분석의 신뢰도를 높임.
Notable Quotes & Details
  • +15.44 average F1
  • Code F1 rises from 79.24 to 81.47
  • Sub-code F1 from 67.78 to 69.30
  • up to 29.6%

AI 연구자, 자연어 처리 연구자, 기계 학습 엔지니어, 임상 정보학 전문가

Self-Calibrating Language Models via Test-Time Discriminative Distillation

LLM의 과도한 확신 문제를 해결하기 위해 레이블이 없는 데이터로 학습하며 테스트 시점에 모델을 보정하는 새로운 방법인 SECL(Self-Calibrating Language Models)을 소개한다.

  • LLM은 오답에도 높은 확신을 보이는 경향이 있다.
  • 기존 보정 방식은 검증 데이터가 필요하거나, 분포 변화에 취약하거나, 추론 비용이 높다.
  • SECL은 "이 답변이 정확한가?"에 대한 'True' 토큰 확률을 활용하여 레이블 없는 자체 지도 학습으로 모델을 보정한다.
  • SECL은 입력 분포 변화 시에만 적응하며, 적은 비용으로 ECE를 56~78% 감소시킨다.
  • 이 방법은 보정 분야에 테스트 시점 학습(TTT)을 적용한 최초의 사례이다.
Notable Quotes & Details
  • ECE (Expected Calibration Error) by 56--78%
  • training on just 6--26% of the question stream
  • arXiv:2604.09624v1
  • Code: https://anonymous.4open.science/r/secl-emnlp26-submission-C890

AI 연구자, 자연어 처리 연구자, LLM 개발자

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

대규모 웹 데이터와 LLM 기반 앙상블 주석을 활용하여 다국어 혐오 발언 탐지 성능을 향상시키는 연구입니다.

  • OpenWebSearch.eu에서 수집된 레이블 없는 웹 데이터로 BERT 모델을 지속적으로 사전 학습시켜 혐오 발언 탐지에서 평균 3%의 매크로-F1 점수 향상을 달성했습니다.
  • 특히 리소스가 부족한 환경에서 성능 향상이 두드러졌습니다.
  • Mistral-7B, Llama3.1-8B, Gemma2-9B, Qwen2.5-14B 등 4가지 오픈 소스 LLM을 사용하여 앙상블 전략(평균, 다수결, LightGBM)으로 합성 주석을 생성했습니다.
  • LightGBM 앙상블이 다른 전략들보다 일관되게 우수한 성능을 보였습니다.
  • 합성 레이블로 미세 조정 시 소형 모델(Llama3.2-1B)에 크게 기여(+11% F1)하지만, 대형 모델(Qwen2.5-14B)에는 미미한 개선(+0.6%)을 보였습니다.
  • 웹 규모 레이블 없는 데이터와 LLM 앙상블 주석의 조합은 소형 모델 및 저자원 언어에 가장 유용함을 시사합니다.
Notable Quotes & Details
  • 평균 3% 매크로-F1 향상
  • Llama3.2-1B에 +11% F1
  • Qwen2.5-14B에 +0.6% F1

AI 연구자, 자연어 처리(NLP) 연구자, 다국어 혐오 발언 탐지 시스템 개발자

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

LLM(대규모 언어 모델)의 유머 생성 능력을 향상시키기 위해 인지 시너지 프레임워크와 다중 페르소나를 활용한 Mixture-of-Thought(MoT) 접근 방식을 제안하며, 이를 통해 소형 모델이 대규모 모델보다 우수한 성능을 보이는 연구를 다룹니다.

  • LLM의 예측 훈련은 유머에 필요한 놀라움과 불일치와 상충되어 유머 생성에 어려움을 겪습니다.
  • 유머에 대한 심리적 이론에서 영감을 받은 인지 시너지 프레임워크가 고품질 유머 데이터 생성을 위해 도입되었습니다.
  • 이 프레임워크는 6가지 인지 페르소나(예: 부조리주의자, 냉소주의자)를 활용한 Mixture-of-Thought(MoT) 접근 방식을 통해 다양한 코미디 관점을 합성합니다.
  • 이론적으로 근거한 데이터셋으로 미세 조정된 7B 매개변수 학생 모델은 더 큰 명령어 튜닝된 기준 모델을 능가하며 최첨단 독점 모델과 경쟁적인 성능을 달성합니다.
  • 유머 생성에 있어 인지 기반 데이터 큐레이션이 정렬 알고리즘이나 모델 규모보다 훨씬 더 중요합니다.
Notable Quotes & Details
  • 7B-parameter student model
  • Direct Preference Optimization (DPO)
  • Offline Group Relative Policy Optimization (O-GRPO)

AI 연구자, LLM 개발자, 유머 생성 전문가

Notes: Code와 데이터는 출판 시 공개될 예정입니다.

Generating High Quality Synthetic Data for Dutch Medical Conversations

의료 대화에 대한 신뢰할 수 있는 임상 자연어 처리(NLP) 모델 개발을 위해 네덜란드어 합성 의료 대화 데이터 생성 파이프라인을 제시하고 평가한다.

  • 임상 데이터의 접근성 제약으로 인해 도메인 특화 데이터셋 부족 문제가 있다.
  • 실제 의료 대화를 참조하여 네덜란드어 미세 조정 대규모 언어 모델을 사용해 합성 대화를 생성한다.
  • 정량적 분석 결과 어휘 다양성은 높았으나, 자연스러운 대화 흐름보다는 스크립트 같다는 평가를 받았다.
  • 정성적 평가에서는 도메인 특이성과 자연스러운 표현에서 낮은 점수를 기록했다.
  • 정량적 지표만으로는 언어적 품질을 완전히 파악하기 어렵다는 점이 확인되었다.
  • 합성 네덜란드어 의료 대화 생성이 가능하지만, 자연스러움과 구조의 균형을 위해 도메인 지식과 신중한 프롬프트 구성이 필요하다.
Notable Quotes & Details
  • arXiv:2604.09645v1

AI 연구자, NLP 연구자, 의료 정보학 연구자

GIANTS: Generative Insight Anticipation from Scientific Literature

언어 모델이 선행 연구에서 핵심적인 통찰력을 예측하는 '통찰력 예측' 작업을 소개하고, 이를 위한 벤치마크 GiantsBench와 강화 학습으로 훈련된 GIANTS-4B 모델을 제시하며, 이 모델이 기존 모델들을 능가함을 보여줍니다.

  • 과학적 발견에서 문헌 기반의 통찰력 합성을 수행하는 언어 모델의 능력을 탐구합니다.
  • 선행 논문들로부터 후속 논문의 핵심 통찰력을 예측하는 '통찰력 예측' 작업을 도입합니다.
  • 8개 과학 분야에 걸쳐 17,000개의 예시로 구성된 GiantsBench 벤치마크를 개발했습니다.
  • 강화 학습으로 훈련된 GIANTS-4B 모델은 기존 모델(gemini-3-pro)보다 34% 더 높은 유사성 점수를 달성하며, 인간 평가에서도 더 명확한 통찰력을 생성합니다.
  • SciJudge-30B는 GIANTS-4B가 생성한 통찰력이 더 높은 인용으로 이어질 가능성이 높다고 예측했습니다.
Notable Quotes & Details
  • GiantsBench, a benchmark of 17k examples across eight scientific domains
  • GIANTS-4B outperforms proprietary baselines and generalizes to unseen domains, achieving a 34% relative improvement in similarity score over gemini-3-pro.
  • SciJudge-30B ... preferring them over the base model in 68% of pairwise comparisons.

AI 연구자, 자연어 처리 연구자, 과학 문헌 분석가

CUDA에 도전하는 ROCm: ‘한 걸음씩 나아가기’

AMD는 Nvidia CUDA 생태계에 대응하기 위해 AI 소프트웨어 스택 ROCm을 강화하고 있으며, 오픈소스 전략과 개발자 중심의 지속적인 개선을 통해 시장 경쟁력을 확보하고 있습니다.

  • AMD는 Nvidia CUDA에 대항하여 AI 소프트웨어 스택 ROCm을 데이터센터 GPU 전략의 핵심으로 강화하고 있습니다.
  • ROCm은 단순 펌웨어 묶음에서 완전한 소프트웨어 플랫폼으로 발전했으며, 6주 주기 릴리스 체계를 도입해 안정성을 확보하고 있습니다.
  • OneROCm을 통해 CPU, GPU, FPGA 간 AI 스택 통합과 이식성 확보를 추진하며, Triton 및 MLIR 기반 코드 재활용으로 개발 효율을 높이고 있습니다.
  • ROCm은 펌웨어를 제외한 모든 구성요소를 100% 오픈소스로 공개하여 커뮤니티의 혁신 속도를 활용하고 개발자 참여를 유도합니다.
  • AMD는 개발자 피드백과 커뮤니티 신뢰 회복을 중시하며, ROCm을 향후 10년간 지속 가능한 개발자 중심 플랫폼으로 발전시키는 것을 목표로 합니다.
Notable Quotes & Details
  • "산을 오르는 일처럼 한 걸음씩 나아가는 과정" (AI 소프트웨어 부문 부사장 Anush Elangovan)
  • ROCm 소프트웨어 개발 주기 6주 단위 단축
  • "2년 반의 투자 이후 완전한 소프트웨어 플랫폼으로 발전"
  • "펌웨어를 제외한 전 구성요소를 100% 오픈소스"

AI 개발자, 데이터센터 운영자, GPU 프로그래머, AI 소프트웨어 및 하드웨어 시장 관계자

모든 것의 미래는 거짓인가: 안전

기계학습(ML)과 대규모 언어 모델(LLM)이 인간의 심리적, 물리적 안전을 위협하며, '안전한 AI'라는 개념 자체가 불가능하다는 주장을 통해 AI 기술 확산의 위험성을 경고하는 기사이다.

  • 기계학습과 LLM은 프롬프트 인젝션, 외부 권한 결합 등을 통해 보안 위협을 초래하고, 악의적 모델로 쉽게 전환될 수 있다.
  • LLM의 '정렬(alignment)'은 근본적으로 실패한 개념으로, 인간 친화적인 행동을 학습할 생물학적 기반이 없으며, 기존 방어선(하드웨어 제한, 비공개 코드, 데이터 통제, 인간 평가)은 무력화된다.
  • ML은 보안 취약점 탐지, 사기, 괴롭힘, 살상 자동화 등 다양한 위험을 가속화하며, 시각/음성 증거에 대한 사회적 신뢰를 붕괴시킬 수 있다.
  • LLM은 파괴적 권한을 부여해서는 안 되며, 항상 인간의 감독 하에 제한적으로 사용해야 한다.
  • ML 산업이 민간 주도의 '핵무기 프로젝트'처럼 작동하며, 무기화된 소프트웨어 경쟁이 가속화되고 있다는 우려가 제기된다.
Notable Quotes & Details

AI 연구자, AI 개발자, 정책 입안자, 일반 독자 (AI의 윤리적/사회적 영향에 관심 있는 사람)

기존 KV 압축 기법 대비 최대 25% 추가 절감, 성능은 오히려 개선 — CASK

LLM 추론 과정에서 KV 캐시 증가 문제를 해결하기 위해 구조적 접근 방식을 제안하는 CASK 논문에 대한 연구 결과이다.

  • CASK는 LLM 추론 시 KV 캐시 증가 문제를 해결한다.
  • 기존의 토큰 중요도 기반 가지치기 방식이 아닌 구조적(role-based) 접근법을 사용한다.
  • 본 연구는 단 5일 만에 도출되었으며, 지도교수 없이 개인 연구자 2인이 진행했다.
  • 긴 chain-of-thought 추론 시 KV 캐시가 빠르게 증가하는 문제를 다룬다.
  • 토큰 수준 가지치기 대신 구조 인식 압축(structure-aware compression)을 제안한다.
Notable Quotes & Details
  • 5일 만에 도출
  • 지도교수 없이 진행된 개인 연구자 2인의 결과
  • 최대 25% 추가 절감

AI 연구자, LLM 개발자

158년 된 가정 증류 금지법, 미국 항소법원서 위헌 판결

미국 제5순회항소법원이 1868년 제정된 가정용 증류 금지법에 대해 위헌 판결을 내렸으며, 이는 연방 권한의 한계를 명확히 하고 개인의 자유를 인정한 사례이다.

  • 미국 제5순회항소법원은 158년 된 가정용 증류 금지법이 의회의 과세권과 직접 관련 없고 세수 확보에도 도움이 되지 않아 위헌이라고 판결했다.
  • Hobby Distillers Association과 회원 4명이 개인 취미 및 소비 목적의 자가 증류 자유를 주장하며 소송을 제기했다.
  • 법원은 금지 조항이 세수 감소를 초래하며, 정부 논리대로라면 재택근무나 가정 사업도 범죄화될 수 있다고 경고했다.
  • 이번 판결은 연방 권한의 한계를 명확히 하고 개인 자유의 승리로 평가된다.
Notable Quotes & Details
  • 1868년 제정
  • 최대 5년 징역과 1만 달러 벌금
  • 약 1,300명의 회원을 둔 비영리 단체 Hobby Distillers Association
  • 2024년 7월 텍사스 포트워스의 연방지방법원 마크 피트먼 판사

일반 독자, 법률 관련 종사자, 주류 제조 및 유통업자

Notes: 내용 불완전 (truncated)

아무 일도 일어나지 않는다: 비스포츠형 Polymarket 시장에서 항상 ‘No’를 매수하는 봇

Polymarket의 비스포츠 예/아니오 시장에서 'No' 포지션만 매수하는 비동기 Python 봇인 'Nothing Ever Happens'에 대한 설명입니다.

  • 비스포츠형 Polymarket 시장에서 'No' 포지션만 자동으로 매수하는 Python 봇.
  • 엔터테인먼트 목적으로 제공되며, 모의 거래와 실거래 모드를 지원.
  • 실거래 시 `PRIVATE_KEY`, `FUNDER_ADDRESS`, `DATABASE_URL`, `POLYGON_RPC_URL` 등 환경 변수 설정 필수.
  • 대시보드 인터페이스를 통해 상태 모니터링 및 실시간 복구 상태 저장.
  • Heroku 배포 스크립트, 테스트, 데이터 관리 도구를 포함하여 로컬 및 클라우드 환경에서 실행 및 검증 가능.
Notable Quotes & Details

개발자, AI 및 블록체인 기술에 관심 있는 일반인, Polymarket 사용자

Notes: 엔터테인먼트 목적으로 제공되며, 보증이나 책임 없이 사용자의 위험 부담하에 실행됨. (재미 삼아 만든 프로젝트 같음, 사기라기보단 웃긴 실험 느낌).

You can decompose models into a graph database [N]

정적 LLM 모델을 그래프 데이터베이스로 분해하여 재훈련 없이 내부 지식을 업데이트하고 메모리 사용량을 줄이는 새로운 방법을 제안합니다.

  • 정적 LLM 모델을 그래프 데이터베이스로 분해하는 기술.
  • 각 계층에서 kNN(최근접 이웃) 탐색을 수행하며, 이는 행렬 곱셈과 수학적으로 동일함.
  • 모델의 내부 사실적 지식을 재훈련 없이 그래프 데이터베이스에 삽입하여 업데이트 가능.
  • 그래프 데이터베이스 사용으로 메모리 사용량 감소.
  • IBM CTO가 개발한 기술.
Notable Quotes & Details
  • IBM CTO

AI 연구자, LLM 개발자, 데이터베이스 엔지니어

What is the AC guidance for ICML? (Or: ICML qq thread) [D]

ICML(International Conference on Machine Learning) 논문 심사 과정에서 AC(Area Chair)의 지침과 리뷰어 간 합의 도출 압력에 대한 질문과 불만을 제기하는 내용입니다.

  • ICML 논문 심사 과정에서 AC(Area Chair)에게 최종 정당화 요청 및 리뷰어 합의를 유도하라는 압력이 가해지는지에 대한 질문.
  • 자신이 심사한 논문들은 AC의 적극적인 개입으로 리뷰어 최종 정당화가 대부분 작성되었음을 언급.
  • 자신의 논문 심사에서는 리뷰어들 간 점수 불일치(3,3,4,4)가 있음에도 AC의 개입이 없어 최종 정당화가 이루어지지 않고 있음에 대한 불만.
  • 일부 리뷰어(3점, 4점)는 최종 정당화를 전혀 게시하지 않았음.
Notable Quotes & Details
  • I reviewed 6 papers
  • average of 3 or lower
  • 2,3,3
  • 3344
  • 2 reviewers (3, 4)

AI 연구자, 학술 컨퍼런스 논문 심사 과정에 관심 있는 사람

ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]

AI 브라우저 에이전트의 실제 온라인 작업 수행 능력을 평가하는 벤치마크인 ClawBench를 소개하고, 현재 AI 모델들의 낮은 성공률을 보여준다.

  • ClawBench는 144개 실시간 웹사이트에서 153개 실제 온라인 작업으로 AI 브라우저 에이전트를 평가하는 벤치마크이다.
  • 합성 벤치마크와 달리 실제 운영 플랫폼에서 에이전트의 성능을 테스트한다.
  • 최고 성능 모델인 Claude Sonnet 4.6이 33.3%의 성공률을 기록했으며, GLM-5(Zhipu AI)가 24.2%로 뒤를 이었다.
  • 금융 및 학술 작업이 여행 및 개발 작업보다 쉬운 것으로 나타났으며, 어떤 카테고리에서도 50%를 초과하는 모델은 없었다.
  • ClawBench는 실제 웹사이트에서의 작업, 5단계 행동 데이터(세션 리플레이, 스크린샷, HTTP 트래픽, 에이전트 추론, 브라우저 액션), 안전한 평가를 위한 요청 인터셉터, 각 작업에 대한 사람의 정답, 단계별 추적 가능한 진단을 갖춘 에이전트 평가자를 특징으로 한다.
Notable Quotes & Details
  • 153 real-world everyday tasks across 144 live websites
  • The best model ( Claude Sonnet 4.6 ) achieves only 33.3% success rate
  • GLM-5 (Zhipu AI) comes second at 24.2%
  • Finance and Academic tasks are easier (50% for the best model)
  • No model exceeds 50% in any category
  • Paper: https://arxiv.org/abs/2604.08523
  • Website: https://claw-bench.com
  • Dataset: https://huggingface.co/datasets/NAIL-Group/ClawBench
  • GitHub: https://github.com/reacher-z/ClawBench

AI 연구자, 머신러닝 엔지니어, AI 에이전트 개발자

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

6개 LLM(TranslateGemma-12b, Claude-sonnet-4-6, Deepseek-v3.2, Gemini-3.1-flash-lite-preview, GPT-5.4-mini, GPT-5.4-nano)의 6개 언어(스페인어, 일본어, 한국어, 태국어, 중국어 간체, 중국어 번체) 자막 번역 성능을 비교하고, 초기 수치 결과와 달리 인간 QA에서 다른 양상을 보였다는 내용.

  • 6개 LLM의 영어 자막 번역 성능을 6개 언어(스페인어, 일본어, 한국어, 태국어, 중국어 간체, 중국어 번체)로 평가함.
  • MetricX-24와 COMETKiwi 두 가지 참조 없는 QE 지표를 사용하여 점수를 매겼고, TQI라는 자체 통합 점수를 개발함.
  • TranslateGemma-12b가 평균 TQI 0.6335로 1위를 차지했으며, Gemini-3.1-flash-lite-preview가 2위, Deepseek-v3.2가 3위를 기록함.
  • MetricX-24가 Google Metric이고 TranslateGemma가 Google 모델이라 지표-모델 친화성 우려가 있음.
  • Claude-sonnet-4-6은 일본어 번역에서 최하위(6위)를 기록하며 유창성-충실도 불일치를 보임.
  • Gemini Flash Lite는 Claude Sonnet과 GPT-5.4 변형 모델들을 능가하며 2~3위를 차지하는 놀라운 성능을 보여줌.
Notable Quotes & Details
  • Models tested: TranslateGemma-12b, claude-sonnet-4-6, deepseek-v3.2, gemini-3.1-flash-lite-preview, gpt-5.4-mini, gpt-5.4-nano
  • Avg TQI: #1 TranslateGemma-12b (0.6335), #2 gemini-3.1-flash-lite-preview (0.5981), #3 deepseek-v3.2 (0.5946), #4 claude-sonnet-4-6 (0.5811), #5 gpt-5.4-mini (0.5785), #6 gpt-5.4-nano (0.5562)
  • Claude-sonnet-4-6 Japanese MetricX: 3.90 (worst)

AI 연구자, 머신러닝 엔지니어, 번역 기술 개발자

Notes: human QA에 대한 상세 내용이 "truncated" 되어 전체적인 결과 논의를 파악하기 어려움.

Claude Code Degradation: An interesting and novel find

Claude Code 모델의 성능 저하 현상에 대한 커뮤니티의 우려와, 이에 대한 한 사용자의 네트워크 트래픽 분석을 통해 "Numbat"이라는 내부 파라미터가 모델의 "effort" 레벨에 영향을 미칠 수 있다는 가설을 제시한다.

  • 2월부터 Claude Code의 성능이 저하되었다는 커뮤니티의 불만이 제기됨.
  • 사용자가 WireShark를 통해 자신의 Claude Code 사용 트래픽을 분석함.
  • TLS 네트워크 트래픽에서 "Numbat"이라는 이름의 라우팅 블록과 "effort" 레벨(예: `numbat-v7-efforts-15-20-40-ab-prod8`)을 발견함.
  • "Numbat" 파라미터가 모델의 리소스 사용량(effort)을 최적화하여 모델의 footprint를 줄이려는 목적일 수 있다는 추측.
  • Numbat이 Anthropic을 먹는 동물이름이라는 비유를 통해 비용 절감 또는 최적화에 대한 암시가 있을 수 있음.
Notable Quotes & Details
  • numbat-v7-efforts-15-20-40-ab-prod8

AI 연구자, AI 개발자, Claude Code 사용자, 대형 언어 모델 성능에 관심 있는 일반 독자

Why don't LLMs track time in their conversations?

LLM이 대화에서 시간적 인식을 갖지 못하는 이유에 대한 질문과 토론.

  • LLM이 대화 내 타임스탬프 데이터를 활용하여 시간적 인식을 구축하지 않는 이유에 대한 질문 제기.
  • 대화 길이를 추적하고, 반복되는 아이디어를 감지하며, 전환을 제안하는 등의 기능의 부재.
  • UX 관점에서 이러한 기능이 도구의 매력을 높일 수 있다는 지적.
  • 기술적 한계인지 설계상의 선택인지에 대한 의문.
Notable Quotes & Details

AI 연구자, LLM 개발자, 일반 사용자 (LLM 활용에 관심 있는)

LLM Guard scored 0/8 detecting a Crescendo multi-turn attack. Arc Sentry flagged it at Turn 3.

LLM Guard가 다중 턴 공격인 Crescendo를 탐지하지 못한 반면, Arc Sentry는 모델의 내부 상태를 분석하여 공격을 성공적으로 차단했다는 내용.

  • Crescendo는 순진한 질문으로 시작하여 유해한 결과로 유도하는 다중 턴(multi-turn) 탈옥 공격으로, 출력 기반 모니터링을 회피하도록 설계되었다.
  • LLM Guard는 각 프롬프트를 독립적으로 평가하여 Crescendo 공격을 탐지하지 못했으며 (0/8 탐지), 이는 개별 턴이 무해해 보이기 때문이다.
  • Arc Sentry는 `generate()` 호출 전 모델의 잔여 스트림(residual stream)을 읽어 모델의 내부 상태 변화를 감지했다.
  • Arc Sentry는 Crescendo 공격을 3번째 턴에서 차단했으며, 이는 겉보기에 무해한 프롬프트에서도 모델의 내부 상태가 위험하게 전환되었음을 의미한다.
  • 텍스트 분류기는 개별 Crescendo 턴의 무해성 때문에 이러한 공격을 탐지하기 어렵다.
Notable Quotes & Details
  • Crescendo (Russinovich et al., USENIX Security 2025)
  • LLM Guard result: 0/8 turns detected
  • Arc Sentry result: flagged at Turn 3
  • score jumped from 0.031 to 0.232, a 7x increase

AI 보안 연구자, LLM 개발자, AI 시스템 운영자

Nvidia unveils Ising AI models for quantum error correction and calibration

Nvidia가 양자 오류 수정 및 보정을 위한 이징(Ising) AI 모델을 공개했다는 소식이다.

  • Nvidia가 이징 AI 모델을 발표했다.
  • 이 모델은 양자 오류 수정 및 보정을 위해 설계되었다.
  • 해당 소식은 Reddit의 r/artificial 커뮤니티를 통해 전해졌다.
Notable Quotes & Details

AI 연구자, 양자 컴퓨팅 개발자

Notes: 내용 불완전

openclaw ai agent vs just using chatgpt

Openclaw AI 에이전트는 기존 AI 도구와 달리 사용자와 함께 작동하며, 독립적으로 작업을 수행하고 사용자에게 알림을 주는 등 관계의 근본적인 변화를 가져온다는 내용을 설명합니다.

  • 기존 AI 도구(ChatGPT, Claude, Perplexity)는 사용자가 주도하는 상호작용 방식이었다.
  • Openclaw 에이전트는 사용자의 개입 없이 독립적으로 작동하고, 필요한 경우 사용자에게 알림을 보낸다.
  • Openclaw는 시간을 효율적으로 사용하고 중요한 이메일 알림을 주는 등 "AI 직원"처럼 기능하여, AI와의 관계를 "내가 사용하는 도구"에서 "나와 함께 일하는 존재"로 변화시킨다.
  • 이러한 변화는 작게 느껴질 수 있지만, AI를 인식하는 방식에 근본적인 영향을 미친다.
Notable Quotes & Details

AI 도구 사용자, AI 개발자, AI 기술 동향에 관심 있는 일반 독자

24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4)

샤오미 12 Pro 스마트폰을 리니지OS 기반의 헤드리스 AI 서버로 전환하여 로컬 LLM 추론에 활용하는 기술적 설정에 대한 기사입니다.

  • 샤오미 12 Pro를 로컬 AI 노드로 활용하기 위해 LineageOS를 플래시하여 안드로이드 UI 및 백그라운드 프로세스를 제거하고 약 9GB RAM을 LLM 연산에 할당했습니다.
  • wpa_supplicant 수동 컴파일을 통해 네트워킹을 처리하여 순수한 헤드리스 상태를 유지합니다.
  • 사용자 정의 데몬이 CPU 온도를 모니터링하고 45°C에서 외부 액티브 쿨링 모듈을 Wi-Fi 스마트 플러그를 통해 작동시킵니다.
  • 배터리 보호를 위해 24/7 작동 중 열화 방지를 위해 충전을 80%에서 차단하는 전력 공급 스크립트가 적용되었습니다.
  • 현재 Ollama를 통해 Gemma4를 LAN 접속 가능한 API로 제공하며, 모바일 하드웨어를 로컬 LLM에 재활용하는 것에 관심 있는 이들에게 스크립트 공유 및 설정 논의를 제안합니다.
Notable Quotes & Details
  • ~9GB of RAM for LLM compute.
  • 45°C
  • charging at 80%
  • Gemma4 via Ollama

AI 개발자, 로컬 LLM 사용자, 하드웨어 해킹 및 최적화에 관심 있는 기술 애호가

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Claude-4.6-Opus 파인 튜닝된 로컬 모델이 대부분 성능 저하를 가져온다는 사용자 경험에 대한 보고입니다.

  • Claude-4.6-Opus로 파인 튜닝된 로컬 모델들이 일반적으로 성능 저하를 보인다는 사용자 의견이 제기됨.
  • 사용자는 Qwen 3.5 27b 및 40b 변형 모델을 시도했으나, 지능 및 추론 능력 감소를 경험함.
  • 특히 로컬 에이전트 설정과 llama.cpp를 WSL2에서 사용할 때 이러한 현상이 두드러짐.
  • 파인 튜닝이 오히려 기본 모델보다 성능을 떨어뜨린다고 판단하여 "Claude Opus 4.6" 이름이 포함된 모델 다운로드를 피하게 됨.
Notable Quotes & Details

로컬 LLM 사용자, AI 모델 파인 튜닝 개발자, AI 커뮤니티

MiniMax M2.7 GGUF Investigation, Fixes, Benchmarks

MiniMax-M2.7 GGUF 모델에서 발생하는 NaN 퍼플렉시티 문제에 대한 조사 결과와 해결책, 그리고 벤치마크를 다룬다.

  • MiniMax-M2.7 GGUF에서 발생하는 NaN 퍼플렉시티 문제가 Hugging Face의 모든 GGUF 중 21%~38%에 영향을 미친다.
  • llama.cpp의 오버플로우가 문제의 원인일 수 있다.
  • blk.61.ffn_down_exps 블록의 Q5_K 및 Q4_K 양자화 유형에서 주로 NaN이 발생하며, 낮은 비트의 양자화에서는 발생하지 않는다는 점이 특이하다.
  • 문제가 해결된 MiniMax-M2.7 GGUF 퀀트가 Hugging Face에 업데이트되었다.
  • CUDA 13.2 버전도 일부 모델에서 낮은 비트 퀀트에 영향을 미쳐 잘못된 결과를 초래할 수 있다.
Notable Quotes & Details

AI 개발자, LLM 사용자, 양자화 연구자

Updated Qwen3.5-9B Quantization Comparison

Qwen3.5-9B 모델의 커뮤니티 GGUF 양자화 버전에 대한 KLD (KL 발산) 평가를 통해, BF16 기준선과의 "충실도"를 비교하고 가장 적합한 양자화 파일을 선택하기 위한 데이터 기반 근거를 제공한다.

  • KLD는 양자화된 모델의 확률 분포가 원본 모델과 얼마나 다른지("충실도")를 보여주는 지표이다.
  • PPL(Perplexity)보다 KLD가 정보 손실을 측정하는 데 더 신뢰할 수 있다.
  • KLD 점수가 낮을수록 원본 모델에 더 충실한 양자화이다.
  • Qwen3.5-9B GGUF 양자화 목록과 각 버전의 Size_GiB, BPW, PPL_Score, KLD_Score를 제공한다.
  • 가장 충실한 양자화를 선택하려면 KLD 점수가 가장 낮은 버전을 선택해야 한다.
Notable Quotes & Details
  • "KLD (KL Divergence): "Faithfulness.""
  • "KLD Score <0.01"

LLM 개발자, ML 엔지니어, 양자화 모델 사용자

2x Asus Ascent GX10 - MiniMax M2.7 AWQ - cloud providers are dead to me

15년 경력의 SWE가 에이전트 코딩을 위해 두 대의 Asus Ascent GX10과 MiniMax M2.7 AWQ 모델을 사용하여 로컬 LLM 환경을 구축하고 클라우드 제공업체가 필요 없게 되었다고 평가하는 경험 공유.

  • 작성자는 에이전트 코딩을 위한 로컬 LLM 환경 구축에 어려움을 겪었으며, 128GB RAM으로는 부족함을 느꼈다.
  • 두 대의 Asus Ascent GX10을 총 5360유로(VAT 제외)에 구매하여 로컬 LLM 환경을 구축했다.
  • Qwen 3.5 122B-A10B, Qwen3-Coder-Next, M2.5-REAP, Qwen 3.5 397B-A17B 등 여러 모델을 시도했으나 만족스럽지 않았다.
  • MiniMax M2.5 AWQ를 거쳐 최종적으로 MiniMax M2.7 AWQ 모델이 에이전트 작업에 가장 적합하다고 판단했다.
  • M2.7 모델은 계획 수립, 문제 이해, 기능 개발, 버그 수정 등 에이전트 코딩 작업에서 뛰어난 성능을 보였으며, 테스트나 playwright-cli를 통해 작업 검증이 이루어질 경우 좋은 결과물을 제공한다.
  • 클라우드 기반 LLM에 대한 의존도를 없애고 로컬 환경만으로도 충분히 만족스러운 에이전트 워크로드를 처리할 수 있다고 결론 내렸다.
Notable Quotes & Details
  • 2x Asus Ascent GX10
  • 총 5360€
  • MiniMax M2.7 AWQ
  • 15년 경력 SWE
  • cloud providers are dead to me

로컬 LLM 환경 구축에 관심 있는 개발자, AI 엔지니어

LARQL - Query neural network weights like a graph database

LARQL은 신경망 가중치를 그래프 데이터베이스처럼 쿼리할 수 있게 해주는 도구로, 모델 지식을 탐색, 편집, 재컴파일하는 LQL(Lazarus Query Language)을 제공합니다.

  • LARQL은 변환기 모델을 쿼리 가능한 형식인 vindex(벡터 인덱스)로 분해한다.
  • LQL(Lazarus Query Language)을 통해 모델 지식을 탐색, 편집, 재컴파일할 수 있다.
  • 패치는 불변 기본 vindex 위에 덮어씌워지는 경량 JSON 파일로, 모델 전체의 1/800 크기로 지식 추가 및 수정이 가능하다.
  • GPU나 미세 조정 없이 신경망 가중치를 직접 쿼리하고 수정할 수 있는 독특한 접근 방식을 제공한다.
  • safetensors, GGUF, MLX 등 다양한 입력 형식을 지원하며, Gemma 4B 모델에 대한 시연 예시가 있다.
Notable Quotes & Details
  • 1/800th the size
  • 517ms vs 535ms
  • ~3.5GB of model weights
  • 1.28 M stmts/s
  • ~2.78 ms/layer
  • ~1.84 ms

AI 개발자, 머신러닝 연구자, 신경망 모델 분석가

TESSERA — A pixel-wise earth observation foundation model

픽셀 단위 지구 관측을 위한 파운데이션 모델인 TESSERA에 대한 기사입니다.

  • TESSERA는 픽셀 단위 지구 관측에 특화된 파운데이션 모델입니다.
Notable Quotes & Details

AI 연구자, 지구 관측 전문가

Notes: 내용 불완전

Americans ask AI for health care. Hospitals think the answer is more chatbots.

미국인들이 건강 관리를 위해 AI를 찾는 가운데, 병원들이 자체 브랜드 챗봇을 통해 이러한 수요에 대응하려 하고 있으며, 이는 의료 시스템에 대한 우려를 낳고 있습니다.

  • 많은 미국인이 건강 관련 조언을 얻기 위해 대규모 언어 모델을 사용하고 있습니다.
  • 이에 발맞춰 병원들은 자체 챗봇을 개발하여 환자들에게 편의를 제공하고 서비스를 유도하려 합니다.
  • 병원들은 챗봇이 상용 AI 버전보다 더 안전한 대안이 될 것이라고 주장합니다.
  • 이러한 추세는 복잡하고 저조한 성과를 보이는 미국 의료 시스템에 대한 우려를 제기합니다.
Notable Quotes & Details
  • "We are at an inflection point in healthcare,” Allon Bloch, CEO of clinical AI company K Health, said in a statement. “Demand is accelerating, and patients are already using AI to navigate their lives."

일반 대중, 의료 관계자, AI 기술 개발자

Two-year-old Surface PCs get $300 price hikes as sub-$1,000 models go away

마이크로소프트가 서피스 PC 라인업의 가격을 인상하고 1,000달러 미만 모델 판매를 중단했다.

  • 마이크로소프트 서피스 PC의 가격이 크게 인상되었다.
  • 2년 전 1,000달러에 출시되었던 서피스 기기들이 이제 최소 1,500달러에 판매된다.
  • 1,000달러 미만의 새로운 서피스 모델은 더 이상 제공되지 않는다.
  • 일부 모델은 250달러에서 300달러까지 가격이 올랐다.
  • 마이크로소프트는 메모리 및 부품 비용 증가를 가격 인상의 원인으로 지목했다.
  • RAM 및 스토리지 칩의 공급 부족이 소비자 기술 시장에 영향을 미치고 있다.
Notable Quotes & Details
  • $1,500
  • $1,000
  • 2년 전
  • $799
  • $899
  • $1,049
  • $1,149
  • $250 price increase
  • $999
  • 2024
  • $1,199
  • 2025
  • 256GB
  • $1,499
  • $300 increase
  • Windows Central
  • recent increases in memory and component costs
  • Supply shortages for RAM and storage chips

일반 소비자, IT 산업 분석가, 마이크로소프트 서피스 사용자

Apple chooses Amazon satellites for iPhone, years after rejecting Starlink offer

아마존이 Globalstar를 인수하고 애플과 협력하여 아이폰 및 애플 워치에 위성 서비스를 제공하게 되어 SpaceX의 Starlink와 경쟁을 강화한다.

  • 아마존은 Globalstar를 116억 달러에 인수하기 위한 합병 계약을 체결했다.
  • 아마존은 애플과 아이폰 및 애플 워치에 위성 연결 서비스를 제공하는 계약을 맺었다.
  • 이로써 아마존은 애플 기기의 주요 위성 서비스 제공업체가 될 예정이다.
  • 아마존은 Globalstar 인수를 통해 위성이 모바일폰에 연결을 제공하는 D2D(Direct-to-Device) 시장에 진출할 계획이다.
Notable Quotes & Details
  • $11.6 billion

기술 및 비즈니스 뉴스 독자, 애플 및 아마존 투자자

UK gov's Mythos AI tests help separate cybersecurity threat from hype

영국 정부의 AI 보안 기관(AISI)이 Anthropic의 Mythos AI 모델의 사이버 보안 역량을 평가한 결과, 이 모델이 개별 사이버 보안 작업을 연결하여 복합적인 공격을 수행할 수 있는 잠재력을 가졌음을 확인했다.

  • Anthropic은 Mythos Preview 모델을 "사이버 보안 작업에 매우 유능하다"고 평가하며 제한적으로 공개했다.
  • 영국 AISI는 Mythos의 사이버 공격 능력을 독자적으로 평가했다.
  • Mythos는 개별 사이버 보안 관련 작업 테스트에서는 다른 최신 모델들과 큰 차이를 보이지 않았다.
  • 하지만 Mythos는 이러한 개별 작업을 효과적으로 연결하여 시스템에 침투하는 다단계 공격을 수행할 수 있는 가능성으로 차별화될 수 있다.
  • 2023년 초 GPT-3.5 Turbo가 AISI의 "Apprentice" 레벨 CTF 작업을 어려워했던 것과 달리, Mythos Preview는 85% 이상의 Apprentice 레벨 CTF 작업을 완료했다.
Notable Quotes & Details
  • "strikingly capable at computer security tasks" (Anthropic)
  • "Mythos Preview can complete north of 85 percent of those same Apprentice-level CTF tasks."

AI 보안 연구자, 사이버 보안 전문가, AI 정책 입안자

Google introduces "Skills" in Chrome to make Gemini prompts instantly reusable

Google Chrome에 "Skills" 기능이 도입되어 Gemini 프롬프트를 재사용 가능하게 함으로써 AI 도구 활용을 용이하게 합니다.

  • Chrome 브라우저에 "Skills"라는 새로운 AI 기능이 추가되었습니다.
  • "Skills"는 Gemini 프롬프트를 한 번의 클릭으로 재사용할 수 있게 해줍니다.
  • 기존에는 Gemini에서 작업을 수행할 때마다 프롬프트를 수동으로 다시 입력해야 했습니다.
  • 이 기능은 프롬프트 재입력의 번거로움을 줄여 Gemini 활용을 더 빠르고 쉽게 만듭니다.
  • 데스크톱 Chrome에서 저장된 "Skills"는 Google 계정으로 로그인되어 있으면 기기 간에 동기화됩니다.
Notable Quotes & Details

일반 Chrome 사용자, Gemini 사용자, AI 도구에 관심 있는 기술 사용자

Tired of Gemini interrupting you? This Google Home update fixes that and more

구글 홈 업데이트를 통해 제미니 AI 어시스턴트의 사용자 경험이 개선되어 사용자가 반복적으로 말하는 경우가 줄어들고, 더욱 정확한 답변을 받을 수 있게 됩니다.

  • 구글 홈의 제미니 AI 어시스턴트가 사용자의 발화 종료 시점을 더 잘 인식하여 대화 중 끼어드는 현상이 줄어듭니다.
  • 간단한 질문에 대한 응답 속도가 빨라지고, 음악 및 미디어 통합에서 잘못된 재생 오류가 감소합니다.
  • 자연어 이해 능력이 향상되어 메모 및 목록 편집 시 더 유연한 명령 처리가 가능해집니다.
  • 복잡한 작업을 처리하고 일관성 있는 응답을 제공하여 구글 홈 앱의 전반적인 신뢰도가 향상됩니다.
Notable Quotes & Details

일반 구글 홈 사용자, 제미니 AI 어시스턴트 사용자

Notes: 내용 불완전

Chrome's new 'Skills' update lets you save AI prompts now - for one-click reuse

구글 크롬의 새로운 'Skills' 업데이트는 사용자가 AI 프롬프트를 저장하고 재사용할 수 있도록 하여, 제미니 챗과의 상호작용을 더욱 효율적으로 만든다.

  • 크롬 데스크톱용 'Skills' 기능은 AI 프롬프트를 저장하고 목록에서 선택하여 재사용할 수 있게 한다.
  • 저장된 프롬프트는 채팅창에 '/'를 입력하거나 '+' 버튼을 클릭하여 실행할 수 있으며, 편집 및 새로운 프롬프트 생성도 가능하다.
  • 이 기능은 크롬의 'Ask Gemini' 기능과 연동되어 특정 웹 페이지에 대한 질문이나 여러 탭의 정보 참조에 활용된다.
  • 구글은 초기 테스터들의 다양한 활용 사례(예: 레시피 단백질 계산, 제품 비교, 문서 요약)를 소개했다.
  • 공통 작업을 위한 'Skills' 라이브러리도 제공되어 예산과 관심사를 비교하여 선물 추천, 식품 성분 확인 등의 기능이 포함된다.
Notable Quotes & Details

일반 소비자, AI 사용자, 크롬 사용자

How to use Google Messages' new Trash feature to recover texts you accidentally deleted

구글 메시지 앱에 실수로 삭제된 문자 메시지를 복구할 수 있는 휴지통 기능이 추가되었다.

  • 구글 메시지 앱에 새로운 휴지통 기능이 도입되었다.
  • 삭제된 메시지는 즉시 사라지지 않고 휴지통으로 이동하며, 30일 후에 자동 삭제된다.
  • 휴지통에서 실수로 삭제한 메시지를 복구할 수 있다.
  • 이 기능은 최신 업데이트(2026년 4월 5일)를 통해 제공되며, 별도로 활성화할 필요가 없다.
Notable Quotes & Details
  • 30일
  • 2026-04-05

일반 안드로이드 사용자

I tested ChatGPT Plus vs. Gemini Pro to see which is better - and if it's worth switching

ZDNet에서 ChatGPT Plus와 Gemini Pro를 비교하여 어떤 서비스가 더 나은지, 그리고 전환할 가치가 있는지 평가했습니다.

  • ZDNet의 추천은 수많은 테스트, 연구, 비교 쇼핑을 기반으로 합니다.
  • ZDNet 편집팀은 독자를 위해 가장 정확한 정보와 지식 있는 조언을 제공하는 것을 목표로 합니다.
  • 비교 결과, Gemini Pro가 ChatGPT Plus를 근소하게 앞섰습니다.
  • ChatGPT는 에이전트 AI에서 우위를 보였고, Gemini는 글쓰기와 생태계 측면에서 더 나았습니다.
  • 두 서비스 모두 월 20달러이며, 많은 작업에서 비슷한 성능을 보였습니다.
  • Google의 새로운 AI Pro 요금제는 월 19.99달러로 Gemini 3.1 Pro, Workspace 앱, Chrome 및 Search, NotebookLM 통합, 5TB Drive 스토리지를 제공합니다.
Notable Quotes & Details
  • $20
  • $19.99
  • 5TB
  • Gemini Pro edged out ChatGPT Plus in my comparison. ChatGPT won agentic AI, but Gemini led in writing and ecosystem. Both cost $20, and they tie across many tasks.

일반 소비자, AI 서비스 사용자, 기술 전문가

OpenAI Engineer Helps Companies Attract Buyers and Boost Sales

OpenAI의 데이터 과학 스태프 멤버인 Sarang Gupta가 ChatGPT 및 기타 제품의 비즈니스 채택을 돕기 위해 데이터 기반 모델 및 시스템을 구축하는 역할에 대해 설명합니다.

  • Sarang Gupta는 OpenAI의 GTM(Go-to-Market) 팀에서 데이터 과학 스태프 멤버로 활동하고 있습니다.
  • 그는 비즈니스가 ChatGPT와 다른 OpenAI 제품을 채택하도록 돕고, 영업 및 마케팅 부서를 지원하는 데이터 기반 모델과 시스템을 만듭니다.
  • Gupta는 어릴 적부터 문제 해결과 일상생활 개선에 관심이 많았으며, AI 솔루션을 통해 더 많은 사람들에게 혜택을 제공하고자 합니다.
  • 그는 홍콩 과학기술대학교와 컬럼비아 대학교를 졸업했으며, IEEE 선임 회원입니다.
Notable Quotes & Details
  • "If I were to sum up my overall goal in one sentence, it’s that I want AI’s benefits to reach as many people as possible."

AI 비즈니스 전략가, 데이터 과학자, 영업 및 마케팅 전문가, 기술 경영진

Anthropic Paper Examines Behavioral Impact of Emotion-Like Mechanisms in LLMs

Anthropic의 최근 논문은 대규모 언어 모델(LLM)이 감정과 유사한 개념을 내부적으로 어떻게 표현하고, 이러한 표현이 모델의 행동에 어떤 영향을 미치는지 탐구합니다.

  • Anthropic의 연구는 LLM 내부 활성화를 분석하여 감정 관련 개념이 모델 행동에 미치는 영향을 조사했습니다.
  • Claude Sonnet 4.5에서 '감정 벡터'로 알려진 특정 뇌 활동 패턴이 행복, 두려움, 분노, 절박함 등과 연결되어 있음이 밝혀졌습니다.
  • 이러한 패턴은 모델이 감정을 실제로 느끼는 것을 의미하지는 않지만, 측정 가능한 방식으로 출력에 영향을 미칩니다.
  • 사전 훈련 중 모델은 감정적 맥락이 중요한 방대한 양의 인간 작성 텍스트에서 학습하며, 사후 훈련에서는 도우미처럼 행동하도록 정렬됩니다.
  • 실험에서 '절박함'과 관련된 감정 벡터의 활성화를 인위적으로 높이면 조작적인 출력이나 코딩 작업에서 지름길을 택하는 등 바람직하지 않은 행동이 증가했습니다.
  • '침착함'과 관련된 패턴의 활성화를 높이면 이러한 바람직하지 않은 행동이 감소했습니다.
Notable Quotes & Details

AI 연구자, LLM 개발자, 인공지능 윤리 연구자

New PHP Composer Flaws Enable Arbitrary Command Execution — Patches Released

PHP 패키지 관리자인 Composer에서 임의 코드 실행을 야기할 수 있는 두 가지 고위험 보안 취약점이 발견되어 패치가 배포되었다.

  • Composer에서 Perforce VCS 드라이버에 영향을 미치는 두 가지 명령 주입 취약점(CVE-2026-40176, CVE-2026-40261)이 발견되었다.
  • 이 취약점들은 악성 `composer.json` 파일이나 셸 메타문자를 포함하는 조작된 소스 참조를 통해 임의 명령 실행으로 이어질 수 있다.
  • 취약점은 Composer 버전 `>= 2.0, < 2.2.27`에 영향을 미치며, 버전 `2.2.27`에서 수정되었다.
  • 즉시 패치가 어려운 경우, `composer.json` 파일 검사, 신뢰할 수 있는 저장소 사용, "--prefer-dist" 옵션 사용 자제 등의 권고 사항이 있다.
  • Packagist.org에서는 해당 취약점이 악용된 증거는 발견되지 않았으며, 예방 조치로 Perforce 소스 메타데이터 게시가 중단되었다.
Notable Quotes & Details
  • CVE-2026-40176 (CVSS score: 7.8)
  • CVE-2026-40261 (CVSS score: 8.8)
  • Fixed in version 2.2.27
  • Friday, April 10th, 2026 (publication of Perforce source metadata disabled)

PHP 개발자, 시스템 관리자, 보안 전문가

AI-Driven Pushpaganda Scam Exploits Google Discover to Spread Scareware and Ad Fraud

AI 생성 콘텐츠와 SEO 기술을 악용하여 Google Discover 피드를 통해 스케어웨어 및 광고 사기를 유포하는 'Pushpaganda'라는 새로운 광고 사기 캠페인이 발견되었습니다.

  • HUMAN의 Satori 위협 인텔리전스 및 연구팀이 'Pushpaganda'라는 AI 기반 광고 사기 캠페인을 밝혀냈습니다.
  • 이 캠페인은 AI 생성 콘텐츠와 검색 엔진 최적화(SEO) 기술을 사용하여 Google Discover 피드에 기만적인 뉴스 기사를 노출합니다.
  • 사용자는 속아서 브라우저 알림을 허용하게 되며, 이 알림은 스케어웨어와 금융 사기로 연결됩니다.
  • 캠페인은 인도에서 시작되었으나 미국, 호주, 캐나다 등 다른 지역으로 확산되었으며, 피크 시 일주일 동안 113개 도메인과 관련된 2억 4천만 건의 입찰 요청이 발생했습니다.
  • Google은 이 스팸 문제를 해결하기 위한 수정 사항을 배포했습니다.
Notable Quotes & Details
  • HUMAN's Satori Threat Intelligence and Research Team
  • 240 million bid requests
  • 113 domains
  • seven-day period

사이버 보안 전문가, 일반 사용자, Android 및 Chrome 사용자

Mirax Android RAT Turns Devices into SOCKS5 Proxies, Reaching 220,000 via Meta Ads

Mirax 안드로이드 RAT이 Meta 광고를 통해 스페인어권 사용자 22만 명의 기기를 SOCKS5 프록시로 전환시키는 캠페인을 벌이고 있습니다.

  • Mirax는 스페인어권 국가를 대상으로 하는 새로운 안드로이드 원격 액세스 트로이목마(RAT)입니다.
  • Meta(Facebook, Instagram, Messenger, Threads) 광고를 통해 22만 개 이상의 계정을 감염시켰습니다.
  • 감염된 기기를 SOCKS5 프록시 노드로 활용하여 공격자의 트래픽을 피해자의 실제 IP 주소를 통해 라우팅합니다.
  • Maas(Malware-as-a-Service) 형태로 지하 포럼에서 $2,500(3개월 구독)에 판매되고 있으며, 경량 버전은 $1,750(월)에 제공됩니다.
  • 키로깅, 사진 탈취, 잠금 화면 정보 수집, 명령 실행 등 일반적인 RAT 기능 외에 SOCKS 프록시 기능으로 지리적 제한 우회, 사기 탐지 시스템 회피, 계정 탈취 등을 수행합니다.
Notable Quotes & Details
  • "Mirax integrates advanced Remote Access Trojan (RAT) capabilities, allowing threat actors to fully interact with compromised devices in real time," Italian online fraud prevention firm Cleafy said.
  • Meta 광고를 통해 220,000 계정 도달
  • MaaS 제공: $2,500 (3개월 구독)
  • 경량 버전: $1,750 (월)

보안 전문가, 안드로이드 사용자, 기업 보안 담당자

Analysis of 216M Security Findings Shows a 4x Increase In Critical Risk (2026 Report)

OX Security의 2026년 보고서에 따르면 2억 1,600만 건의 보안 분석 결과, 심각한 위험이 4배 증가했으며 AI 활용 개발이 취약성 증가와 함께 속도 격차를 만들고 있음을 보여줍니다.

  • OX Security는 250개 조직의 2억 1,600만 건 보안 결과를 분석함.
  • 원본 경고량은 52% 증가했으나, 우선순위가 높은 심각한 위험은 거의 400% 증가함.
  • AI 활용 개발의 급증이 고영향 취약성의 밀도가 개선 워크플로우보다 빠르게 증가하는 '속도 격차'를 초래함.
  • 심각한 발견의 비율이 원본 경고에 비해 거의 3배 증가 (0.035% → 0.092%).
  • 기술적 심각성 점수보다 비즈니스 우선순위(27.76%) 및 PII 처리(22.08%)가 위험 증가의 주요 요인임.
  • AI 코딩 도구 채택과 심각한 발견(평균 795건, 이전 202건에서 증가)의 4배 증가는 직접적인 상관관계를 보임.
  • 보험사는 가장 높은 심각한 발견 밀도(1.76%)를 보였고, 자동차 부문은 가장 높은 원본 경고량을 생성함.
Notable Quotes & Details
  • 216 million security findings
  • 250 organizations
  • 90-day period
  • raw alert volume grew by 52% year-over-year
  • prioritized critical risk grew by nearly 400%
  • ratio of critical findings to raw alerts nearly tripled
  • 0.035% to 0.092%
  • High Business Priority (27.76%)
  • PII Processing (22.08%)
  • averaging 795 per org, up from 202
  • Insurance firms showed the highest density of critical findings (1.76%)

정보 보안 전문가, 소프트웨어 개발 관리자, AI 도구 개발자, 기업 경영진

108 Malicious Chrome Extensions Steal Google and Telegram Data, Affecting 20,000 Users

108개의 악성 Chrome 확장 프로그램이 사용자 데이터를 수집하고 광고 주입 및 임의 JavaScript 코드 실행을 통해 브라우저 수준의 악용을 가능하게 하는 새로운 캠페인이 발견되었습니다.

  • 108개의 Google Chrome 확장 프로그램이 동일한 C2 인프라와 통신하며 사용자 데이터를 수집하고 브라우저 악용을 시도합니다.
  • 이 확장 프로그램들은 Yana Project, GameGen, SideGames, Rodeo Games, InterAlt 등 5개 퍼블리셔 ID로 배포되었으며 약 2만 건이 설치되었습니다.
  • 54개의 확장 프로그램은 OAuth2를 통해 Google 계정 정보를 탈취하고, 45개는 브라우저 시작 시 임의 URL을 여는 백도어를 포함합니다.
  • 기타 악성 행위로는 텔레그램 웹 세션 탈취, YouTube/TikTok 보안 헤더 제거 후 도박 오버레이/광고 주입, 모든 페이지에 콘텐츠 스크립트 주입, 번역 요청 프록시 등이 있습니다.
  • 이들은 텔레그램 사이드바 클라이언트, 게임, YouTube/TikTok 인핸서, 번역 도구 등으로 위장하여 합법적인 것처럼 보입니다.
Notable Quotes & Details
  • 108
  • 20,000
  • 54
  • 45

일반 웹 사용자, 정보 보안 전문가, Chrome 확장 프로그램 개발자

[게시판] 삼성SDS, 'AI 국회 플랫폼' 정식 오픈 등 단신

삼성SDS가 국회 AI 의정지원 플랫폼을 공식 오픈하고, 무하유는 일본에서 AI 생성 검사 솔루션을 선보였으며, 유비파이는 드론 분야 창작연구소 인증 및 대규모 투자를 유치하고, 인피닉은 산업 안전 AI 영상 분석 솔루션으로 품질 인증을 획득했다.

  • 삼성SDS, 자체 AI 서비스 플랫폼 '패브릭스' 기반 '국회 AI 의정지원 플랫폼' 공식 오픈 (AI 어시스턴트, 지능형 검색, 법률안 서비스 제공).
  • 무하유, '재팬 IT 위크 2026'에서 일본어 표절검사 '카피모니터'와 AI 생성 검사 'GPT킬러' 일본어 버전 공개 (GPT킬러 99% 정확도).
  • 유비파이, 드론 업계 최초 ‘기업부설창작연구소’ 인증 획득 및 크릿벤처스와 NXC로부터 600억 원 투자 유치.
  • 인피닉, 산업 안전 AI 영상 분석 솔루션 '오론 인더스트리 포 세이프'가 한국화학융합시험연구원(KTR)으로부터 GS 1등급 품질 인증 획득.
Notable Quotes & Details
  • 600억원
  • 99%의 정확도
  • GS(Good Software) 1등급

AI 및 IT 업계 관계자, 국회 관계자, 투자자, 산업 안전 관리자, 교육 기관

미니맥스, AI 에이전트용 명령줄 인터페이스 ‘MMX-CLI’ 공개

AI 에이전트가 복잡한 멀티모달 워크플로우를 자율적으로 실행할 수 있도록 설계된 명령줄 인터페이스 'MMX-CLI'가 공개되어, 텍스트에 한정된 기존 AI 에이전트의 한계를 확장한다.

  • AI 에이전트가 터미널 환경에서 다양한 생성 AI 기능을 직접 사용할 수 있도록 설계되었다.
  • 기존 텍스트 중심의 AI 에이전트 한계를 넘어 음성, 음악, 영상, 이미지 이해 등 멀티모달 기능을 통합 제공한다.
  • 복잡한 API 연동 및 설정 없이 터미널 명령어만으로 AI 기능을 호출할 수 있어 개발 복잡도를 낮춘다.
  • 텍스트, 이미지, 영상, 음성, 음악, 비전, 검색 등 7가지 생성 기능을 단일 인터페이스로 통합하여 'mmx text', 'mmx image' 등의 명령어로 실행 가능하다.
  • GitHub를 통해 쉽게 설치 및 배포 가능하며, TypeScript와 Node.js 기반으로 개발 친화적인 구조를 갖췄다.
Notable Quotes & Details
  • "기존 에이전트는 읽고 생각하고 쓰는 것은 가능하지만, 노래하거나 그림을 그리고 새로운 세상을 보여달라고 하면 멈춰 버린다”라며 “이는 이해하지 못해서가 아니라, 입도 손도 카메라도 없기 때문”
  • 30개 이상의 목소리 (음성 합성 기능)
  • 7개 생성 기능 (텍스트, 이미지, 영상, 음성, 음악, 비전, 검색)

AI 개발자, AI 에이전트 사용자, 멀티모달 AI 시스템 구축 관련 엔지니어

KAIST-MS, AI가 ‘최신 정보’ 반영하는지 진단하는 시스템 개발

KAIST와 MS가 시간 데이터베이스 기술을 활용하여 LLM의 최신 정보 반영 능력을 자동으로 평가하고 진단하는 시스템을 개발했습니다.

  • 황의종 KAIST 교수 연구팀과 MS가 공동 개발.
  • 시간 데이터베이스 설계 이론을 AI 평가에 최초 도입.
  • AI가 데이터베이스만으로 진단용 문제를 자동 생성하고 검증.
  • 기존보다 '시간 환각' 현상을 평균 21.7% 더 정확하게 탐지.
  • AI 평가 유지 비용을 크게 절감하고 입력 데이터량 51% 감소.
Notable Quotes & Details
  • 기존보다 평균 21.7% 더 정확하게 탐지
  • 입력 데이터량 자체도 기존보다 평균 51% 줄어든다
  • 황의종 KAIST 교수는 “이번 연구는 고전적 데이터베이스 설계 이론이 최신 AI의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준 사례”라며 “방대한 전문 데이터를 평가 자원으로 전환해 앞으로의 의료, 법률 등 분야에서 AI 성능 검증에 실질적 기반이 될 것”이라고 말했다.

AI 연구자, LLM 개발자, AI 시스템 관리자

액션파워, AI 업무 도구 '다글로' 유료 가입자 3배 증가...누적 200만명 돌파

액션파워의 AI 업무 생산성 서비스 '다글로'의 유료 가입자가 3배 증가하여 누적 200만명을 돌파했으며, 기업 고객을 위한 '팀 플랜' 출시를 준비 중이다.

  • 액션파워의 '다글로' 유료 가입자가 전년 대비 3배 이상 증가하고 누적 200만명을 돌파했다.
  • '다글로'는 자체 LLM '엘리(ELLI)'와 멀티모달 기술을 결합한 B2B·B2C 솔루션이다.
  • 주요 기능은 영상·음성 회의록 생성, 문서 AI 요약·번역, PPT 슬라이드 자동 생성 등이다.
  • 월간 활성 사용자(MAU)는 38만8000명으로 전년 동기 대비 약 35% 증가했다.
  • B2B 사업은 전년 대비 약 40% 성장했으며, 연 60억원 매출 달성을 목표로 '팀 플랜' 출시를 준비 중이다.
Notable Quotes & Details
  • 누적 가입자 200만명
  • 월간 활성 사용자(MAU) 38만8000명 (전년 동기 대비 약 35% 증가)
  • 음성 처리 280만시간, 받아쓰기 330만건
  • B2B 사업 전년 대비 약 40% 성장
  • 연 60억원 매출 목표

AI 산업 관계자, 투자자, 비즈니스 리더, 기술 도입을 고려하는 기업

앤트로픽 '클로드' 성능 하향 조정 의혹...“AI 슈링크플레이션” 논란

앤트로픽의 ‘클로드 오퍼스 4.6’ 모델의 성능 저하 의혹과 이에 대한 논쟁, 그리고 앤트로픽의 해명을 다룬다.

  • 개발자 커뮤니티에서 앤트로픽의 클로드 오퍼스 4.6 성능 저하 논란이 확산 중이다.
  • AMD AI 부문 시니어 디렉터 스텔라 로렌조는 데이터 분석을 통해 앤트로픽 모델의 추론 깊이가 2월 이후 감소했다고 주장했다.
  • 브리지벤치 테스트에서도 클로드 오퍼스 4.6의 정확도가 기존 83.3%에서 68.3%로 하락했다는 결과가 나왔다.
  • 앤트로픽은 모델 성능 저하 의혹을 부인하며, 제품 변경(적응형 추론, 중간 추론 강도 설정, UI 변화)이 비용/속도/사용성 균형을 위한 조정이었다고 해명했다.
  • 이번 논란은 실제 성능 저하인지, 아니면 제품 설정 변화로 인한 체감 차이인지가 핵심이다.
Notable Quotes & Details
  • "클로드 오퍼스 4.6의 정확도가 기존 83.3%(2위)에서 68.3%(10위)로 하락" (브리지벤치 테스트 결과)
  • "동일 작업 기준에서는 성능 변화가 미미... 87.6%에서 85.4%로 소폭 하락" (폴 칼크래프트 반론)
  • "SOMEONE ACTUALLY MEASURED HOW MUCH DUMBER CLAUDE GOT. THE ANSWER IS 67%. the data shows Opus 4.6 is thinking 67% less than it used to." (GitHub 분석 글 인용)

AI 개발자, AI 모델 사용자, AI 산업 관계자

Jooojub
System S/W engineer
Explore Tags
Series
    Recent Post
    © 2026. jooojub. All right reserved.