Daily Briefing

April 24, 2026
2026-04-23
67 articles

Making Sense of the Early Universe

UC 샌타크루즈 대학의 천문학팀이 NVIDIA GPU와 AI를 활용하여 제임스 웹 우주망원경(JWST)이 촬영한 수십만 개의 초기 우주 은하 데이터를 분석하고, 최원거리 은하 기록을 갱신하는 등 초기 우주 연구를 가속화하고 있습니다.

  • UC 샌타크루즈 브랜트 로버트슨 교수팀이 JWST 데이터 분석에 AI와 GPU를 활용해 초기 우주 연구를 혁신하고 있다.
  • JWST의 심우주 이미지 한 장에는 수십만 개의 은하가 포함되어 있어 인간이 수작업으로 분석하기 불가능하다.
  • AI 시스템 Morpheus가 은하 분류를 담당하고, GPU가 데이터 감소·카탈로그 생성·이상 감지·시뮬레이션 등 거의 모든 단계를 가속화한다.
  • UCSC의 Lux 클러스터(NSF 160만 달러 지원)와 미국 정부 슈퍼컴퓨터에서 대규모 GPU 연산을 수행한다.
  • 이 팀은 최원거리 은하 기록을 여러 차례 경신하며 우주 최초의 빛에 더 가까이 다가가고 있다.
Notable Quotes & Details
  • "AI는 과학자들이 우주를 더 빠르게 이해하도록 도울 뿐 아니라, 우리 모두가 최첨단 연구에 접근하고 이해할 수 있도록 돕습니다 — 그것이 진정한 혁신입니다." — NVIDIA Dion Harris
  • "이 데이터셋들은 너무 크고 복잡해서 사람이 직접 분석할 수 없습니다. 전문가 팀이라도 수년이 걸릴 일을 이제는 며칠 안에 처리해야 합니다." — Brant Robertson 교수
  • NSF 160만 달러 지원으로 구축된 UCSC Lux 클러스터에서 일부 연산 수행

천문학·AI·고성능컴퓨팅 연구자, 과학기술 정책 관계자, GPU 및 AI 인프라에 관심 있는 독자

Netflix authorises $25 billion share buyback after stock falls 10% on Q1 earnings

넷플릭스가 1분기 실적 발표 후 주가가 하락하자 250억 달러 규모의 자사주 매입 프로그램을 승인했습니다.

  • 넷플릭스 이사회는 2026년 4월 22일 250억 달러 규모의 자사주 매입 프로그램을 승인했으며, 만료일은 없습니다.
  • 이 프로그램은 2024년 12월에 승인된 이전 자사주 매입 프로그램에 68억 달러가 남아있던 것에 추가됩니다.
  • 1분기 매출은 전년 대비 16% 증가한 122억 5천만 달러로, 예상치인 121억 8천만 달러를 상회했습니다.
  • 주당 순이익(EPS)은 1.23달러를 기록했으나, 워너 브라더스 디스커버리 인수 철회에 따른 28억 달러의 일회성 해지 수수료가 포함되어 있습니다.
  • 전 세계 유료 회원은 3억 2천5백만 명을 넘어섰고, 광고 지원 요금제는 12개국에서 월간 활성 시청자 1억 9천만 명을 달성했습니다.
Notable Quotes & Details
  • 250억 달러
  • 10.8%
  • 1.5%
  • 16%
  • 122억 5천만 달러
  • 121억 8천만 달러
  • 1.23달러
  • 0.76달러
  • 28억 달러
  • 0.58달러
  • 3억 2천5백만 명
  • 1억 9천만 명
  • 30억 달러

주식 투자자, 비즈니스 분석가, 일반 독자

Notes: 본문 내용이 중간에 잘려 불완전합니다.

Norway’s $2.2 trillion sovereign wealth fund posts a 1.9% loss in Q1 2026

노르웨이 국부펀드가 2026년 1분기에 미국 대형 기술 기업 주식 하락으로 1.9%의 손실을 기록했습니다.

  • 세계 최대 국부펀드인 노르웨이 국부펀드는 2026년 1분기에 1.9%의 마이너스 수익률을 기록하며 4분기 만에 첫 손실을 보였습니다.
  • 펀드는 1월부터 3월까지 투자 수익에서 6,360억 노르웨이 크로네(약 680억 달러)를 손실했습니다.
  • 전체 펀드 가치 하락은 1조 2,700억 노르웨이 크로네(1,370억 달러)로, 노르웨이 크로네 강세로 인한 통화 변동 효과도 포함됩니다.
  • 트론드 그란데 부CEO는 어려운 시장 상황을 반영하며, 특히 미국 대형 기술 기업의 주식 하락이 결과에 영향을 미쳤다고 언급했습니다.
  • 펀드는 자산의 약 절반을 미국 시장에 보유하고 있으며 애플, 마이크로소프트, 알파벳, 아마존, 엔비디아, 메타, 테슬라 등 주요 기술 기업에 투자하고 있습니다.
Notable Quotes & Details
  • 2조 2천억 달러
  • 1.9%
  • 6,360억 노르웨이 크로네
  • 680억 달러
  • 0.01%p
  • 1조 2,700억 노르웨이 크로네
  • 1,370억 달러
  • 2022년
  • 2026년 1분기

경제 분석가, 투자자, 금융 시장 관계자

Notes: 본문 내용이 중간에 잘려 불완전합니다.

BT, Nscale, and Nvidia announce UK sovereign AI partnership

BT, Nscale, 및 Nvidia가 영국에 주권 AI 데이터 센터를 구축하기 위한 파트너십을 발표했습니다.

  • BT 그룹과 Nscale은 Nvidia의 풀스택 AI 인프라를 사용하여 영국에 주권 AI 데이터 센터를 제공하기 위해 2026년 4월 23일 파트너십을 발표했습니다.
  • Nscale은 BT의 기존 전략적 부지 3곳에 최대 14메가와트 규모의 AI 데이터 센터를 건설하고, BT는 인프라와 연결성을 제공할 것입니다.
  • 이 파트너십은 BT 비즈니스의 주권 플랫폼을 확장하여 영국 기반 조직을 위한 규제 준수, 데이터 상주 및 보안 요구 사항을 충족하는 새로운 AI 서비스를 제공합니다.
  • 이 협약은 Nscale의 영국 정부 AI 인프라 전략에서 핵심적인 위치를 강화합니다.
  • BT는 Openreach 부문을 통해 영국 유선 통신 네트워크의 백본을 소유 및 운영하며, AI 데이터 센터를 기존 네트워크 교환 및 스위칭 사이트에 공동 배치하여 낮은 지연 시간의 AI 컴퓨팅을 제공할 수 있습니다.
Notable Quotes & Details
  • 14 메가와트
  • 2026년 4월 23일
  • 3곳

IT 전문가, 통신 산업 관계자, AI 인프라 투자자

Notes: 본문 내용이 중간에 잘려 불완전합니다.

Grab a ticket today: The first StrictlyVC of 2026 kicks off in just a week in San Francisco

StrictlyVC의 2026년 첫 샌프란시스코 행사가 일주일 앞으로 다가왔으며, Eclipse 설립자 Lior Susan이 '물리적 AI' 스타트업에 13억 달러를 투자한 내용을 공유할 예정입니다.

  • StrictlyVC의 첫 샌프란시스코 행사가 4월 30일 Sentro Filipino Cultural Center에서 개최됩니다.
  • Eclipse의 설립자이자 CEO인 Lior Susan이 연사로 참여하여 '물리적 AI' 스타트업에 대한 13억 달러 투자에 대해 논의할 예정입니다.
  • Susan은 디지털 AI 세계와 물리적 세계의 융합이 현실 세계의 자율성에 어떤 영향을 미칠지에 대한 비전을 공유할 것입니다.
  • Replit의 공동 설립자이자 CEO인 Amjad Masad는 AI 기반 소프트웨어 개발의 변화와 프로그래밍의 다음 시대에 대해 이야기할 것입니다.
  • TDK Ventures 사장 Nicolas Sauvage는 기업 벤처 캐피탈, 초기 단계 투자 및 창업가들이 전략적 투자자로부터 자금을 조달하는 데 필요한 교훈에 대해 논의할 것입니다.
Notable Quotes & Details
  • 2026년
  • 4월 30일
  • 13억 달러

벤처 캐피탈리스트, 스타트업 창업가, 기술 투자자, AI 및 소프트웨어 개발자

Notes: 본문 내용이 중간에 잘려 불완전합니다.

Another customer of troubled startup Delve suffered a big security incident

보안 스타트업 Delve의 고객사가 또 다른 보안 사고를 겪었으며, 이는 이전에 발생한 Delve 관련 논란의 연장선에 있다.

  • Delve는 AI 에이전트 훈련 스타트업인 Context AI의 보안 인증을 수행했던 회사로 확인되었다.
  • Context AI의 보안 사고는 Vercel의 데이터 유출로 이어졌다.
  • Delve는 과거 위조된 고객 데이터 및 부실한 감사 의혹을 받았으며, 고객사 LiteLLM의 오픈 소스 코드에 멀웨어가 심어지는 사건도 발생했다.
  • Context AI도 Delve와의 계약을 해지하고 재인증 절차를 밟고 있다.
Notable Quotes & Details
  • “Yes, Context was previously a Delve customer,”

보안 전문가, 스타트업 관계자, 투자자

AI galaxy hunters are adding to the global GPU crunch

NASA의 새로운 우주 망원경들이 방대한 데이터를 쏟아내면서 AI를 활용한 은하 탐사 연구가 GPU 부족 현상을 심화시키고 있다.

  • NASA는 Nancy Grace Roman 우주 망원경을 2026년 9월 조기 발사할 예정이며, 이 망원경은 20,000 테라바이트의 데이터를 제공할 것이다.
  • 제임스 웹 우주 망원경과 Vera C. Rubin Observatory도 매일 수십 기가바이트의 데이터를 생성하고 있다.
  • 천문학자들은 이 방대한 데이터를 분석하기 위해 GPU를 활용한 딥러닝 모델(Morpheus)을 사용하고 있다.
  • Morpheus 모델은 컨볼루션 신경망에서 트랜스포머 아키텍처로 전환 중이다.
Notable Quotes & Details
  • 20,000 terabytes
  • 57 gigabytes
  • 20 terabytes
  • 1 to 2 gigabytes
  • 2026년 9월

AI 연구자, 천문학자, 데이터 과학자

Beehiiv rolls out new creator tools, including webinars and customizable paywalls

뉴스레터 플랫폼 Beehiiv가 웨비나, AI 팟캐스트 분석, 맞춤형 페이월 등 새로운 크리에이터 도구를 출시하여 올인원 크리에이터 허브로 확장하고 있다.

  • Beehiiv는 웨비나 기능을 도입하여 최대 10,000명까지 라이브 이벤트를 호스팅할 수 있게 했다.
  • AI 기반 팟캐스트 분석 기능도 추가하여 크리에이터가 콘텐츠를 최적화할 수 있도록 돕는다.
  • 미터링 방식의 페이월과 유료 체험 기능을 통해 구독자 확보 및 수익화를 지원한다.
  • Beehiiv는 Patreon, Substack, Zoom 등 다양한 플랫폼과 경쟁하며 크리에이터를 위한 통합 솔루션을 제공하려 한다.
Notable Quotes & Details
  • 10,000명
  • 5년

콘텐츠 크리에이터, 뉴스레터 발행인, 팟캐스터

India’s app market is booming — but global platforms are capturing most of the gains

인도 앱 시장이 기록적인 성장세를 보이며 인앱 구매 수익이 증가하고 있으나, 대부분의 수익은 글로벌 플랫폼에 집중되고 있다.

  • 인도 모바일 앱 시장의 인앱 구매 수익이 1분기에 3억 달러를 넘어 전년 대비 33% 성장했다.
  • 비게임 앱이 성장을 주도했으며, 유틸리티, 비디오 스트리밍, 생성형 AI 카테고리가 주요 동력이다.
  • 연간 인앱 구매 수익은 2025년 10억 달러, 올해 12.5억 달러에 달할 것으로 예상된다.
  • Google One, Facebook, ChatGPT, YouTube 등 글로벌 플랫폼이 수익의 대부분을 차지하고 있다.
  • 인도는 다운로드당 수익이 0.03달러로 동남아시아나 라틴 아메리카에 비해 낮은 수준이다.
Notable Quotes & Details
  • 3억 달러
  • 33%
  • 2억 달러
  • 44%
  • 5.2억 달러 (2021년)
  • 10억 달러 (2025년)
  • 12.5억 달러 (올해 예상)
  • 250억
  • 0.03달러
  • 0.20달러

앱 개발자, 시장 분석가, 투자자

THE PEOPLE DO NOT YEARN FOR AUTOMATION

대중의 AI에 대한 부정적 인식이 심화되고 있으며, 특히 Z세대는 AI 사용량이 많음에도 불구하고 이에 대한 분노와 우려가 커지고 있다는 내용이다.

  • AI에 대한 대중의 반감이 커지고 있으며, Z세대는 AI를 가장 많이 사용하면서도 가장 부정적인 감정을 가지고 있다.
  • NBC News 여론조사에 따르면 AI의 호감도는 ICE보다 낮고 이란 전쟁, 민주당보다 약간 높은 수준이다.
  • 퀘스트 애버그린 여론조사에서는 미국인의 절반 이상이 AI가 선보다 해를 더 많이 끼칠 것이라고 생각하며, 80% 이상이 기술에 대해 우려하고 있다.
  • 갤럽 여론조사에 따르면 Z세대의 AI에 대한 희망은 작년 27%에서 18%로 감소했고, 분노는 22%에서 31%로 증가했다.
Notable Quotes & Details
  • NBC News poll
  • Quinnipiac
  • Gallup poll
  • 2011
  • 2026-04-23
  • 2026-04-24 00:06 KST
  • nearly two thirds
  • over half
  • more than 80 percent
  • 35 percent
  • 18 percent
  • 27 percent
  • 31 percent
  • 22 percent

일반 독자, 정책 입안자, AI 업계 관계자

You’re about to feel the AI money squeeze

AI 기업들이 투자금 회수를 위해 유료 구독, 기능 제한, 가격 인상 등 수익화 전략을 강화하면서 사용자들에게 비용 부담이 전가될 것이라는 전망이다.

  • Anthropic이 OpenClaw 사용자에게 Claude AI 사용에 대한 유료화를 강제하는 등 AI 서비스의 무료 이용 시대가 끝나가고 있다.
  • AI 기업들은 막대한 투자금 회수를 위해 유료 구독 모델, 광고 도입, 기능 제한 등을 통해 수익화를 추진하고 있다.
  • OpenAI와 Anthropic은 기업용 가격 정책을 변경하고, OpenAI는 인앱 광고를 도입했으며, Anthropic은 서드파티 도구 접근을 제한했다.
  • 이는 2010년대 IT 붐 당시 스타트업들이 성장 후 가격 인상으로 수익을 창출했던 방식과 유사하다.
Notable Quotes & Details
  • 2026-04-23
  • 2026-04-24 00:06 KST
  • hundreds of billions of dollars
  • Boris Cherny
  • OpenClaw

AI 서비스 사용자, AI 기업 관계자, 투자자

Microsoft launches ‘vibe working’ in Word, Excel, and PowerPoint

마이크로소프트가 Word, Excel, PowerPoint 등 Office 앱에 Copilot의 '에이전트 모드'를 도입하여 사용자가 Copilot에게 문서 편집을 직접 지시할 수 있게 하는 등 AI의 활용도를 높였다는 내용이다.

  • Microsoft 365 Copilot 및 Premium 구독자에게 'Copilot Agent Mode'가 기본으로 제공된다.
  • 에이전트 모드는 기존 Copilot보다 강력하며, 문서, 스프레드시트, 프레젠테이션에서 명령과 편집을 더 잘 따르도록 설계되었다.
  • Microsoft Office 제품 그룹의 Sumit Chauhan은 모델이 발전하여 다단계 편집을 안정적으로 처리할 수 있게 되었다고 밝혔다.
  • 사용자는 Copilot AI 에이전트가 문서 작업을 수행하는 과정을 실시간으로 볼 수 있으며, Excel에서는 수식이나 표를 추가하고 PowerPoint에서는 기존 덱을 업데이트할 수 있다.
Notable Quotes & Details
  • 2026-04-23
  • 2026-04-24 00:06 KST
  • Sumit Chauhan

Microsoft 365 사용자, 비즈니스 사용자, 소프트웨어 개발자

Google Cloud AI Research Introduces ReasoningBank: A Memory Framework that Distills Reasoning Strategies from Agent Successes and Failures

Google Cloud AI 연구진이 AI 에이전트의 '기억상실' 문제를 해결하기 위해 성공 및 실패 사례로부터 추론 전략을 추출하는 메모리 프레임워크인 ReasoningBank를 도입했다는 내용이다.

  • 기존 AI 에이전트는 학습 경험을 새로운 작업에 재활용하지 못하는 '기억상실' 문제를 겪는다.
  • ReasoningBank는 에이전트가 수행한 작업뿐만 아니라 성공 및 실패 이유를 재사용 가능한 추론 전략으로 증류한다.
  • 기존 메모리 방식인 trajectory memory와 workflow memory는 각각 노이즈가 많거나 성공 사례만 학습하는 한계가 있다.
  • ReasoningBank는 기억 검색, 추출, 통합의 세 단계로 작동하며, 작업 시작 전 관련 메모리 항목을 프롬프트에 주입하여 에이전트 성능을 향상시킨다.
Notable Quotes & Details
  • 2026-04-23
  • 2026-04-24 00:06 KST
  • ReasoningBank
  • University of Illinois Urbana-Champaign
  • Yale University

AI 연구자, 개발자

Xiaomi Releases MiMo-V2.5-Pro and MiMo-V2.5: Matching Frontier Model Benchmarks at Significantly Lower Token Cost

샤오미가 MiMo-V2.5-Pro와 MiMo-V2.5를 출시하여 최신 모델 벤치마크에 필적하는 성능을 훨씬 낮은 토큰 비용으로 달성했다.

  • 샤오미 MiMo 팀이 MiMo-V2.5-Pro와 MiMo-V2.5 두 가지 새로운 모델을 공개했다.
  • 이 모델들은 개방형 에이전트 AI가 예상보다 빠르게 최전선에 도달하고 있음을 시사한다.
  • MiMo-V2.5-Pro는 복잡한 소프트웨어 엔지니어링 및 장기적인 작업에서 상당한 개선을 보이며, 최상위 클로즈드 소스 모델과 경쟁할 만한 벤치마크를 기록했다.
  • 이 모델은 수천 건의 도구 호출에 걸친 복잡한 작업을 유지할 수 있으며, 에이전트 시나리오 내에서 지침 준수 능력이 향상되었다.
  • "하네스 인식"이라는 독특한 행동 특성을 통해 환경을 최대한 활용하고 메모리를 관리한다.
Notable Quotes & Details
  • SWE-bench Pro 57.2
  • Claw-Eval 63.8
  • τ3-Bench 72.9

AI 연구자, AI 엔지니어, 기술 분석가

AI Engineering Hub Breakdown: 10 Agentic Projects You Can Fork Today

에이전트 엔지니어링 학습을 위한 10가지 에이전트 프로젝트를 소개하며, 실제 레포를 포크하고 로컬에서 실행하며 변경하는 것이 가장 좋은 학습 방법임을 강조한다.

  • 에이전트 엔지니어링을 배우는 가장 좋은 방법은 실제 프로젝트 레포를 포크하여 직접 실행하고 수정하는 것이다.
  • OpenClaw는 개인 AI 비서의 미래 모습을 보여주는 프로젝트로, 멀티채널 지원과 음성 기능을 갖추고 있다.
  • OpenHands는 AI 기반 개발에 중점을 둔 코딩 에이전트 프로젝트로, 클라우드, CLI, SDK 등 광범위한 생태계를 포함한다.
  • browser-use는 AI 에이전트가 웹 기반 작업을 수행하도록 돕는 유용한 프로젝트이다.
Notable Quotes & Details
  • OpenClaw (~343k ⭐)
  • OpenHands (~70k ⭐)
  • browser-use (~85k ⭐)

AI 개발자, AI 엔지니어, 소프트웨어 개발자

7 Specific Unconventional Things to Do with Language Models

대규모 언어 모델(LLM)을 활용하는 7가지 비전통적인 방법에 대해 설명하며, 일반적인 채팅 인터페이스를 넘어선 숨겨진 잠재력을 탐구한다.

  • LLM은 일반적으로 채팅 인터페이스나 고급 검색 엔진과 같은 정형화된 역할에 사용되지만, 숨겨진 잠재력이 많다.
  • 의사결정을 위해 AI에게 시스템적으로 아이디어를 반박하고 논리를 테스트하도록 요청할 수 있다.
  • LLM을 사용하여 암호화된 로그 파일이나 지저분한 스택 추적을 자연어 단계별 문제 해결 매뉴얼로 변환할 수 있다.
  • 임대 계약서와 같은 긴 문서의 핵심 위험 요소를 식별하도록 LLM에게 요청할 수 있다.
Notable Quotes & Details

일반 독자, LLM 사용자, AI 연구자

The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

LLM이 외부 도구를 과도하게 사용하는 "도구 과사용 환상" 현상을 밝히고, 그 원인인 지식 인식 오류와 결과 중심 보상 구조를 분석하며 해결책을 제시한다.

  • LLM이 내부 추론 한계를 해결하기 위해 외부 도구를 활용하지만, 불필요한 도구 과사용 현상이 만연하다.
  • "지식 인식 오류"는 모델이 내부 지식 경계를 잘못 판단하여 실제 지식 가용성을 정확하게 인지하지 못하는 현상이다.
  • 지식 인식 오류 완화를 위해 지식 인식적 경계 정렬 전략을 제안하여 도구 사용을 82.8% 줄이고 정확도를 향상시켰다.
  • "결과 중심 보상"은 도구 효율성과 관계없이 최종 정확도만 보상하여 도구 과사용을 부추긴다.
  • 훈련 중 보상 신호 균형을 통해 불필요한 도구 호출을 66.7%(7B), 60.7%(32B) 줄이면서 정확도를 유지했다.
Notable Quotes & Details
  • 도구 사용 82.8% 감소
  • 도구 호출 66.7% (7B) 및 60.7% (32B) 감소

AI 연구자, LLM 개발자, 기계 학습 엔지니어

AI to Learn 2.0: A Deliverable-Oriented Governance Framework and Maturity Rubric for Opaque AI in Learning-Intensive Domains

AI to Learn 2.0은 학습 집약적 영역에서 불투명한 AI의 거버넌스 프레임워크와 성숙도 루브릭을 제공하여, AI 기반 작업의 평가 기준과 결과물의 신뢰성을 다룹니다.

  • AI-assisted 결과물이 인간의 이해, 판단, 전달 능력을 반영하는 증거로서 신뢰성을 잃는 "프록시 실패" 문제를 제기합니다.
  • 최종 결과물 패키지, 아티팩트 잔여물 및 역량 잔여물 구별, 5단계 패키지, 7차원 성숙도 루브릭, 게이트 임계값, 역량 증거 사다리를 통해 프레임워크를 운영합니다.
  • AI to Learn 2.0은 탐색, 초안 작성, 가설 생성 등에는 불투명한 AI 사용을 허용하지만, 최종 결과물은 원본 LLM 또는 클라우드 API 없이도 사용 가능하고, 감사 가능하며, 이전 가능하고, 정당화 가능해야 합니다.
  • 학습 집약적 상황에서는 설명 또는 전이에 대한 인간 귀속 가능한 증거를 추가로 요구합니다.
  • 구조화된 제3자 검토를 위한 거버넌스 도구로 제안됩니다.
Notable Quotes & Details

AI 연구자, 교육자, 정책 입안자

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

이 연구는 NGSS 교실에서 과학적 설명의 AI 채점 시 발생하는 클래스 불균형 문제를 해결하기 위해 트랜스포머 기반 모델을 위한 데이터 증강 및 재샘플링 전략을 탐구합니다.

  • 학생들의 과학적 설명을 자동 채점하는 과정에서 고급 추론 범주의 클래스 불균형이 주요 과제로 남아있습니다.
  • SciBERT를 기반으로 GPT-4 생성 합성 응답, EASE, ALP와 같은 증강 전략을 적용했습니다.
  • 미세 조정된 SciBERT는 베이스라인보다 리콜을 향상시켰고, 증강 전략은 성능을 크게 향상시켰습니다.
  • GPT 데이터는 정밀도와 리콜을 모두 높였으며, ALP는 심각한 불균형 범주(5,6,7,9)에서 완벽한 정밀도, 리콜, F1 점수를 달성했습니다.
  • EASE 증강은 과학적 아이디어와 부정확한 아이디어 모두에서 인간 채점과의 정렬을 크게 증가시켰습니다.
Notable Quotes & Details

AI 연구자, 교육 기술 개발자

Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

이 논문은 LLM을 활용한 설명 가능한 자금세탁방지(AML) 경고 분류 프레임워크를 제안하며, 증거 검색 및 반사실적 검사를 통해 규제 워크플로우에서의 위험을 완화합니다.

  • AML 거래 모니터링은 감사 및 거버넌스 제약 하에 조사관이 신속하게 분류해야 하는 대량의 경고를 생성합니다.
  • LLM의 환각, 약한 출처, 결정에 불충분한 설명 등 규제 워크플로우에서의 위험을 강조합니다.
  • 제안된 프레임워크는 검색 증강 증거 번들링, 명시적 인용을 요구하는 구조화된 LLM 출력 계약, 반사실적 검사를 결합합니다.
  • 증거 기반 접근 방식은 감사 가능성을 크게 향상시키고 수치 및 정책 환각 오류를 줄입니다.
  • 반사실적 검사는 의사 결정과 연관된 설명 가능성 및 견고성을 더욱 높여, 최적의 분류 성능을 제공합니다.
Notable Quotes & Details
  • PR-AUC 0.75; Escalate F1 0.62
  • citation validity 0.98; evidence support 0.88; counterfactual faithfulness 0.76

금융 규제 기술 개발자, AI 연구자, AML 전문가

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA는 LLM의 열역학적 추론 능력을 평가하기 위한 3단계 벤치마크를 제시하며, 이는 속성 조회, 구성 요소 분석, 전체 사이클 분석으로 구성됩니다.

  • 293개의 개방형 공학 열역학 문제로 구성된 벤치마크인 ThermoQA를 소개합니다.
  • CoolProp 7.2.0을 사용하여 물, R-134a, 가변-cp 공기에 대한 정답이 계산됩니다.
  • Claude Opus 4.6 (94.1%), GPT-5.4 (93.1%), Gemini 3.1 Pro (92.5%)가 종합 리더보드를 이끌었습니다.
  • 속성 기억이 열역학적 추론을 의미하지 않음을 확인하며, 계층 간 성능 저하가 2.8pp에서 32.5pp에 이릅니다.
  • 슈퍼크리티컬 물, R-134a 냉매, 복합 사이클 가스 터빈 분석은 40-60pp 성능 차이를 보이는 자연스러운 판별기 역할을 합니다.
Notable Quotes & Details
  • 293 open-ended engineering thermodynamics problems
  • Claude Opus 4.6 (94.1%), GPT-5.4 (93.1%), and Gemini 3.1 Pro (92.5%)
  • Cross-tier degradation ranges from 2.8 pp (Opus) to 32.5 pp (MiniMax)
  • Multi-run sigma ranges from +/-0.1% to +/-2.5%

AI 연구자, 열역학 전문가

WorkflowGen:an adaptive workflow generation mechanism driven by trajectory experience

WorkflowGen은 LLM 에이전트의 높은 추론 오버헤드와 불안정한 실행 문제를 해결하기 위해 경험 기반의 적응형 워크플로 생성 메커니즘을 제안합니다.

  • LLM 에이전트의 높은 비용, 느린 응답, 낮은 견고성 문제를 해결합니다.
  • 완전한 트라젝토리를 캡처하여 노드 및 워크플로 수준의 재사용 가능한 지식을 추출합니다.
  • 트라젝토리 재작성, 경험 업데이트, 템플릿 유도를 통해 가변 노드에 대한 경량 생성을 수행하는 폐쇄 루프 메커니즘을 사용합니다.
  • 실시간 계획 방식 대비 토큰 소비를 40% 이상 줄이고, 중간 유사성 쿼리에서 성공률을 20% 향상시킵니다.
Notable Quotes & Details
  • 40 percent
  • 20 percent

AI 연구자, LLM 개발자

Transparent Screening for LLM Inference and Training Impacts

이 논문은 제한된 관찰 가능성 하에서 현재 대규모 언어 모델의 추론 및 훈련 영향을 추정하기 위한 투명한 스크리닝 프레임워크를 제시합니다.

  • 자연어 애플리케이션 설명을 경계가 있는 환경 추정치로 변환합니다.
  • 현재 시장 모델에 대한 비교 온라인 관측소를 지원합니다.
  • 불투명한 독점 서비스에 대한 직접 측정이 아닌, 감사 가능한 소스 연결 프록시 방법론을 제공합니다.
  • 비교 가능성, 투명성, 재현성을 향상시키기 위해 설계되었습니다.
Notable Quotes & Details

AI 연구자, 정책 입안자, 기업

Accelerating PayPal's Commerce Agent with Speculative Decoding: An Empirical Study on EAGLE3 with Fine-Tuned Nemotron Models

이 연구는 PayPal의 Commerce Agent에 fine-tuned Nemotron 모델과 EAGLE3를 활용한 추론 최적화 기법인 Speculative Decoding의 성능을 평가합니다.

  • EAGLE3를 사용한 Speculative Decoding이 PayPal Commerce Agent의 지연 시간과 비용을 줄이는 데 효과적임을 입증했습니다.
  • gamma=3 설정 시 처리량을 22-49% 향상시키고, 지연 시간을 18-33% 단축합니다.
  • gamma=3에서 토큰 수용률은 약 35.5%로 안정적으로 유지됩니다.
  • LLM-as-Judge 평가를 통해 출력 품질이 완전히 보존됨을 확인했습니다.
  • 단일 H100 GPU에서의 Speculative Decoding 성능이 두 개의 H100 GPU를 사용한 NVIDIA NIM의 성능과 동등하거나 능가하여 GPU 비용을 50% 절감할 수 있습니다.
Notable Quotes & Details
  • 22-49%
  • 18-33%
  • 35.5%
  • 25%
  • 50%
  • gamma=3
  • gamma=5
  • llama3.1-nemotron-nano-8B-v1
  • NVIDIA NIM

AI/ML 엔지니어, LLM 성능 최적화 연구자, 클라우드 아키텍트

On-Meter Graph Machine Learning: A Case Study of PV Power Forecasting for Grid Edge Intelligence

이 논문은 마이크로그리드의 스마트 미터에서 그래프 신경망을 사용하여 태양광 발전 예측을 수행하는 온-미터 그래프 머신러닝에 대한 사례 연구를 제시합니다.

  • ONNX 및 ONNX Runtime을 포함한 기술과 스마트 미터의 하드웨어/소프트웨어 사양을 소개합니다.
  • GCN 및 GraphSAGE 두 가지 그래프 머신러닝 모델의 훈련 및 배포에 중점을 둡니다.
  • GCN을 위한 맞춤형 ONNX 연산자 개발 및 배포를 강조합니다.
  • 실제 마을 마이크로그리드 데이터셋을 사용하여 PC와 스마트 미터 모두에서 두 모델의 성공적인 배포 및 실행을 시연합니다.
Notable Quotes & Details
  • ONNX
  • ONNX Runtime
  • GCN
  • GraphSAGE

에너지 시스템 연구자, AI/ML 엔지니어, 임베디드 시스템 개발자

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

MoE(Mixture-of-Experts) 모델의 용량을 점진적으로 확장하는 '전문가 업사이클링(expert upcycling)'이라는 새로운 방법을 제안하여, 대규모 MoE 모델을 처음부터 훈련하는 것보다 계산 효율성을 높인다.

  • MoE는 대규모 언어 모델 스케일링의 지배적인 아키텍처이지만, 훈련 비용이 높다.
  • 전문가 업사이클링은 지속적인 사전 훈련(CPT) 중에 전문가 수를 늘려 MoE 용량을 점진적으로 확장한다.
  • 이 방법은 훈련된 MoE 모델의 전문가를 복제하여 시작하고, CPT를 통해 전문화를 유도한다.
  • 7B-13B 모델 실험에서 기존 방식과 비슷한 품질을 유지하며 GPU 시간을 32% 절약했다.
Notable Quotes & Details
  • 32% of GPU hours

AI 연구자, 머신러닝 엔지니어

Can We Locate and Prevent Stereotypes in LLMs?

LLM 내부에서 고정관념과 관련된 활성화가 발생하는 위치를 파악하고 이를 완화하기 위한 초기 통찰력을 제공하는 연구.

  • LLM의 고정관념은 유해한 사회적 편견을 영속화할 수 있다.
  • GPT-2 Small 및 Llama 3.2 모델의 내부 메커니즘을 조사하여 고정관념 관련 활성화 위치를 찾는다.
  • 개별 대조 신경망 활성화 및 편향된 출력에 크게 기여하는 주의 헤드를 식별하는 두 가지 접근 방식을 탐색한다.
  • "편향 지문(bias fingerprints)"을 매핑하고 고정관념 완화를 위한 초기 통찰력을 제공한다.
Notable Quotes & Details
  • GPT 2 Small
  • Llama 3.2

AI 연구자, 윤리적 AI 개발자

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

LLM의 환각 신경(H-neurons)이 지식 도메인 간에 일반화되는지 여부를 조사하여, 환각이 도메인별 신경 개체군과 관련되어 있음을 시사한다.

  • "환각 신경"은 LLM이 환각을 일으킬 때를 예측하는 것으로 알려져 있다.
  • 6개 도메인과 5개 오픈-웨이트 모델을 사용한 교차 도메인 전이 프로토콜을 통해 H-신경이 도메인 간에 일반화되지 않음을 발견했다.
  • 한 도메인에서 훈련된 분류기는 해당 도메인 내에서는 AUROC 0.783을 달성했지만, 다른 도메인으로 전이할 때는 0.563으로 성능이 저하되었다.
  • 이는 환각이 보편적인 신경 신호를 가진 단일 메커니즘이 아니라 도메인별 신경 개체군과 관련이 있음을 시사한다.
  • 환각 탐지기는 도메인별로 보정되어야 함을 시사한다.
Notable Quotes & Details
  • AUROC 0.783
  • AUROC 0.563
  • delta = 0.220

AI 연구자, LLM 개발자

OThink-SRR1: Search, Refine and Reasoning with Reinforced Learning for Large Language Models

LLM을 위한 새로운 프레임워크인 OThink-SRR1을 제안하여, 강화 학습을 통해 검색, 정제 및 추론 과정을 반복함으로써 복잡한 다단계 질문에 대한 응답 정확도를 향상시킨다.

  • RAG(Retrieval-Augmented Generation)는 LLM의 지식을 확장하지만, 정적 검색 방식은 복잡한 다단계 문제에 어려움을 겪는다.
  • OThink-SRR1은 강화 학습을 통해 훈련된 반복적인 검색-정제-추론(Search-Refine-Reason) 프레임워크를 제공한다.
  • 핵심 정제 단계는 검색된 문서를 간결하고 관련성 있는 사실로 추출한다.
  • GRPO-IR이라는 종단 간 강화 학습 알고리즘을 도입하여 정확한 증거 식별을 보상하고 과도한 검색을 패널티화한다.
  • 4개의 다단계 QA 벤치마크에서 기존 방식보다 우수한 정확도를 달성하며 검색 단계와 토큰 사용량을 줄였다.
Notable Quotes & Details

AI 연구자, LLM 개발자

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

LLM(대규모 언어 모델)의 인식론적-수사적 불균형을 정량화하는 프레임워크를 제안하고, LLM 생성 텍스트의 특징적인 인식론적 서명을 식별한다.

  • LLM은 인식론적 근거에 비례하지 않는 수사적 강도를 보여 체계적인 불균형을 보인다.
  • ERM(Epistemic-Rhetorical Marker) 분류법을 통해 불균형을 정량화하는 프레임워크를 제안한다.
  • FMD(형식-의미 발산), GPR(진정성-수행된 인식론적 비율), RDDE(수사적 장치 분포 엔트로피) 복합 지표를 활용한다.
  • LLM 생성 텍스트는 전문가의 거의 두 배에 달하는 삼부법(tricolon)을 생성하며, 인간 저자는 LLM보다 두 배 이상 에로테마(erotema)를 사용한다.
  • LLM 텍스트에서 FMD가 인간 그룹에 비해 유의미하게 높고, 수사적 장치가 더 균일하게 분포한다.
Notable Quotes & Details
  • $\Delta = 0.95$
  • $p < 0.001, \Delta = 0.68$

AI 연구자, 자연어 처리 연구자

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

장문 컨텍스트 LLM 추론의 효율성을 위한 KV 캐시 관리 프레임워크인 TTKV를 제안하며, 인간 기억 시스템을 KV 캐시에 매핑하여 메모리 병목 현상을 해결한다.

  • LLM 추론에서 KV 캐싱은 효율성에 중요하지만, 컨텍스트 길이에 비례하여 메모리 점유가 증가하는 병목 현상이 있다.
  • 기존 KV 캐시 접근 방식은 KV 상태를 시간적으로 동일하게 중요하다고 가정한다.
  • TTKV는 KV 캐시를 이질적인 용량과 정밀도를 가진 시간 계층으로 분할한다.
  • HBM과 DRAM을 사용하여 빠르고 느린 메모리를 분리하는 계층 레이아웃, 시간적 근접성에 따라 최신 KV 상태를 더 빠르고 정밀한 계층에 할당하는 계층 콘텐츠, 블록 단위 스트리밍 어텐션을 사용하는 계층 상호 작용 세 가지 측면을 다룬다.
  • TTKV는 128K 컨텍스트 작업에서 교차 계층 트래픽을 5.94배 감소시키고, 대기 시간을 최대 76% 줄이며, 처리량을 2배 향상시킨다.
Notable Quotes & Details
  • 5.94x
  • 76%
  • 2x
  • 128K-context

AI 연구자, 대규모 언어 모델 개발자

Bitwarden CLI npm 패키지 하이재킹 – 개발자 인증정보 대규모 탈취 공격 발견

JFrog 보안 연구팀이 npm의 @bitwarden/cli 2026.4.0 버전이 하이재킹되어 개발자 인증정보를 대규모로 탈취하는 공격을 발견했다.

  • `@bitwarden/cli` 2026.4.0 버전이 정상 메타데이터와 브랜딩을 유지한 채 악성 로더(`bw_setup.js`)로 교체되었다.
  • 설치 시 로더가 Bun 런타임을 다운로드한 후 난독화된 JavaScript 페이로드(`bw1.js`)를 실행하여 인증정보를 수집한다.
  • 파일시스템(SSH 키, Git 자격증명, npm 토큰, .env, AWS/GCP 자격증명 등), 셸/환경(GitHub·npm 토큰), GitHub Actions(Actions 시크릿)에서 광범위하게 정보를 수집한다.
  • 특히 AI 도구 및 MCP(Model Context Protocol) 설정 파일(`.claude.json`, `.claude/mcp.json`, `.kiro/settings/mcp.json`)도 수집 대상에 포함된다.
  • 탈취한 데이터는 `gzip` 압축 후 AES-256-GCM + RSA-OAEP 하이브리드 암호화를 거쳐 전송되며, GitHub를 악용한 2차 유출 경로도 존재한다.
  • 내장된 정상 메타데이터와 패키지 루트 버전 불일치(2026.3.0 vs 2026.4.0)로 외부에서 악성 레이어를 씌운 것으로 분석된다.
Notable Quotes & Details
  • `@bitwarden/cli 2026.4.0`
  • `2026.3.0`
  • `2026.4.0`
  • `audit.checkmarx.cx`
  • `94.154.172.43`

개발자, 보안 엔지니어, AI 도구 사용자

Google Agents CLI — 코딩 에이전트를 에이전트 빌더로 만드는 메타 도구

Google이 Cloud Next에서 공개한 agents-cli는 Gemini CLI, Claude Code, Codex 등 코딩 에이전트에게 Google Cloud 기반 AI 에이전트를 설계하고 배포하는 전문 역량을 주입하는 메타 도구이다.

  • 에이전트 개발의 전체 생명주기(프로젝트 생성, 평가, 배포, 엔터프라이즈 등록)를 하나의 CLI로 다룬다.
  • SDK 코드 작성보다는 수십 가지 컴포넌트의 조합 및 설정 판단 병목을 해결하는 데 중점을 둔다.
  • 코딩 에이전트가 '무엇을 했는지'뿐만 아니라 '왜 그렇게 결정했는지'를 설명하도록 설계되어 팀원의 플랫폼 이해도를 높인다.
  • 7종의 '스킬'을 코딩 에이전트에 주입하는 방식으로 작동하며, 워크플로우 설계, ADK 코드 작성, 프로젝트 스캐폴딩, 평가, 배포, 퍼블리싱, 관측성 등을 담당한다.
  • 특정 코딩 에이전트에 종속되지 않고 Gemini CLI, Claude Code, Codex 등 다양한 에이전트에 스킬 주입이 가능하다.
Notable Quotes & Details
  • 7종의 '스킬'
  • Python 3.11 이상

AI 에이전트 개발자, 플랫폼 엔지니어, Google Cloud 사용자

Notes: 현재 Pre-GA 단계이며, 소스코드가 아닌 사전 빌드된 .whl 파일로만 배포되어 오픈소스 커뮤니티의 직접적인 코드 기여는 제한된다. 멀티클라우드 환경이나 비-Google 스택을 주로 사용하는 팀에게는 적용 범위가 제한될 수 있다.

Gemini Deep Research Agent API 공개

구글이 스스로 검색 계획을 세우고 웹페이지를 탐색하여 보고서를 자동 생성하는 Gemini Deep Research Agent를 API로 공개했다.

  • Gemini Deep Research Agent가 API로 공개되었다.
  • AI가 질문에 대해 검색 계획을 세우고 웹페이지를 탐색하여 보고서를 생성한다.
  • 기존에는 Google AI Studio 웹 UI에서만 사용 가능했다.
  • 출처가 포함된 긴 보고서 생성이 가능하다.
Notable Quotes & Details

개발자, AI 연구자, 정보 탐색 및 보고서 자동화에 관심 있는 사용자

과도한 편집은 모델이 필요한 범위를 넘어서 코드를 수정하는 현상

AI 코딩 모델이 버그 수정 시 필요한 최소 범위를 넘어 과도하게 코드를 수정하는 'Over-Editing' 현상을 분석하고, 이를 정량화하는 방법을 제시했다.

  • AI 코딩 모델이 버그 수정 시 필요 이상의 광범위한 코드 변경을 일으키는 'Over-Editing' 현상이 발생한다.
  • 기존 코드베이스 유지 작업에서는 테스트 통과 외에 최소 수정성 유지가 중요하다.
  • 400개 BigCodeBench 문제를 통해 토큰 단위 Levenshtein 거리, 상대 패치 점수 등으로 과도한 편집을 정량화했다.
  • Claude Opus 4.6은 정확성과 최소 수정성에서 균형이 좋았고, GPT-5.4는 과도한 편집 경향이 두드러졌다.
  • 원본 보존 프롬프트와 RL 학습 방식이 최소 편집 행동에 긍정적인 영향을 미쳤다.
Notable Quotes & Details
  • 400개 BigCodeBench 문제
  • Claude Opus 4.6
  • GPT-5.4

AI 연구자, 소프트웨어 개발자, 코드 리뷰어

Google Cloud의 AI 에이전트 거버넌스 스택, "에이전트를 엔지니어 조직처럼 관리하라"

Google Cloud가 Cloud Next 26에서 AI 에이전트 집단을 엔지니어링 조직처럼 관리해야 한다는 철학을 담은 Gemini Enterprise Agent Platform의 거버넌스 스택을 발표했다.

  • Google Cloud가 Gemini Enterprise Agent Platform의 거버넌스 스택을 공개했다.
  • 핵심 철학은 AI 에이전트 집단을 엔지니어링 조직처럼 관리하는 것이다.
  • 신원 부여, 접근 권한 통제, 정책 강제 등의 체계적인 프레임워크를 제시한다.
  • Cloud Next 26에서 발표되었다.
Notable Quotes & Details
  • Cloud Next 26
  • Gemini Enterprise Agent Platform

클라우드 아키텍트, IT 관리자, AI 시스템 개발자, 기업 의사결정자

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

OCR 성능 벤치마크 결과, 저렴하거나 오래된 LLM 모델들이 최신/대규모 모델만큼 정확하거나 더 나은 성능을 보여 비용 효율성에서 우세함을 발견하고 데이터셋과 프레임워크를 공개했다.

  • 18개 LLM에 대한 OCR 성능 벤치마크를 수행하여 7,560번의 호출을 기록했다.
  • 최신/대규모 모델보다 저렴하고 오래된 모델이 OCR에서 종종 더 나은 성능을 보였다.
  • 표준 OCR 작업에서 작은 모델과 오래된 모델이 훨씬 저렴한 비용으로 프리미엄 정확도를 제공한다.
  • pass^n (규모에서의 신뢰성), 성공당 비용, 지연 시간, 주요 필드 정확도를 추적했다.
  • 42개의 표준 문서를 선별하여 각 모델을 10회씩 테스트했다.
  • 전체 데이터셋과 벤치마킹 프레임워크가 오픈 소스로 공개되었다 (GitHub: ArbitrHq/ocr-mini-bench).
Notable Quotes & Details
  • 18 LLMs
  • 7k+ calls
  • 7,560 total calls
  • 42 standard documents
  • 10 times
  • GitHub: ArbitrHq/ocr-mini-bench

AI 연구자, 개발자, OCR 솔루션 도입 기업, 비용 최적화에 관심 있는 ML 엔지니어

Isolation Forest + eBPF events to create a Linux based endpoint detection system [P]

Isolation Forest와 eBPF 이벤트를 활용하여 Linux 기반 엔드포인트 이상 탐지 시스템 'guardd'를 개발하고 피드백을 요청하는 내용입니다.

  • Isolation Forest를 사용한 호스트 기반 비정상 탐지 시스템 'guardd' 개발.
  • exec 및 네트워크 이벤트를 60초 단위로 그룹화하여 특징 벡터로 변환하고 모델 스코어링.
  • 현재는 오탐(특히 브라우저 활동) 문제가 주요 과제이며, 훈련 데이터에 모델이 민감함.
  • 시간 기반 특징 추가, 정규화 개선, 버스트 행동 처리 개선 등을 고려 중.
  • 리포지토리: https://github.com/benny-e/guardd.git
Notable Quotes & Details
  • 60 second windows
  • 162 MB per model

머신러닝 개발자, 보안 엔지니어

First time fine-tuning, need a sanity check — 3B or 7B for multi-task reasoning? [D]

첫 파인튜닝 프로젝트를 앞두고, 3B 또는 7B 모델 중 다중 작업 추론에 적합한 모델 크기에 대한 조언을 구하는 내용입니다.

  • 사용자는 LLM API를 1년간 사용했으며, 프롬프트 엔지니어링의 한계를 느껴 파인튜닝을 시도하려 함.
  • 모델이 배워야 할 세 가지 관련 작업: 질문의 이면 파악, 다중 관점 유지, 복잡한 문제에서 핵심 스레드 식별.
  • Phi-4-mini (3B) 또는 Qwen 2.5 (7B) 모델을 고려 중이며, 40-60k개의 훈련 예제 생성 가능.
  • M4 Mac (24GB 통합 메모리)에서 LoRA 사용 시 3B는 가능하나 7B는 어려움.
  • 3B 모델이 훈련 분포 밖의 경우에도 관련 추론 모드를 혼동하지 않을지 우려.
Notable Quotes & Details
  • 3B
  • 7B
  • 40-60k training examples
  • M4 Mac with 24gb unified

LLM 개발자, 파인튜닝 연구자

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

AfterImage에 추가된 오픈 소스 도구 OpenSimula에 대한 소개로, 합성 데이터 생성을 위한 Simula 방식 메커니즘 설계를 구현했습니다.

  • AfterImage에 OpenSimula가 추가되었으며, 합성 데이터 생성을 위한 Simula 메커니즘 설계를 파이썬으로 구현.
  • 문제점: SFT/평가 설정에서 추론 공간의 제어된 다양성(다양성 축, 공동 샘플링, 생성 스트레스 테스트)이 중요.
  • LLM 기반 요인 분류, 가중치 혼합 샘플링, 메타 프롬프트 다양화, 요구 사항 비평 루프 등을 통해 작동.
  • Google 제품이 아니며, API는 실험적이며 변경될 수 있고, 비용 및 지연 시간이 높을 수 있음.
  • 리포지토리: https://github.com/altaidevorg/afterimage
Notable Quotes & Details

ML 개발자, 연구자

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

Transformer 모델의 크기 및 추론 속도 최적화에 대한 추가적인 방법론을 모색하는 질문입니다.

  • FP16 변환(2배 크기 감소) 및 ONNX Runtime 최적화, 가지치기(pruning) 후에도 추가적인 성능 향상에 한계를 느낌.
  • 현재 모델 당 약 162MB이며, 저랭크 분해, 공격적 양자화(INT8/INT4), 지식 증류, TensorRT/FlashAttention 등을 고려 중.
  • FP16 및 가지치기 이후 실제 성능 향상에 가장 효과적인 방법과 저랭크 방식의 유효성에 대한 조언을 구함.
  • 증류 또는 양자화가 이 단계에서 가장 효과적인 방법인지 궁금해 함.
Notable Quotes & Details
  • FP16
  • ~162 MB per model
  • 2x size reduction

머신러닝 엔지니어, 딥러닝 연구자

Anthropic told a federal court it can't control its own model once deployed. That honest sentence changes the liability conversation.

Anthropic은 연방 법원에서 모델이 한번 배포되면 통제할 수 없다고 주장했으며, 이는 AI 모델의 책임 문제에 대한 논의를 변화시키고 있습니다.

  • Anthropic은 Claude 모델이 고객 인프라에 배포되면 수정, 업데이트 또는 회수할 수 없다고 법원에 진술했습니다.
  • 미 국방부는 자율 살상 행동 제한을 제거하기를 원하지만 Anthropic은 배포 후에는 이러한 제한을 강제할 메커니즘이 없다고 밝혔습니다.
  • 이는 주요 AI 연구소가 배포 후 통제가 사실상 불가능하다는 것을 공식적으로 인정한 첫 사례입니다.
  • 현재 AI 거버넌스는 존재하지 않는 통제 사슬을 가정하며, 이는 모델 카드, Human-in-the-loop, 책임 프레임워크에 영향을 미칩니다.
  • 모델을 회수할 수 없다면, 권장 사용법이 아닌 최대 기능과 잠재적 위험을 공개해야 합니다.
Notable Quotes & Details

AI 정책 입안자, 법률 전문가, AI 개발자, 일반 독자

A federal judge ruled AI chats have no attorney-client privilege. A CEO's deleted ChatGPT conversations were recovered and used against him in court. On the same day, a different judge ruled the opposite.

연방 판사가 AI 채팅에는 변호사-의뢰인 특권이 없다고 판결했으며, 삭제된 ChatGPT 대화가 법정에서 증거로 사용될 수 있음을 보여주지만, 동시에 다른 판사는 반대되는 판결을 내렸습니다.

  • 연방 판사는 AI 대화가 법정에서 압수되어 사용될 수 있으며, 삭제해도 소용없다고 판결했습니다.
  • Heppner 사건(2026년 2월): 전 CEO의 Claude를 이용한 사기 방어 준비 내용이 변호사-의뢰인 특권이 없다는 판결로 제출되었습니다.
  • Krafton 사건: CEO가 ChatGPT로 지급액 회피 계획을 세운 후 삭제했지만 대화 내용이 복구되어 판결에 사용되었습니다.
  • 같은 날, 미시간주 판사는 AI 채팅을 개인 "업무 산출물"로 보호하며 반대되는 판결을 내렸습니다.
  • 12개 이상의 주요 로펌이 AI 관련 고객 경고를 발행했으며, OpenAI와 Anthropic의 개인 정보 보호 정책은 사용자 데이터 공유를 허용합니다.
  • 2026년 1분기에만 AI 인용 오류로 변호사들에게 145,000달러 이상의 제재가 가해졌습니다.
Notable Quotes & Details
  • The Heppner case (February 2026)
  • $145,000+ in sanctions against attorneys for AI citation errors in Q1 2026 alone

법률 전문가, AI 사용자, 기업 경영진, 일반 독자

A Yale ethicist who has studied AI for 25 years says the real danger isn’t superintelligence. It’s the absence of moral intelligence.

예일대 윤리학자는 AI의 진정한 위험은 초지능이 아니라 도덕적 지능의 부재에 있다고 주장하며, AGI 개발의 방향성에 대해 의문을 제기합니다.

  • 웬델 월락은 AI 윤리 분야에서 25년간 연구했으며, AGI가 불가능하거나 필연적인 것이 아니라 잘못된 목표라고 주장합니다.
  • 시스템은 매우 지능적일 수 있지만 도덕적 추론 능력이 없을 수 있으며, 우리는 AI가 무엇을 결정할 수 있는지 묻지 않고 역량을 구축하고 있습니다.
  • AI가 해를 끼칠 때 누가 책임져야 하는지에 대한 질문에, 그는 거의 항상 아무도 책임지지 않는다고 지적하며 책임 문제를 제기합니다.
  • 이 인터뷰는 AI의 극단적인 관점에 지친 사람들에게 고려할 만한 가치가 있습니다.
Notable Quotes & Details
  • Wendell Wallach
  • Moral Machines
  • Stuart Russell
  • Yann LeCun
  • Daniel Kahneman

AI 연구자, 윤리학자, 정책 입안자, 일반 독자

Been building a multi-agent framework in public for 7 weeks, its been a Journey.

저자는 7주 동안 다중 에이전트 프레임워크인 AIPass를 공개적으로 개발해왔으며, 이는 에이전트들이 영구적인 정체성, 메모리, 통신을 가지며 동일한 파일 시스템을 공유하는 CLI 프레임워크입니다.

  • AIPass는 AI 에이전트가 영구적인 정체성, 메모리, 통신을 가지는 로컬 CLI 프레임워크입니다.
  • 에이전트들은 샌드박스나 격리 없이 동일한 파일 시스템, 프로젝트, 파일을 공유합니다.
  • 이 프레임워크는 여러 에이전트 간의 조정을 수동으로 처리해야 하는 문제를 해결합니다.
  • 에이전트는 `.trinity/` 디렉토리에 ID 파일, 세션 기록, 협업 패턴을 세 개의 JSON 파일로 저장합니다.
  • `pip install aipass` 명령으로 설치할 수 있으며, `aipass init` 명령으로 에이전트를 초기화할 수 있습니다.
Notable Quotes & Details
  • 7 weeks
  • AIPass

AI 개발자, 연구자, 소프트웨어 엔지니어, 일반 사용자

Thoughts and feelings around Claude Design, Tell HN: I'm sick of AI everything, Ask HN: What skills are future proof in an AI driven job market? and many other AI links from Hacker News

AI Hacker 뉴스레터 29호에서 다룬 해커 뉴스 내 AI 관련 주제 및 토론들을 소개하는 글입니다.

  • AI Hacker 뉴스레터 29호에서 다양한 AI 관련 주제를 다루었습니다.
  • 해커 뉴스에서 "AI 시대에 미래 보장되는 기술
  • 메타가 AI 훈련을 위해 직원 마우스 움직임, 키스트로크 캡처 시작
  • Claude 디자인에 대한 생각과 감정
  • 모든 에이전트가 비동기적으로 움직일 것
  • AI에 지쳤다" 등의 토론이 있었습니다.
  • 독자들에게 뉴스레터 구독을 권유하고 있습니다.
Notable Quotes & Details
  • #29
  • Meta to start capturing employee mouse movements, keystrokes for AI training
  • All your agents are going async
  • Tell HN: I'm sick of AI everything
  • https://hackernewsai.com/

AI 기술 및 동향에 관심 있는 일반 독자, 개발자

Qwen 3.6 27B is a BEAST

24GB VRAM을 가진 노트북에서 Qwen 3.6 27B 모델이 클라우드 구독을 취소할 만큼 뛰어난 성능을 보인다는 사용 후기입니다.

  • Qwen 3.6 27B 모델이 24GB VRAM 환경에서 매우 강력한 성능을 발휘합니다.
  • 특히 pyspark/python 및 데이터 변환 디버깅 작업에서 탁월하다고 평가했습니다.
  • llama.cpp와 q4_k_m at q4_0 설정을 사용하여 테스트했습니다.
  • 클라우드 LLM 구독을 취소할 정도로 만족도가 높습니다.
Notable Quotes & Details
  • Qwen 3.6 27B
  • 24GB VRAM
  • llama.cpp
  • q4_k_m
  • q4_0

로컬 LLM 사용자, 데이터 과학자, 개발자

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

Qwen-3.6-27B 모델과 llamacpp의 추론 디코딩(speculative decoding) 기능을 활용하여 토큰 생성 속도가 크게 향상됨을 보여주는 경험 공유입니다.

  • llamacpp의 추론 디코딩을 Qwen-3.6-27B 모델과 함께 사용했을 때 토큰 생성 속도가 크게 향상되었습니다.
  • 세션 중 토큰 생성 속도가 13.60 t/s에서 136.75 t/s까지 증가하는 것을 확인했습니다.
  • Qwen-3.6-27B가 버그를 정확히 찾아내고 수정하는 등 코딩 능력도 뛰어남을 보여주었습니다.
  • `llama-server` 명령에 특정 추론 디코딩 옵션을 추가하여 성능을 최적화했습니다.
Notable Quotes & Details
  • Qwen-3.6-27B
  • speculative decoding
  • 13.60 t/s
  • 25.53 t/s
  • 68.35 t/s
  • 136.75 t/s
  • llama-server command ' --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48 '
  • 40GB VRAM (rtx3090 and rtx4060ti)
  • 128GB DDR5

로컬 LLM 사용자, 개발자, AI 엔지니어

Qwen3.6 can code

OpenAI 모델에서 여러 번 오류를 겪은 후 Qwen3.6-27B를 사용해 코딩 작업을 시도했고, 완벽한 결과를 얻었다는 경험담입니다.

  • OpenAI 모델 사용 중 잦은 오류로 인해 Qwen3.6-27B 모델로 전환했습니다.
  • Qwen3.6-27B가 Svelte 5 관련 코딩 작업에서 완벽한 결과를 도출했습니다.
  • 유료 API보다는 시간이 더 걸렸지만, 로컬 모델의 잠재력을 높이 평가하고 있습니다.
  • 향후 12개월간 로컬 LLM의 발전 가능성에 대한 기대를 내비쳤습니다.
Notable Quotes & Details
  • Qwen3.6-27b
  • Svelte 5
  • N=1

개발자, 로컬 LLM 사용자, OpenAI API 사용자

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

사용자가 Qwen 3.6 모델을 사용하여 로컬에서 풀스택 개발 프로젝트를 성공적으로 수행했으며, 클로드 API 대비 비용 효율성이 매우 높다고 평가합니다.

  • Qwen 3.6 (35B Q4 및 27B Q8) 모델이 로컬 환경에서 코드 생성 및 수정에 효과적으로 사용되었습니다.
  • 듀얼 3090 GPU와 200k 컨텍스트로 Qwen 3.6을 실행했으며, Unsloth quickstart 가이드를 따랐습니다.
  • 클로드 API 사용 시 8시간 동안 약 142달러가 들었을 것으로 예상되지만, Qwen 3.6 로컬 실행은 전기료로 4달러 미만을 소모했습니다.
  • 로컬 리그 구축 비용 4500 NZD는 약 260시간 사용 시 클로드 API 비용과 상쇄될 수 있으며, 이는 약 1~2개월 내에 회수 가능하다고 추정됩니다.
  • Rust 서버 자원 모니터링 웹 대시보드 개발 등 풀스택 개발에 성공적으로 활용되었습니다.
Notable Quotes & Details
  • Qwen3.6-35B-A3B (Q4)
  • 27B (Q8)
  • dual 3090 rig
  • 200k context
  • $142 (API calls)
  • <$4 (electricity)
  • $4500 (NZD)
  • ~260 hours
  • ~30 days
  • 10 days

로컬 LLM 개발자, AI 모델 비용 최적화에 관심 있는 개발자, 풀스택 개발자

Tencent Releases Hy3 preview - Open Source 295B 21B Active MoE

텐센트가 Hy3 프리뷰 버전을 공개했으며, 이는 295B 파라미터와 21B 액티브 파라미터를 가진 오픈소스 Mixture of Experts (MoE) 모델입니다.

  • 텐센트가 Hy3 프리뷰 모델을 출시했습니다.
  • 해당 모델은 295B의 총 파라미터를 가지며, 이 중 21B가 액티브 파라미터인 MoE(Mixture of Experts) 구조입니다.
  • 모델 가중치는 Hugging Face를 통해 공개되었습니다.
Notable Quotes & Details
  • 295B
  • 21B Active MoE

AI 연구자, 대규모 언어 모델 개발자, MoE 모델에 관심 있는 기술 커뮤니티

Reversing SynthID

SynthID와 같은 보이지 않는 워터마크 기술의 역설과 문제점(체인 무결성, 비공개성, 기밀 유지 등)에 대해 분석하고, 워터마크 탐지의 어려움을 설명합니다.

  • 보이지 않는 워터마크(예: SynthID)는 콘텐츠를 변경하므로 체크섬 무결성을 깨뜨릴 수 있습니다.
  • 워터마크 탐지 알고리즘이 공개되면 쉽게 제거, 변경 또는 위조될 수 있어 사기 및 사칭에 악용될 수 있습니다.
  • 비공개 워터마크 방법은 공급업체 종속적인 솔루션으로, 공급업체가 미디어 및 사용자를 추적할 수 있는 문제를 야기합니다.
  • 기밀 콘텐츠의 경우, 워터마크 탐지를 위해 외부 공급업체에 미디어를 제출해야 하는 점이 기밀 유지와 충돌합니다.
  • 하나의 파일에 여러 워터마크가 있을 수 있어, 하나의 워터마크를 발견해도 다른 워터마크의 존재 여부를 알 수 없는 워터마킹 역설이 존재합니다.
  • Google의 "white star" 로고와 "Edited with Google AI" 메타데이터, 히스토그램 기법을 통해 Gemini로 생성된 이미지에 SynthID 워터마크가 있음을 확인했습니다.
Notable Quotes & Details
  • Google's "white star" logo
  • "Edited with Google AI"

정보 보안 전문가, AI 윤리 연구자, 디지털 콘텐츠 워터마킹 기술 사용자

Notes: 원문이 중간에 잘려 내용이 불완전

The best SEO reporting software of 2026: Expert tested and reviewed

2026년 최고의 SEO 보고 소프트웨어에 대한 전문가 테스트 및 리뷰를 제공하며, SEO 전문가들이 여러 대시보드에서 데이터를 취합하는 어려움을 해결하는 자동화된 솔루션의 필요성을 강조합니다.

  • ZDNet은 SEO 보고 소프트웨어에 대한 광범위한 테스트, 연구, 비교 쇼핑을 통해 추천을 제공합니다.
  • 2026년에도 많은 SEO 전문가들이 여러 대시보드에서 데이터를 수동으로 취합하는 데 어려움을 겪고 있습니다.
  • SEO 보고 소프트웨어는 데이터 취합을 자동화하여 전문가들이 최적화 작업에 더 집중할 수 있도록 돕습니다.
  • ZDNET의 편집팀은 엄격한 가이드라인에 따라 광고주의 영향을 받지 않는 독립적인 리뷰를 제공합니다.
Notable Quotes & Details
  • 2026

SEO 전문가, 마케팅 관리자, 비즈니스 리더, SEO 도구 개발자

I paired headphones to my streaming stick for the first time - and fixed a big TV annoyance

Roku, Fire Stick, Apple TV 등 스트리밍 스틱에 블루투스 헤드폰을 페어링하는 방법을 설명하는 실용 가이드로, 심야 시청 시 소음을 줄이는 간단한 해결책을 제시합니다.

  • 대부분의 스트리밍 스틱(Roku, Amazon Fire, Google, Apple TV)은 블루투스를 통해 헤드폰을 직접 페어링할 수 있다.
  • 스트리밍 스틱에 직접 헤드폰을 연결하는 방식이 사운드바를 통한 연결보다 훨씬 안정적이다.
  • 설정 화면에서 'Remotes & Devices' 또는 'Remotes & Bluetooth devices' 메뉴로 이동해 헤드폰을 페어링할 수 있다.
  • 일부 구형·보급형 TV는 자체 블루투스 기능이 없을 수 있으므로 스트리밍 스틱을 이용하는 것이 대안이 된다.
  • 사운드바와 헤드폰을 동시에 사용하려면 광케이블이나 A/V 리시버 같은 별도 설정이 필요하다.
Notable Quotes & Details
  • Bose, Sonos 등은 사운드바 전용 독점 연결 방식을 제공하지만, 일반 블루투스 헤드폰도 스트리밍 스틱에 연결 가능하다.

스트리밍 기기 사용자, 심야 TV 시청자, 가정용 AV 기기 입문자

What Anthropic’s Mythos Means for the Future of Cybersecurity

Anthropic의 새로운 AI 모델 Claude Mythos Preview가 소프트웨어 취약점을 자율적으로 발견하고 악용할 수 있어 사이버 보안에 중대한 영향을 미치지만, Anthropic은 제한된 회사에만 모델을 공개하고 있다.

  • Anthropic의 Claude Mythos Preview는 전문가 없이도 소프트웨어 취약점을 찾아 악용 코드를 생성한다.
  • 이 모델은 운영체제 및 인터넷 인프라의 중요한 소프트웨어에서 인간 개발자들이 발견하지 못한 취약점을 찾아냈다.
  • Anthropic은 이 모델의 대중 공개를 제한하고 특정 기업에만 접근을 허용하고 있다.
  • AI가 사이버 보안 분야에서 취약점 발견 능력이 크게 향상되었음을 보여준다.
  • 전문가들 사이에서는 모델의 실제 능력과 Anthropic의 의도에 대한 논쟁이 있다.
Notable Quotes & Details

사이버 보안 전문가, AI 개발자, IT 관리자

Bitwarden CLI Compromised in Ongoing Checkmarx Supply Chain Campaign

Bitwarden CLI가 Checkmarx 공급망 캠페인의 일환으로 침해되었으며, 이는 GitHub Actions의 취약점을 악용한 것으로 보인다.

  • Bitwarden CLI 버전 `@bitwarden/cli@2026.4.0`이 Checkmarx 공급망 캠페인에 의해 침해되었다.
  • 공격자는 손상된 GitHub Action을 통해 악성 코드를 `bw1.js` 파일에 주입했다.
  • 이 악성 코드는 GitHub/npm 토큰, .ssh, .env, 쉘 기록 등 민감 정보를 탈취하여 유출한다.
  • 이번 공격은 NPM trusted publishing을 사용하는 패키지가 처음으로 침해된 사례로 추정된다.
  • TeamPCP라는 위협 행위자가 이번 공격의 배후로 지목되고 있으며, 이는 "Shai-Hulud: The Third Coming" 캠페인의 일환으로 보인다.
Notable Quotes & Details
  • @bitwarden/cli@2026.4.0
  • Shai-Hulud: The Third Coming

소프트웨어 개발자, DevOps 엔지니어, 사이버 보안 연구원, 오픈소스 사용자

[Webinar] Mythos Reality Check: Beating Automated Exploitation at AI Speed

AI 기반 공격의 증가로 인해 취약점 패치 주기가 무의미해지는 "Collapsing Exploit Window" 현상에 대응하기 위한 웹 세미나에 대한 홍보성 기사.

  • AI를 활용한 공격으로 인해 취약점 발견 및 악용 속도가 빨라져 기존 패치 방식으로는 대응하기 어렵다.
  • "Collapsing Exploit Window"는 새로운 위협이 발생하면 패치할 시간이 거의 없음을 의미한다.
  • 웹 세미나에서는 Mythos의 실제 의미와 AI 공격에 대한 방어 전략을 다룰 예정이다.
  • 가상 패치 등 실제적인 위험 우선순위 지정 방법을 제시한다.
  • CISOs, AppSec 리더 및 보안 설계자를 대상으로 한다.
Notable Quotes & Details

CISOs, AppSec 리더, 보안 설계자, IT 관리자

Notes: 홍보성 콘텐츠

Project Glasswing Proved AI Can Find the Bugs. Who's Going to Fix Them?

Anthropic의 Project Glasswing (Mythos Preview 기반)이 소프트웨어 취약점을 매우 효과적으로 발견했으나, 발견된 취약점의 극히 일부만이 패치되어 AI 시대의 보안 문제에 대한 구조적 결함을 드러냈다.

  • Anthropic의 Project Glasswing은 AI 모델을 통해 수십 년간 발견되지 않았던 소프트웨어 취약점을 찾아냈다.
  • Mythos Preview 모델은 주요 운영체제와 브라우저에서 다양한 복합 취약점을 성공적으로 악용했다.
  • 예를 들어, 브라우저 렌더러와 OS 샌드박싱을 우회하고, Linux에서 권한 상승을 수행했으며, FreeBSD에서 ROP 체인을 구축했다.
  • 이 모델은 Firefox JS 쉘에서 72.4%의 성공률을 보였지만, 발견된 취약점의 1% 미만만이 패치되었다.
  • 이는 AI 기반 취약점 발견 능력은 크게 발전했지만, 패치 속도가 이를 따라가지 못하는 구조적 문제를 야기한다.
Notable Quotes & Details
  • 27 years in OpenBSD
  • 72.4% success rate in the Firefox JS shell
  • fewer than 1% of the vulnerabilities found by Mythos were patched

사이버 보안 전문가, 소프트웨어 개발자, IT 리더, AI 연구자

알리바바, 15배나 큰 모델보다 코딩 앞선 '큐원3.6-27B' 출시

알리바바가 15배 큰 모델보다 코딩 에이전트 작업에서 우수한 성능을 보이는 매개변수 270억개의 경량 오픈소스 AI 모델 '큐원3.6-27B'를 출시했다.

  • 큐원3.6-27B는 큐원3.6 시리즈 최초의 완전 밀집 구조 모델로, 기존 MoE 방식이 아니다.
  • 자율형 코딩(agentic coding) 분야에서 특히 강력한 성능을 보이며, 15배 이상 큰 '큐원3.5-397B-A17B' 모델을 코딩 벤치마크에서 앞선다.
  • 'preserve_thinking' 기능을 도입해 이전 대화의 사고 흐름을 지속적으로 보존하여 토큰 사용량을 절감하고 장기 작업의 일관성을 높인다.
  • 선형 어텐션 기반 '게이티드 델타넷'과 셀프-어텐션을 결합한 하이브리드 아키텍처로 긴 문맥 처리 비용을 절감하며, 최대 100만 토큰 이상의 초장문 처리도 지원한다.
  • 텍스트, 이미지, 영상까지 처리 가능한 네이티브 멀티모달 AI로 설계되었으며, 효율성과 실용성을 핵심 목표로 한다.
Notable Quotes & Details
  • 270억개의 매개변수
  • '큐원웹벤치(QwenWebBench)'에서 1487점 기록
  • 'SWE-벤치 베리파이드'에서 77.2점 기록
  • 최대 26만 토큰 기본 컨텍스트, 확장 시 100만 토큰 이상 지원

AI 개발자, 소프트웨어 엔지니어, AI 연구자

샤오미, 최상위 모델 '미모-V2.5-프로' 공개...세계 5위까지 상승

샤오미가 에이전트형 AI에 최적화된 최상위 AI 모델 '미모-V2.5-프로'와 '미모-V2.5'를 공개하며 글로벌 AI 모델 경쟁에서 5위까지 순위를 끌어올렸다.

  • 미모-V2.5-프로는 웹 검색, 코드 실행, 파일 입출력, API 호출 등 다양한 도구를 활용해 복잡한 장기 작업을 자율적으로 수행하는 능력이 뛰어나다.
  • SWE-벤치 프로 57.2, 클로이밸 63.8, 타우3-벤치 72.9 등 벤치마크에서 클로드 오퍼스 4.6, GPT-5.4와 유사한 수준의 성능을 보여준다.
  • ‘하네스 인식(harness awareness)’ 기능을 통해 실행 환경을 스스로 최적화하고 메모리 및 맥락을 능동적으로 관리한다.
  • 유사 성능 모델 대비 40~60% 적은 토큰을 사용하며, 베이징대학교 컴파일러 과제를 4.3시간 만에 완료하고 데스크톱 영상 편집 앱을 자동 생성하는 등 실제 활용 사례에서 높은 효율성을 입증했다.
  • 함께 공개된 '미모-V2.5'는 멀티모달 이해 능력을 강화한 범용 모델로, 인식과 행동을 통합 설계하여 단일 모델로 실제 작업 수행이 가능하다.
Notable Quotes & Details
  • SWE-벤치 프로 57.2
  • 클로이밸(ClawEval) 63.8
  • 타우3-벤치 72.9
  • 제미나이 3.1 프로 등 경쟁 모델 대비 40~60% 적은 토큰 사용
  • 베이징대학교 컴파일러 과제 4.3시간, 672회 도구 호출 완료
  • 아티피셜 애널리시스 지능 지수 54점 (세계 5위)

AI 개발자, 소프트웨어 엔지니어, AI 연구자, 기업 임원

오픈AI, 챗GPT에 '워크스페이스 에이전트' 도입..."조직형 AI로 전환"

오픈AI가 챗GPT에 '워크스페이스 에이전트' 기능을 도입하여 개인 생산성 도구를 넘어 팀 단위 협업과 업무 자동화를 지원하는 '조직형 AI'로 전환을 발표했다.

  • 상시 구동 자율 에이전트 기능인 '에르메스(Hermes)'가 '워크스페이스 에이전트'라는 이름으로 공식 출시되었다.
  • GPT 기반 클라우드 환경에서 실행되며, 보고서 작성, 코드 생성, 메시지 응답 등 일상 업무 및 복잡한 워크플로우를 자동 처리한다.
  • 가장 큰 특징은 '공유'로, 팀 전체가 하나의 에이전트를 함께 만들고 활용, 개선할 수 있도록 설계되어 슬랙 등 협업 도구와 연동된다.
  • 사용자는 챗GPT에 업무를 설명하거나 파일을 업로드하면 AI가 에이전트 생성 단계를 자동으로 수행하며, 템플릿도 제공된다.
  • 보안 및 통제 기능이 강화되어 기업은 에이전트 접근 데이터, 도구, 작업 범위를 설정하고 민감한 작업에는 사용자 승인을 필수로 할 수 있다.
Notable Quotes & Details

기업 경영진, 팀 리더, 협업 도구 사용자, AI 서비스 도입 고려 기업

오픈AI, 미국 정보기관·파이브 아이즈에 ‘GPT-5.4-사이버’ ​​시연

오픈AI가 사이버 보안에 특화된 신규 AI 모델 ‘GPT-5.4-사이버’를 미국 정부 및 파이브 아이즈 회원국에 시연하며 국가 보안 협력을 확대하고 있다.

  • 악시오스 보도에 따르면 오픈AI는 미국 연방기관, 주정부, 파이브 아이즈(미국, 영국, 캐나다, 호주, 뉴질랜드) 회원국에 'GPT-5.4-사이버' 기능을 설명하는 브리핑을 진행했다.
  • GPT-5.4-사이버는 앤트로픽의 '미소스'를 겨냥한 모델로, 최신 플래그십 모델 기반 방어 중심 사이버 보안 작업에 특화되어 시스템 취약점 탐지, 위협 분석, 취약 코드 식별에 높은 성능을 발휘한다.
  • 강력한 기능의 오남용 가능성을 고려하여 현재는 '신뢰할 수 있는 액세스(Trusted Access)' 프로그램을 통해 검증된 기관에 제한적으로 제공되며, 강력한 안전장치를 갖춘 버전과 전문가용 확장 기능 버전을 투 트랙으로 운영한다.
  • 오픈AI는 정부 기관과의 협력을 통해 핵심 활용 사례를 발굴하고 위협 정보 공유 체계를 구축하며, 노후화된 시스템의 보안 취약점 관리에 AI의 역할이 커질 것으로 전망한다.
  • 오픈AI는 앤트로픽에 비해 사이버보안 모델 홍보에 적극적이며, 앤트로픽의 '미소스'는 접근이 제한적이다.
Notable Quotes & Details
  • 악시오스 22일(현지시간) 보도
  • 워싱턴 D.C.에서 50여명의 연방 정부 사이버 보안 실무자 대상 시연

정부 관계자, 사이버 보안 전문가, AI 정책 입안자, 국방 및 정보 기관 관계자

오픈AI, ‘임상의 전용 챗GPT’ 무료 공개..."의료진 부담 줄일 것"

오픈AI가 의료진의 업무 부담을 줄이기 위해 '임상의 전용 챗GPT' 서비스를 미국에서 무료로 출시하며 헬스케어 시장에 본격 진출했다.

  • 오픈AI, 미국 의료진을 위한 '임상의 전용 챗GPT' 출시 (문서 작성, 의학 연구 등 지원).
  • 미국 내 인증된 의사, 간호사, 진료보조사, 약사에게 무료 제공.
  • 기존 헬스케어용 챗GPT 기반으로 개인 의료진 접근성 확장, 최신 AI 모델 및 스킬 기능 제공.
  • HIPAA 규정 충족 옵션, 대화는 모델 학습에 사용되지 않아 보안 및 개인정보 보호 강화.
  • '헬스벤치 프로페셔널' 벤치마크 발표, AI 성능 및 안전성 평가, 의료진 테스트에서 99.6% 안전·정확 평가.
  • 서비스는 의료진을 '대체'가 아닌 '보조'하는 도구이며, 최종 판단은 의료 전문가 책임임을 강조.
Notable Quotes & Details
  • "미국 의사협회 2026년 조사, 의료 현장 AI 사용 의사 비율 72% (전년 48%에서 크게 증가)."
  • "의료진이 실제 업무 환경에서 테스트한 6924개 대화 중 99.6%가 안전하고 정확하다고 평가."
  • "최신 모델인 'GPT-5.4' 기반 시스템은 다양한 외부 평가에서도 최고 수준의 성능 기록."

의료 전문가, 헬스케어 산업 관계자, AI 기술 동향에 관심 있는 일반 독자.

AI에게 접시 가져다달라 했더니 냉장고부터 연 이유

AI 모델들이 보이지 않는 곳에 있는 물건을 찾는 데 어려움을 겪는다는 연구 결과와 함께, 시각 정보 대신 텍스트 설명을 제공했을 때 성능이 크게 향상되는 '노암(NOAM)' 파이프라인이 소개되었다.

  • 바르일란대-터프츠대 공동 연구진, AI의 '안 보이는 물건 찾기' 능력 평가.
  • 제미나이, 라마, GPT-4o 등 주요 AI 모델들이 무작위 선택보다 낮은 정답률을 기록하며 저조한 성능을 보임.
  • AI는 시각적으로 보이는 사물은 인식하나, 서랍 안 내용물처럼 보이지 않는 정보는 추론하지 못함.
  • '노암(NOAM)' 파이프라인 개발: 주방 사진을 텍스트로 설명한 뒤 AI에 제공, 시각 정보 없이 텍스트만으로 추론하게 함.
  • 노암 파이프라인은 23%의 정답률을 기록, GPT-4o(8%) 대비 약 3배 높은 성능을 보였으며, 사람과의 격차도 줄임.
  • 연구는 AI에게 정보를 이미지보다 텍스트로 제공할 때 더 효율적임을 시사.
Notable Quotes & Details
  • "제미나이 2.5 플래시(Gemini 2.5 Flash)와 라마 4(LLaMA-4)는 각각 100번 중 1번, 제미나이 1.5 플래시는 3번, 코스모스-2(Kosmos-2) 4번, 큐원-2.5(Qwen-2.5) 5번, GPT-4o는 8번만 맞혔다."
  • "무작위로 찍었을 때도 6번은 맞는 시험이었다는 점이다."
  • "노암은 평가 데이터셋에서 23%를 맞혔다."
  • "같은 시험에 도전한 세 명의 사람은 각각 27%, 36%, 38%를 받았다."

AI 연구자, 로봇 공학자, AI 개발자, AI 기술의 한계와 발전 방향에 관심 있는 독자.

[카드뉴스] AI가 먹는 전기, 우리는 버틸 수 있을까

AI 기술의 급격한 발전에 따라 데이터센터의 전력 소비량이 폭증하고 있으며, 기술 발전만으로는 해결하기 어려운 전력 인프라의 문제가 심화되고 있어 관련 기업에 대한 관심이 필요하다는 내용이다.

  • AI 서비스 사용 증가로 데이터센터 전력 소비 급증 (ChatGPT 질문 1회 = 구글 검색 10회).
  • 2030년 전 세계 데이터센터 전력 소비량 945TWh 예측, 한국 연간 전체 전력 소비량 초과.
  • 미국 AI 전력 소비 2년 만에 10배 증가 예상, 기술 발전 속도가 전력 인프라 구축 속도를 앞지름.
  • 기업들이 전력 절약보다 AI 수익 창출에 집중하는 구조적 문제.
  • 액체 냉각, 에너지 저장 장치, 송전망 등 전력 인프라 기업에 대한 주목 필요성 강조.
Notable Quotes & Details
  • "ChatGPT로 질문 한 번 하면 구글 검색 10번 분량의 전기를 소비한다고 해요."
  • "2030년이 되면 전 세계 데이터센터가 945TWh나 되는 전기를 쓸 것으로 예측되는데, 이건 한국 전체가 1년 동안 쓰는 전기보다 훨씬 많은 양이에요."
  • "미국에서는 AI가 쓰는 전기가 2년 만에 10배나 늘어날 예정."
  • "송전망을 깔려면 최소 5년이 걸리는데, AI는 6개월마다 새로운 모델이 나옴."

AI 산업 관계자, 투자자, 에너지 산업 관계자, AI와 에너지 문제에 관심 있는 일반 독자.

[단독] 스탠퍼드가 처음 선정한 '주목할 AI' 5개..."LG·네이버만 있었다"

스탠퍼드대 인간중심인공지능연구소(HAI)가 선정한 '주목할 만한 AI' 한국 모델 목록에 대한 혼선이 있었으며, 초기 발표와 달리 LG AI연구원과 네이버클라우드의 모델이 포함되었고 업스테이지 솔라는 이후 추가된 것으로 확인되었다.

  • 스탠퍼드 HAI가 선정한 '주목할 AI' 한국 모델 선정 과정에서 초기 5개에서 8개로 정정되는 과정에서 혼선 발생.
  • 초기 5개 모델에는 LG AI연구원의 4종과 네이버클라우드의 '하이퍼클로바 X 시드 32B 싱크'가 포함됨.
  • 업스테이지 솔라는 초기 명단에 없었으며, 이후 데이터 반영 과정에서 추가된 모델로 확인.
  • HAI는 데이터베이스 보완 및 최신 상태 반영을 위해 수정이 이뤄졌다고 설명.
  • 업계에서는 공개 숫자와 실제 명단 간의 시차, 기업인들의 메시지로 인한 시장 혼선을 지적.
  • HAI의 데이터 반영 방식이 단순 집계가 아닌 내부 검증 절차를 포함할 가능성 제기.
Notable Quotes & Details
  • "HAI는 올해 2월 기준 한국 모델을 5개로 집계했다가 최근 8개로 정정."
  • "LG AI연구원의 'K-엑사원', '엑사원 4.0(32B)', '엑사원 패스 2.0', '엑사원 딥(32B)' 등 4종."
  • "나머지 1개 모델은 네이버클라우드의 '하이퍼클로바 X 시드 32B 싱크'."

AI 산업 관계자, 언론인, AI 연구기관, AI 모델 동향에 관심 있는 독자.

비아이매트릭스, 폐쇄형 AI '트리니티'로 기업AI 보안 해법 제시

비아이매트릭스가 LLM을 기업 내부 망에 직접 이식하는 온프레미스 AI 솔루션 '트리니티(TRINITY)'를 통해 퍼블릭 클라우드 기반 AI의 데이터 유출 리스크를 원천 차단하는 기업 AI 보안 해법을 제시합니다.

  • 트리니티는 LLM을 고객사 내부 망에 직접 이식하는 폐쇄형(온프레미스) 방식으로, 외부 인터넷망과의 데이터 송수신을 철저히 차단한다.
  • 직원 개인·부서·직급에 따른 '맞춤형 접근 제어(Access Control)' 시스템으로 사내 무단 데이터 접근을 방지한다.
  • 20여 년간 축적된 비즈니스 인텔리전스(BI) 역량과 온톨로지 기술을 결합해 자연어 질문으로 60초 이내에 시각화 차트를 제공한다.
  • 금융권, 공공기관, 대형 제조 기업 등 보안 최우선 업종에서 도입이 활발하다.
  • 퍼블릭 클라우드 기반 AI는 데이터 처리 과정에서 클라우드 서버를 경유해 해킹·정보 유출 위험이 존재한다.
Notable Quotes & Details
  • "AI 기술의 도입이 기업의 생존 필수 요소가 되었지만, 그만큼 데이터 보안에 대한 경각심도 최고조에 달한 상황" — 비아이매트릭스
  • "온프레미스 기반 AI 기술을 보유한 기업들의 시장 가치가 앞으로 더욱 급등할 것" — 비아이매트릭스

기업 IT 보안 담당자, CIO/CSO, 금융·공공·제조 분야 AI 도입 검토 기업, 온프레미스 AI 솔루션 관심 독자

Jooojub
System S/W engineer
Explore Tags
Series
    Recent Post
    © 2026. jooojub. All right reserved.