Daily Briefing

May 6, 2026
2026-05-05
63 articles

OpenAI claims ChatGPT’s new default model hallucinates way less

OpenAI의 새로운 ChatGPT 기본 모델인 GPT-5.5 Instant가 환각(hallucination) 현상을 크게 줄이고 사실성을 향상시켰으며, 개인화된 응답 기능을 강화했다.

  • GPT-5.5 Instant는 이전 모델인 GPT-5.3 대비 환각 주장을 52.5% 감소시켰고, 부정확한 주장은 37.3% 줄였다.
  • 이미지 업로드 분석 및 웹 검색 활용 등 일상적인 작업 처리 능력이 향상되었다.
  • 응답이 더 간결하고 불필요한 이모티콘 사용을 줄였다.
  • 이전 채팅 및 Gmail 등에서 컨텍스트를 가져와 개인화된 응답을 제공하는 기능이 개선되었다.
  • 새로운 "메모리 소스" 기능으로 개인화된 응답에 사용된 컨텍스트를 확인하고 수정할 수 있다.
Notable Quotes & Details
  • 52.5% fewer hallucinated claims
  • 37.3% inaccurate claims
  • 3개월

일반 ChatGPT 사용자, AI 모델 개발자

Closing the ‘Expressivity Gap’: How Mistral’s Voxtral TTS is Redefining Multilingual Voice Cloning with a Hybrid Autoregressive and Flow-Matching Architecture

Mistral AI가 'Expressivity Gap'을 해소하기 위해 오토리그레시브 및 플로우 매칭 아키텍처를 결합한 새로운 다국어 음성 클로닝 TTS 모델인 Voxtral TTS를 출시했다.

  • Voxtral TTS는 음성 AI의 'Expressivity Gap' (음성 합성의 표현력과 화자 충실도 부족) 문제를 해결하고자 한다.
  • 오토리그레시브 생성과 플로우 매칭이라는 두 가지 모델링 패러다임을 결합한 하이브리드 아키텍처를 사용한다.
  • 총 약 40억 개의 파라미터를 가지며, 3초의 참조 오디오만으로 9개 언어에서 자연스럽고 화자에게 충실한 음성을 생성한다.
  • ElevenLabs Flash v2.5 대비 다국어 음성 클로닝 평가에서 68.4%의 승률을 기록했다.
  • 단일 NVIDIA H200에서 600ms 미만의 지연 시간으로 30명 이상의 동시 사용자를 처리할 수 있다.
Notable Quotes & Details
  • 4B parameters
  • 3.4B decoder backbone
  • 390M flow-matching acoustic transformer
  • 300M neural audio codec
  • 9 languages
  • 3 seconds
  • 68.4% win rate
  • ElevenLabs Flash v2.5
  • 30 concurrent users
  • NVIDIA H200
  • sub-600ms latency

음성 AI 개발자, AI 연구자, 오디오북 파이프라인/다국어 고객 지원 시스템 구축자

Build a Modular Skill-Based Agent System for LLMs with Dynamic Tool Routing in Python

LLM을 위한 모듈식 스킬 기반 에이전트 시스템 구축 방법을 소개하며, 동적 도구 라우팅을 통해 모듈형 기능을 구현하는 튜토리얼을 제공한다.

  • LLM 에이전트를 위한 모듈형 스킬 기반 시스템의 설계 및 구현 방법을 다룬다.
  • 재사용 가능한 스킬을 정의하고 메타데이터 및 스키마를 첨부한다.
  • 중앙 레지스트리에 스킬을 등록하고 도구 호출 및 다단계 추론을 통해 동적 오케스트레이션을 가능하게 한다.
  • 에이전트가 작업에 적합한 스킬을 선택하고, 여러 스킬을 조합하여 고급 워크플로우를 구성하며, 런타임에 새로운 기능을 핫 로딩하는 방법을 보여준다.
  • 관측성 대시보드를 통해 모든 활동을 추적할 수 있다.
Notable Quotes & Details

LLM 개발자, AI 에이전트 시스템 설계자, Python 개발자

Notes: 튜토리얼 형식의 기술 문서

Why Gradient Descent Zigzags and How Momentum Fixes It

경사 하강법(Gradient Descent)의 비효율성 문제를 설명하고, 모멘텀(Momentum)이 과거 기울기 정보를 활용하여 최적화 과정을 어떻게 개선하는지 분석한다.

  • 경사 하강법은 손실 곡면의 기울기가 불균일할 때 비효율적이며, 학습률 설정에 따라 과도한 발산 또는 느린 수렴 문제가 발생한다.
  • 모멘텀은 과거 기울기의 이동 평균(velocity)을 유지하여 일관된 기울기 방향으로는 빠르게 이동하고, 진동하는 기울기는 상쇄하여 불안정성을 줄인다.
  • 이를 통해 평평한 영역에서는 빠르게, 가파른 영역에서는 안정적으로 이동할 수 있다.
  • 제어된 이방성 곡면 시뮬레이션에서 바닐라 경사 하강법은 185단계, 모멘텀은 159단계 만에 수렴하는 결과를 보였다.
  • 곡면의 조건 수(condition number)가 100인 경우, 특정 방향으로의 곡률이 100배 더 가파르다는 것을 의미하며, 이는 경사 하강법이 지그재그 경로를 보이는 원인이 된다.
Notable Quotes & Details
  • 185 steps for vanilla GD
  • 159 for Momentum
  • β=0.99
  • condition number of 100

AI 연구자, 머신러닝 엔지니어, 딥러닝 최적화에 관심 있는 개발자

Baptists and Bootleggers: The Hidden Coalition Behind ‘Data-Driven’ Decisions

Topics AI Career Advice Computer Vision Data Engineering Data Science Language Models Machine Learning MLOps NLP Programming Python SQL Resources Cheat Sheets Recommendations Tech Briefs One is genuine curiosity.

  • The bootleggers worked behind the scenes, quietly benefiting from the result.
  • Yandle's insight was that these unlikely coalitions tend to produce more successful regulatory outcomes than either group could achieve alone.
Notable Quotes & Details

AI 연구자, 개발자, 학계

5 Fun Projects Using Claude Code

Topics AI Career Advice Computer Vision Data Engineering Data Science Language Models Machine Learning MLOps NLP Programming Python SQL Resources Cheat Sheets Recommendations Tech Briefs Turn Claude Code into your AI coding partner with these 5 hands-on projects, from beginner-friendly builds to advanced agent workflows.

  • It is a good beginner project because it teaches the basic Claude Code workflow: explain what you want, let Claude generate the project, review the files, test the app, and ask for improvements.
  • The tutorial focuses on building a retro 2D space shooter, which gives you a clear project with movement, visuals, game rules, and player interaction.
Notable Quotes & Details

AI 연구자, 개발자, 학계

TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data

We present TADI (Tool-Augmented Drilling Intelligence), an agentic AI system that transforms drilling operational data into evidence-based analytical intelligence.

  • We present TADI (Tool-Augmented Drilling Intelligence), an agentic AI system that transforms drilling operational data into evidence-based analytical intelligence.
  • The system parses all 1,759 DDR XML files with zero errors, handles three incompatible well naming conventions, and is backed by 95 automated tests plus a 130-question stress-question taxonomy spanning six operational categories.
  • The complete 6,084-line, framework-free implementation is reproducible given the public Volve download and an API key, and the case studies and qualitative ablation analysis suggest that domain-specialized tool design, rather than model scale alone, is the primary driver of analytical quality in technical operations.
Notable Quotes & Details
  • v1
  • ppo

AI 연구자, 개발자, 학계

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

LLM 탈옥(jailbreak) 성공에 대한 지역적, 인과적 설명을 제공하는 LOCA 방법을 제안한다.

  • LLM이 탈옥 프롬프트에 취약한 이유에 대한 이해 부족.
  • 기존 연구는 전역적 설명에 초점.
  • LOCA는 탈옥 성공에 대한 최소한의 해석 가능한 중간 표현 변화를 식별하여 지역적 설명을 제공.
  • Gemma 및 Llama 채팅 모델에서 LOCA 평가 결과, 평균 6가지 해석 가능한 변화로 거부 유도 성공.
Notable Quotes & Details
  • 평균 6가지 해석 가능한 변화
  • 20가지 변화에도 거부 실패

AI 연구자, LLM 보안 연구자

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

LLM 에이전트에서 도구 사용이 항상 추론 및 신뢰성을 향상시키지 않으며, '도구 사용세'로 인한 성능 저하를 밝힌다.

  • 도구 증강 추론이 항상 기본 CoT(사고의 사슬)를 능가하지 않음을 입증.
  • '도구 사용세'는 도구 호출 프로토콜 자체로 인한 성능 저하.
  • G-STEP이라는 경량 추론 시간 게이트를 도입하여 프로토콜 유발 오류 완화.
  • LLM의 내재적 추론 및 도구 상호작용 기능 강화가 필요.
Notable Quotes & Details

AI 연구자, LLM 개발자, LLM 에이전트 연구자

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

인간 선호도에 LLM을 정렬하기 위한 새로운 DPO 변형인 TUR-DPO를 제안하며, 이는 답변 도출 방식을 보상하고 불확실성을 통합한다.

  • DPO가 선호도를 단순한 승자/패자 신호로 취급하며 시끄러운 선호도에 민감하다는 문제점 지적.
  • TUR-DPO는 경량 추론 토폴로지를 유도하고 의미론적 충실도, 유용성, 토폴로지 품질을 결합하여 불확실성 신호 생성.
  • 수학적 추론, 사실 질문 답변, 요약 및 유용/무해 대화 벤치마크에서 DPO 대비 TUR-DPO의 향상된 성능 입증.
  • 멀티모달 및 긴 컨텍스트 설정에서도 일관된 개선 확인.
Notable Quotes & Details
  • 7-8B 모델

AI 연구자, LLM 개발자, RLHF 연구자

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

군사 작전에 필요한 법적, 윤리적 규칙을 따르는 LLM 안전성을 평가하기 위한 군사 정렬 벤치마크 ARMOR 2025를 소개한다.

  • 기존 안전 벤치마크는 일반적인 사회적 위험에 초점.
  • ARMOR 2025는 전쟁법, 교전 규칙, 합동 윤리 규정과 같은 군사 교리 기반.
  • OODA 의사 결정 프레임워크를 기반으로 한 12개 범주 분류 체계.
  • 519개의 교리 기반 프롬프트와 21개 상용 LLM에 대한 엄격한 평가 절차.
Notable Quotes & Details
  • ARMOR 2025
  • 12개 범주 분류 체계
  • 519개 교리 기반 프롬프트
  • 21개 상용 LLM

AI 연구자, LLM 개발자, 국방 분야 연구자

Agentopic: A Generative AI Agent Workflow for Explainable Topic Modeling

Agentopic is a novel agent-based workflow for explainable topic modeling that leverages the reasoning capabilities of Large Language Models (LLMs). Existing topic modeling approaches such as Latent Dirichlet Allocation (LDA) and BERTopic often lack transparency on how topics are assigned or grouped.

  • Agentopic addresses this by using multiple agents that collaboratively perform topic identification, validation, hierarchical grouping, and natural language explanation.
  • When seeded with topics from the British Broadcasting Corporation (BBC) dataset, Agentopic achieves an F1-score of 0.95, matching GPT-4.1, improving on LDA (0.93), and close to BERTopic (0.98).
  • We used Agentopic to augment the BBC dataset with generated explanations to improve the dataset's richness and context.
Notable Quotes & Details
  • BERTopic
  • v1
  • F1-score of 0.95
  • GPT-4.1
  • LDA

AI 연구자, 개발자, 학계

Polynomial-Time Optimal Group Selection via the Double-Commutator Eigenvalue Problem

The algebraic diversity framework replaces temporal averaging over multiple observations with algebraic group action on a single observation for second-order statistical estimation.

  • The algebraic diversity framework replaces temporal averaging over multiple observations with algebraic group action on a single observation for second-order statistical estimation.
  • The central open problem in this framework is $\textit{group selection}$: given an $M$-dimensional observation with unknown covariance structure, find the finite group whose spectral decomposition best matches the covariance.
  • We prove that this combinatorial problem reduces to a generalized eigenvalue problem derived from the double commutator of the covariance matrix, yielding a polynomial-time algorithm with complexity $O(d^2M^2 + d^3)$, where $d$ is the dimension of a generator basis.
Notable Quotes & Details
  • v1

AI 연구자, 개발자, 학계

Sparse Regression under Correlation and Weak Signals: A Reproducible Benchmark of Classical and Bayesian Methods

Choosing between classical and Bayesian sparse regression methods involves a real trade-off: penalized estimators like Lasso run in milliseconds but give no uncertainty estimates,while Horseshoe and Spike-and-Slab priors produce full posteriors but need MCMC chains that take minutes per fit.Surprisingly few studies compare these two families head-to-head under the conditions that actually make sparse regression hard -- correlated features, weak signals, and growing dimensionality.

  • Choosing between classical and Bayesian sparse regression methods involves a real trade-off: penalized estimators like Lasso run in milliseconds but give no uncertainty estimates,while Horseshoe and Spike-and-Slab priors produce full posteriors but need MCMC chains that take minutes per fit.Surprisingly few studies compare these two families head-to-head under the conditions that actually make sparse regression hard -- correlated features, weak signals, and growing dimensionality.
  • We benchmark six methods (OLS, Ridge,Lasso, Elastic Net, Horseshoe, Spike-and-Slab) on synthetic data with three covariance structures (rho up to 0.9), four SNR levels, and p in {20, 50, 100}, plus the Diabetes dataset,totalling over 2,600 experiments.
  • The results are clear on some points and nuanced on others.
  • Bayesian methods win on prediction error (MSE 72 vs.
Notable Quotes & Details
  • v1
  • 91.9%
  • 95%
  • 94.8%

AI 연구자, 개발자, 학계

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Sampling from Flow Matching generative models requires solving an ordinary differential equation (ODE) whose computational cost is dominated by neural network forward passes.

  • We derive four classical ODE solvers -- Euler, Explicit Midpoint, Classical Runge-Kutta (RK4), and Dormand-Prince 5(4) -- from first principles via Taylor expansion, implement them from scratch in PyTorch, and systematically benchmark their efficiency on Conditional Flow Matching tasks ranging from 2D toy distributions to MNIST digits.
  • On the quantitative side, we use sliced Wasserstein distance to construct NFE-quality Pareto frontiers,finding that RK4 at 80 function evaluations achieves sample quality comparable to Euler at 200.
Notable Quotes & Details
  • v1
  • dpo

AI 연구자, 개발자, 학계

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Entropic regularized optimal transport (OT) via the Sinkhorn algorithm has become a fundamental tool in machine learning, yet existing implementations either suffer from numerical instability for small regularization parameters or incur significant overhead from deep learning frameworks.

  • Entropic regularized optimal transport (OT) via the Sinkhorn algorithm has become a fundamental tool in machine learning, yet existing implementations either suffer from numerical instability for small regularization parameters or incur significant overhead from deep learning frameworks.
  • We present FastSinkhorn, a lightweight, native CUDA implementation of the log-domain Sinkhorn algorithm that combines warp-level shuffle reductions with shared-memory tiling to achieve high GPU utilization without sacrificing numerical stability.
  • Our solver operates entirely in the log-domain, enabling robust computation for regularization parameters as small as epsilon = 10^{-4} where standard-domain methods fail.
  • On dense OT problems with n = m = 8192, our implementation achieves 12x speedup over the widely-used POT library and 5.9x speedup over GPU-accelerated PyTorch baselines, while consuming only 256 MB of GPU memory.
Notable Quotes & Details
  • v1

AI 연구자, 개발자, 학계

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Representing and navigating hierarchy is a fundamental primitive of reasoning. Large language models have demonstrated proficiency in a wide variety of tasks requiring hierarchical reasoning, but there exists limited analysis on how the models geometrically represent the necessary latent constructions for such thinking.

  • Large language models have demonstrated proficiency in a wide variety of tasks requiring hierarchical reasoning, but there exists limited analysis on how the models geometrically represent the necessary latent constructions for such thinking.
  • These results demonstrate that models represent hierarchy not only at the level of syntax and concepts, but at deeper levels of abstraction -- including the reasoning process itself.
Notable Quotes & Details
  • v1

AI 연구자, 개발자, 학계

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

Diagram question answering (Diagram QA) requires reasoning-level attribution that links each question-answer pair to all visual regions needed to derive the answer, rather than only the region containing the final response.

  • We present DIAGRAMS, a lightweight, schema-driven review framework that decouples interface logic from dataset-specific JSON structures through an internal meta-schema and dataset adapters.
  • Given an image and QA pair with optional candidate regions, the system performs QA-conditioned evidence selection and proposes the regions required for reasoning.
  • Across six Diagram QA datasets, model-suggested evidence achieves 85.39% precision and 75.30% recall against reviewer-final selections (micro-averaged).
  • These results indicate that the review-first framework reduces manual region creation while maintaining high agreement with final reasoning-level attributions.
  • We release a public demo and installable package to support dataset auditing, grounded supervision creation, and grounded evaluation.
Notable Quotes & Details
  • 75.30%
  • ppo
  • 85.39%
  • v1

AI 연구자, 개발자, 학계

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Finetuning can significantly modify the behavior of large language models, including introducing harmful or unsafe behaviors. To study these risks, researchers develop model organisms: models finetuned to exhibit specific known behaviors for controlled experimentation.

  • We show that a simple perplexity-based method can surface finetuning objectives from model organisms by leveraging their tendency to overgeneralize their finetuned behaviors beyond the intended context.
  • For the vast majority of model organisms tested, the method surfaces completions revealing finetuning objectives within the top-ranked results, with models trained via synthetic document finetuning or to produce exact phrases being particularly susceptible.
  • As the method requires only next-token probabilities from the finetuned model, it is compatible with API-gated models that expose token logprobs.
Notable Quotes & Details
  • v1

AI 연구자, 개발자, 학계

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

LLM 기반 뉴스 디바이싱이 보수 독자의 뉴스 신뢰도와 참여 의지를 향상시키지만, LLM은 자체 효과를 과대평가한다는 연구 결과.

  • LLM을 활용한 뉴스 헤드라인 디바이싱 연구를 두 가지 실험을 통해 진행.
  • 미묘한 어휘 디바이싱(Study 1)은 효과가 없었음.
  • 보다 실질적인 리프레이밍 개입(Study 2)은 보수 독자의 신뢰도, 완전성 인식, 참여 의지를 유의미하게 증가시켰으며, 리버럴 독자에게 역효과를 내지 않음.
  • LLM 시뮬레이션 참가자에게는 효과가 크게 나타났으나, 실제 인간 독자와는 차이가 있었고, LLM이 자신의 개입 효과를 과대평가하는 경향을 보임.
  • LLM 기반 디바이싱은 표면적 언어가 아닌 이념적 프레이밍을 목표로 할 때 효과적이지만, 현재 모델은 인간 감독 없이 개입을 평가할 정량적 정확도와 심리적 충실도가 부족함.
Notable Quotes & Details
  • arXiv:2605.01006v1
  • Study 1
  • Study 2

AI 연구자, 언론학 연구자, LLM 개발자

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

의료 분야 LLM의 신뢰성 저하 원인을 노이즈와 모호성 측면에서 분석하는 CLEAR 프레임워크를 제안하는 연구.

  • 의료 LLM 평가가 실제 세계의 모호성을 반영하지 못하는 단순화된 벤치마크에 의존하고 있음을 지적.
  • CLEAR 프레임워크는 의사결정 공간 제시, 모호성, 불확실성이 LLM의 의료 벤치마크 추론에 미치는 영향을 평가.
  • plausible 답변 옵션 수 증가, 정답 또는 기권 옵션 존재 여부, 답변 옵션의 의미론적 프레이밍을 체계적으로 교란.
  • LLM은 plausible 답변 수가 늘어나면 정답 식별 및 오답 기권 능력이 저하되며, 'I don't know'와 같은 불확실성 인정 표현이 포함되면 오답 선택이 증가함.
  • 'humility deficit' 개념을 통해 정답 식별 능력과 오답 기권 능력 간의 격차를 공식화했으며, 이는 모델 규모가 커질수록 악화됨.
  • 현재의 표준 의료 벤치마크의 한계를 드러내며, 모델 규모 확장만으로는 LLM 신뢰성 문제가 해결되지 않음을 강조.
Notable Quotes & Details
  • arXiv:2605.01011v1
  • 17 LLMs

AI 연구자, 의료 AI 개발자, LLM 평가자

고용은 인지 저하를 늦추는가? 노동시장 충격의 증거

고용이 인지 저하를 늦추는지 HRS 데이터와 지역 노동시장 충격을 이용해 인과 관계를 분석한 연구.

  • 기대수명 증가로 인지 저하 및 치매 관련 장애의 비중이 커지는 가운데, 고용이 인지 점수에 미치는 인과적 영향을 분석.
  • Bartik 도구변수를 사용한 분석 결과, 부정적인 노동 수요 충격은 시간이 지나며 인지 점수의 상당한 하락으로 이어짐.
  • 특히 51-64세 남성에게 결과가 집중되었으며, 이는 이 연령대의 고용 결정 및 결과가 지역 노동시장 조건에 더 민감함을 시사.
  • 더 높은 연령까지 일하는 것이 연령 관련 인지 저하를 늦출 수 있다는 견해를 뒷받침함.
  • 일 자체가 아닌, 은퇴 후 사람들이 스스로 시간을 채울 거리가 부족한 것이 문제일 수 있다는 의견도 제시됨.
Notable Quotes & Details
  • NBER Working Paper 35117
  • HRS 데이터
  • Bartik 도구변수
  • 51~64세 남성
  • 2026년 4월

경제학자, 정책 입안자, 고령화 연구자, 일반 독자

Agent Skills

AI 코딩 에이전트가 시니어 엔지니어링 절차를 건너뛰지 않도록 워크플로를 강제하는 스캐폴딩인 'Agent Skills'에 대한 설명.

  • Agent Skills는 AI 코딩 에이전트가 명세 작성, 테스트 선행, 신뢰 경계 검토 등 시니어 엔지니어링 절차를 건너뛰는 경향을 제어하기 위한 워크플로 강제 도구.
  • 스킬은 frontmatter가 있는 Markdown 파일로, 참조 문서보다는 단계 순서, 체크포인트 증거, 종료 기준을 가진 워크플로에 가까움.
  • Define, Plan, Build, Verify, Review, Ship의 6개 생명주기 단계와 7개 슬래시 커맨드(`spec`, `plan`, `build`, `test`, `review`, `ship`, `code-simplify`)로 구성.
  • 핵심 원칙은 산문보다 프로세스, 반합리화 표, 검증을 종료 기준으로 삼기, 점진적 공개, 범위 규율.
  • AI 에이전트가 '작업 완료'에만 보상이 맞춰져 있어 시니어 엔지니어링 절차를 건너뛰는 문제를 해결하고자 함.
  • 실패하는 테스트를 먼저 작성하고 통과시키는 워크플로를 따르게 함으로써, 에이전트가 실질적인 작업을 수행하고 사람이 검증할 수 있도록 함.
Notable Quotes & Details
  • 26K stars
  • 6개 생명주기 단계
  • 7개 slash command

AI 개발자, 소프트웨어 엔지니어, AI 에이전트 연구자

Production AI very different from the demos [D]

Moved an AI feature into production a few months ago and the cost profile has been a constant surprise since so the demos and the early prototypes ran cheap because the volume was tiny + the prompts were short but when it hit traffic the token usage scaled a lot.

  • 주요 내용 요약 필요
Notable Quotes & Details

AI 연구자, 개발자, 학계

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

AI/컴퓨터 비전 분야의 박사 과정 학생이 논문 결과를 재현하는 데 어려움을 겪고 있으며, 보고된 정확도(77%)보다 낮은 73%에 머물러 개선 작업에 진척이 없다는 내용입니다.

  • 박사 과정 학생이 AI/컴퓨터 비전 프로젝트에서 논문 결과 재현에 난항을 겪고 있습니다.
  • 논문에서 보고된 정확도 77%에 비해 학생은 73%의 정확도를 얻고 있습니다.
  • 구현 세부 사항, 전처리, 하이퍼파라미터, 랜덤 시드, 평가 프로토콜 등을 확인했지만 차이가 발생합니다.
  • 논문 저자에게 연락했지만 응답이 없어 난감한 상황입니다.
  • 재현성 격차 문제와 미흡한 세부 정보, 저자의 무응답 상황에서의 대처 방안에 대한 조언을 구합니다.
Notable Quotes & Details
  • 77% accuracy
  • 73%

AI 연구자, 컴퓨터 비전 연구자, 박사 과정 학생

TritonSigmoid: A fast, padding-aware sigmoid attention kernel for GPUs [R]

TritonSigmoid라는 GPU용 빠르고 패딩을 인지하는 시그모이드 어텐션 커널을 오픈 소스화하여, 단일 세포 파운데이션 모델에서 소프트맥스보다 우수한 성능과 안정성을 제공함을 발표합니다.

  • TritonSigmoid는 GPU를 위한 빠르고 패딩을 인지하는 시그모이드 어텐션 커널입니다.
  • 단일 세포 파운데이션 모델을 위해 개발되었으며, 소프트맥스와 달리 여러 유전자(토큰)에 동시에 강하게 어텐션할 수 있습니다.
  • 실험 결과 H100에서 최대 515 TFLOPS (FlashAttention-2 361, FlashSigmoid 440 대비)의 성능을 보였습니다.
  • 6개 데이터셋에서 소프트맥스 어텐션보다 낮은 검증 손실과 25% 더 나은 세포 유형 분리 정확도를 달성했습니다.
  • 소프트맥스 어텐션이 발산하는 경우에도 안정적인 학습을 제공합니다.
Notable Quotes & Details
  • 515 TFLOPS
  • H100
  • FlashAttention-2 at 361
  • FlashSigmoid at 440
  • 25% better cell-type separation

AI 연구자, 머신러닝 엔지니어, GPU 개발자, 생물 정보학 연구자

NeurIPS openreview - can I upload paper pdf after abstract deadline or should I upload something first to be able to update it later? [D]

NeurIPS 논문 제출 절차와 관련하여, 초록 마감일 이후에 논문 PDF를 업로드할 수 있는지 또는 미리 무언가를 제출해야 하는지에 대한 질문입니다.

  • NeurIPS 첫 제출자가 openreview 절차에 대해 문의합니다.
  • 초록 마감일 이후에도 논문 PDF를 업로드할 수 있는지 궁금해합니다.
  • 코드 URL 제출도 같은 방식으로 처리되는지 질문합니다.
  • 논문 마감일 이후 코드 푸시를 막는 NeurIPS의 방지책에 대해 질문합니다.
Notable Quotes & Details

AI 연구자, NeurIPS 논문 제출 예정자

Anthropic just published new alignment research that could fix "alignment faking" in AI agents here's what it actually means

Anthropic이 'Model Spec Midtraining (MSM)'이라는 새로운 정렬 연구를 발표했으며, 이는 AI 에이전트의 "정렬 가장(alignment faking)" 문제를 해결하고 모델이 원칙에 따라 일반화하도록 돕는 방법입니다.

  • Anthropic의 정렬 팀이 'Model Spec Midtraining (MSM)'이라는 논문을 발표했습니다.
  • MSM은 현재 정렬 미세 조정이 일반화에 실패하여 발생하는 "정렬 가장" 문제를 해결하는 것을 목표로 합니다.
  • 미세 조정 전에 모델이 자신의 Model Spec을 논의하는 합성 문서를 읽는 새로운 훈련 단계를 추가합니다.
  • 이 방법을 통해 모델이 예시 패턴 매칭이 아닌 원칙으로부터 일반화하도록 가르칩니다.
  • 동일한 미세 조정 데이터로 훈련된 두 모델이 MSM에 사용된 Model Spec에 따라 다른 값으로 일반화될 수 있음을 보여주었습니다.
  • 이는 모델이 가치 뒤에 있는 추론을 내면화하도록 보장함으로써 정렬 가장 문제를 해결하려는 시도입니다.
Notable Quotes & Details
  • Model Spec Midtraining (MSM)
  • Greenblatt et al., 2024

AI 연구자, 머신러닝 연구자, AI 윤리 및 안전 연구자

Notes: 내용이 중간에 잘려 완전하지 않음.

OpenAI will produce as many as 30 million 'AI agent' phones early next year, says industry analyst

업계 분석가에 따르면 OpenAI는 내년 초까지 최대 3천만 대의 'AI 에이전트' 폰을 생산할 것이라고 한다.

  • OpenAI가 내년 초 3천만 대의 AI 에이전트 폰을 생산할 계획이다.
  • AI 에이전트 폰은 새로운 스마트폰 카테고리를 형성할 것으로 예상된다.
Notable Quotes & Details
  • 30 million
  • early next year

일반 독자, 기술 산업 분석가

Made a tool that builds its own training data and improves each cycle by learning from what it got wrong

실패 사례를 통해 스스로 학습하고 개선하는 훈련 데이터 생성 도구가 개발되었다.

  • 시드 프롬프트로 시작하여 LLM이 지시-응답 쌍을 생성하고 평가한다.
  • 잘못된 응답은 다음 라운드의 시드가 되어 모델이 실패를 통해 학습한다.
  • Ollama를 사용하여 로컬에서 평가를 실행할 수 있으며, Unsloth와 Colab GPU로 비용 없이 미세 조정이 가능하다.
Notable Quotes & Details

AI 개발자, 연구자, 머신러닝 엔지니어

I used Gemini 2.5 Flash to parse receipts at scale. Here's what I learned about multimodal OCR in production

Gemini 2.5 Flash를 사용하여 영수증을 대규모로 파싱한 경험을 통해 멀티모달 OCR의 실제 적용 사례와 학습 내용을 공유한다.

  • 단일 패스 추출 방식이 투 스텝 파이프라인보다 효율적이며, Gemini는 OCR과 구조화를 한 번에 처리한다.
  • 프롬프트 구조가 모델 크기보다 중요하며, 엄격한 JSON 정의 요청이 개방형 프롬프트보다 성능이 우수했다.
  • 열 감열지 바램이 가장 어려운 엣지 케이스이며, Gemini Flash는 95%의 영수증을 올바르게 처리한다.
  • Gemini Flash와 Pro 모델 간의 트레이드오프가 있으며, 복잡한 레이아웃에는 Pro 모델이 필요하다.
Notable Quotes & Details
  • Gemini 2.5 Flash
  • 95%

AI 개발자, 스타트업 창업가, 광학 문자 인식(OCR) 전문가

Why no one is talking about Google Colab which is almost free for basic work in daily life?

Google Colab이 일상적인 작업에 거의 무료로 활용될 수 있는 강력한 도구임에도 불구하고 그 잠재력이 과소평가되고 있음을 강조한다.

  • Google Colab은 이미지 배경 제거와 같은 작업을 빠르게 처리하는 데 매우 유용하다.
  • 파이썬 스크립트와 무료 ChatGPT를 활용하여 대량 이미지 처리 작업을 효율적으로 수행할 수 있다.
  • Google Colab의 기능은 많은 사람들이 생각하는 것보다 훨씬 강력하며, 다양한 작업을 수행할 수 있다.
Notable Quotes & Details
  • 3500 images
  • $200
  • 3 hours

개발자, 프리랜서, AI 도구 사용자

Notes: 홍보성 콘텐츠

DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid.

That foodtruck bench post showing deepseek v4 matching gpt-5.2 at 17x cheaper got me thinking. if frontier cloud models are that overpriced for equivalent quality, how much of my daily work even needs cloud at all?

  • didn't use benchmarks, just re-ran a random sample of 150 tasks on both.
  • results: - file reads, project scanning, "explain this code": local matched cloud 97% of the time.
Notable Quotes & Details
  • 20%
  • 61%
  • 15%
  • 88%
  • 97%
  • gpt-5.2
  • 65%
  • 29%
  • 30%
  • 35%
  • v4
  • 12%

AI 연구자, 개발자, 학계

Heretic 1.3 released: Reproducible models, integrated benchmarking system, reduced peak VRAM usage, broader model support, and more

Dear fellow Llamas, it is my distinct pleasure to announce the immediate availability of version 1.3 of Heretic ( https://github.com/p-e-w/heretic ), the leading software for removing censorship from language models.

  • This was a much more difficult problem to solve than it might appear to be at first glance, because the results of tensor operations can depend on the PyTorch version, the GPU, the driver, the accelerator library, and whether Saturn is Ascendant or not.
  • As a result, when publishing an abliterated model to Hugging Face, you now have the option to have Heretic generate a reproduce directory in the repository, which contains everything another person needs to know in order to generate a byte-for-byte identical model themselves ( example of such a directory ).
Notable Quotes & Details
  • ppo

AI 연구자, 개발자, 학계

ProgramBench: Can we really rebuild huge binaries from scratch? (doesn't look like it)

ion layers, and architect the entire program. No internet access or any other way of cheating.

  • All of the results are at programbench.com .
  • Essentially you can just start evaluating with pip install programbench && programbench eval <your submission> Github is at https://github.com/facebookresearch/programbench Sorry that it's just closed source models right now, we have a few open-source models in the pipeline, but so far we've had an even harder time at getting them to behave well with these tasks (open source models tend to be somewhat more overfitted to things like SWE-bench, so they often have a harder time with new benchmarks).
  • We're also planning to open the benchmark for submissions quite soon, similar to what we did on SWE-bench and its variants.
Notable Quotes & Details

AI 연구자, 개발자, 학계

Agent MetaSKILLs

CopilotKit이 개발자들이 앱 내 AI 에이전트를 쉽게 배포할 수 있도록 2,700만 달러 투자를 유치하고 AG-UI 프로토콜을 확장한다는 내용의 기사입니다.

  • CopilotKit은 앱 내에서 AI 에이전트가 사용자의 행동을 이해하고 상호작용 가능한 UI를 생성하도록 돕는 솔루션을 제공합니다.
  • 오픈소스 AG-UI 프로토콜은 AI 에이전트와 사용자 인터페이스 간의 연결 및 통신을 표준화하여 스트리밍 챗, 프런트엔드 툴 호출, 상태 공유 등의 기능을 지원합니다.
  • Glilot Capital, NFX, SignalFire가 주도한 Series A 라운드에서 2,700만 달러를 유치했습니다.
  • 개발자는 CopilotKit 프레임워크를 활용하여 동적 사용자 인터페이스를 위한 사양과 빌딩 블록을 제공하고, AI 에이전트는 이를 통해 상황에 맞는 UI를 생성할 수 있습니다.
Notable Quotes & Details
  • $27 million in a Series A round
  • AG-UI protocol
  • Glilot Capital, NFX and SignalFire led the round

AI 개발자, 소프트웨어 엔지니어, 기술 스타트업 창업가

sectorllm: llama2 inference in < 1500 bytes of x86 assembly

The world's smallest llama2 inference engine A complete Llama2 inference engine that fits in 1277 bytes of x86 real mode assembly. It boots directly from disk, loads a quantized model, and generates text before any operating system loads.

  • It boots directly from disk, loads a quantized model, and generates text before any operating system loads.
  • There should be enough space for a fancier sampling technique, but the goal was to minimize space.
  • If you are an assembly wizard and can find a way to shrink the binary size, please contribute!
  • The goal is to show what is possible in the least amount of bytes possible without cheating.
Notable Quotes & Details
  • llama2
  • Llama2

AI 연구자, 개발자, 학계

Silicon Valley bets $200M on AI data centers floating in the ocean

실리콘 밸리 투자자들이 육상 AI 데이터센터 건설의 어려움에 직면하면서, 파도 동력 해상 AI 데이터센터에 2억 달러를 투자하고 있다.

  • Palantir 공동 창업자 Peter Thiel을 포함한 투자자들이 해상 AI 데이터센터에 수억 달러를 투자했다.
  • Panthalassa는 1억 4천만 달러의 투자 유치로 오리건주 포틀랜드 근처에 파일럿 제조 시설을 완공할 예정이다.
  • 해상 부유 노드는 직접 AI 칩에 전력을 공급하고, AI 모델의 결과물인 추론 토큰을 위성 링크를 통해 전 세계 고객에게 전송한다.
  • 이 아이디어는 에너지 전송 문제를 데이터 전송 문제로 전환시킨다.
  • 펜실베이니아 대학의 Benjamin Lee는 해상 AI 연산을 위해 모델을 해상 노드로 전송하고 프롬프트에 응답해야 한다고 언급했다.
Notable Quotes & Details
  • $200M
  • $140 million
  • May 4 press release

기술 투자자, AI 산업 관계자, 에너지 산업 관계자, 일반 독자

Google Home gets upgraded Gemini voice assistant and new camera controls

Google Home이 업그레이드된 Gemini 음성 비서와 새로운 카메라 제어 기능을 포함한 대규모 업데이트를 받았다.

  • Google Home이 Gemini 3.1 음성 어시스턴트와 새로운 카메라 제어 기능을 포함한 업데이트를 받았다.
  • Gemini 3.1은 복잡하고 다단계적인 음성 명령을 더 잘 해석하고 실행하는 '고급 추론' 기능을 제공한다.
  • Google은 Gemini 3.1이 ARC-AGI-2 및 Humanity's Last Exam과 같은 테스트에서 큰 폭의 향상을 보였다고 밝혔다.
  • 이 업데이트는 Google 스마트 스피커에서 Gemini 모델을 활용할 수 있도록 확장한다.
  • 개선된 모델은 단일 프롬프트에서 여러 작업을 처리할 수 있다.
Notable Quotes & Details
  • Gemini 3.1
  • February (initial release on other platforms)

Google Home 사용자, 스마트 홈 기술에 관심 있는 일반 소비자, AI 어시스턴트 개발자

I'm backing up my Samsung Messages before it's too late - 2 free and easy methods

삼성 메시지 앱이 7월에 서비스가 종료됨에 따라, 사용자들이 구글 메시지로 전환하기 전 메시지를 백업하는 두 가지 무료 방법을 제공한다.

  • 삼성 메시지 앱이 7월에 종료되며, 안드로이드 12 이상 사용자들은 구글 메시지로 전환해야 한다.
  • 삼성은 약 16년간 운영해온 자체 메시징 플랫폼을 종료하고 구글에 위임한다.
  • 갤럭시 폰은 이미 구글 메시지를 기본 앱으로 제공하기 시작했으며, 최근 모델에서는 삼성 메시지 앱을 다운로드할 수 없다.
  • 메시지 백업 방법으로는 삼성 클라우드 또는 구글 드라이브를 이용하거나, 외부 저장 장치로 로컬 전송하는 것이 있다.
  • 외부 저장 장치로 로컬 전송하는 것이 가장 안전한 백업 옵션이다.
Notable Quotes & Details
  • July (Samsung Messages end date)
  • 16-year run
  • Android 12

삼성 메시지 앱 사용자, 안드로이드 사용자, 개인 데이터 백업에 관심 있는 일반 사용자

Notes: 내용 불완전

Kindles are on sale right now - these are the models I recommend most

봄/여름 여행 시즌을 맞아 킨들 전자책 단말기 할인이 진행 중이며, ZDNet 전문가가 추천하는 모델들을 소개한다.

  • 킨들 전자책 단말기가 봄/여름 여행 시즌을 맞아 할인 판매 중이다.
  • 킨들은 휴대성과 저장 공간 덕분에 여행 필수품으로 인기가 많다.
  • ZDNet은 킨들 페이퍼화이트를 개인적으로 추천하며, 이는 풀사이드 액세서리로도 좋다.
  • 킨들은 자주 할인하지 않지만, 이번에는 괜찮은 할인율을 보이고 있다.
  • ZDNet의 추천은 수많은 테스트, 연구, 비교 쇼핑을 기반으로 한다.
Notable Quotes & Details

전자책 독자, 여행객, Kindle 구매를 고려하는 소비자, 일반 독자

Notes: 내용 불완전

60Hz vs. 120Hz vs. 165Hz: I've tested dozens of TVs, and here's what's best for your home

TV 주사율(refresh rate)의 중요성에 대한 ZDNet의 분석과 구매 가이드.

  • ZDNet은 수많은 테스트와 연구를 기반으로 TV 추천을 제공한다.
  • 제조사들은 주사율을 주요 판매 포인트로 강조하지만, 높은 주사율이 항상 더 나은 화질을 의미하지는 않는다.
  • 소비자가 자신에게 적합한 TV를 선택할 수 있도록 기술 용어와 마케팅 과장 속에서 실질적인 조언을 제공한다.
Notable Quotes & Details

일반 소비자, TV 구매 예정자

I've tested dozens of Sony headphones - these 4 tweaks get me the best sound quality

Sony 헤드폰에서 최고의 음질을 얻기 위한 4가지 설정 팁.

  • Sony 헤드폰은 뛰어난 사운드, 노이즈 캔슬링, 소프트웨어 기능으로 시장 최고 수준이다.
  • 제품은 사용자에게 높은 수준의 커스터마이징을 제공한다.
  • 유선 연결 시 전원을 켠 상태로 사용해야 DSP가 활성화되어 음질이 향상된다.
  • Android 사용자는 LDAC 또는 LC3 코덱을 통해 더 나은 무선 오디오를 경험할 수 있다.
Notable Quotes & Details
  • "$400+"

Sony 헤드폰 사용자, 오디오 애호가

Bose's new home theater system is optimized for your various TV setups - but can it beat Sony?

Bose의 새로운 Lifestyle Ultra 홈 시어터 시스템 라인업 발표와 주요 특징.

  • Bose가 새로운 Lifestyle Ultra 사운드바, 스피커, 서브우퍼를 선보였다.
  • 모듈형 홈 시어터 시스템이 인기를 얻고 있으며, Bose도 이에 맞춰 제품을 업그레이드했다.
  • Lifestyle Ultra 사운드바는 9개의 드라이버와 CustomTune 기술을 통해 실내 공간에 맞춰 사운드를 자동 조정한다.
  • 이전 AdaptIQ 방식보다 발전된 실내 보정 기술을 도입했다.
Notable Quotes & Details

일반 소비자, 홈 시어터 시스템 관심자

Bionic Tech Must Prove Itself Beyond the Lab

보조 기술로서의 생체공학 기술이 실험실을 넘어 실제 환경에서 입증되어야 함을 강조.

  • 로버트 우의 외골격 사용 경험과 초기 뇌-컴퓨터 인터페이스(BCI) 사례를 언급한다.
  • 생체공학 기술의 진정한 가치는 시연이 아닌 실제 환경에서의 신뢰성 있는 성능에 있다.
  • 초기 사용자들은 기술 개선의 "베타 테스터"이자 "공동 엔지니어" 역할을 수행한다.
  • 기술의 발전은 실제 사용자의 피드백을 통해 점진적으로 이루어진다.
Notable Quotes & Details
  • "2011"
  • "15 years"

AI 연구자, 공학자, 의학 연구자, 보조 기술 개발자

Inside Claude Code Auto Mode: Anthropic’s Autonomous Coding System with Human Approval Gates

Anthropic의 Claude Code에 도입된 자동 모드가 개발자들이 소프트웨어 개발 작업을 수행하는 방식을 간소화하여 수동 개입을 줄이고 특정 체크포인트에서만 인간 승인을 요구한다.

  • Claude Code의 자동 모드는 여러 단계의 소프트웨어 개발 작업을 처리하며 수동 개입을 줄인다.
  • 개발자는 목표를 설정하고 시스템은 코드 생성, 실행, 도구 사용 및 반복 개선을 담당한다.
  • 민감한 작업에는 선택된 체크포인트에서 인간 승인이 필요하다.
  • 이전의 권한 기반 모델에서 발생했던 승인 피로 문제를 해결한다.
  • 입력 및 실행 계층에 계층화된 안전 및 실행 아키텍처를 도입하여 안전한 작업을 자동 승인하고 모호한 경우는 추가 검사를 위해 라우팅한다.
Notable Quotes & Details
  • Sid Chaudhary (Intempt Head of Product) "You can now run Claude and actually walk away. Coffee break. Actual walk. You don't babysit it."

소프트웨어 개발자, AI 시스템 설계자, 제품 관리자

Mistral Adds Remote Agents and Work Mode to Le Chat

Mistral이 Mistral Medium 3.5 모델을 출시하고, Vibe 및 Le Chat 제품에 클라우드 기반 원격 에이전트 기능과 작업 모드를 추가하여 개발 워크플로우를 개선했다.

  • Mistral Medium 3.5는 1280억 개의 매개변수를 가진 모델로, 명령어 따르기, 추론 및 코딩을 단일 시스템에서 처리한다.
  • Vibe에 원격 코딩 에이전트를 도입하여 로컬 환경에서 클라우드 기반 런타임으로 실행을 전환한다.
  • Le Chat에 새로운 Work Mode가 도입되어 에이전트가 연결된 도구 전반에서 다단계 워크플로우를 실행할 수 있다.
  • 에이전트는 격리된 환경에서 코드를 수정하고 종속성을 설치하며 외부 시스템과 상호 작용할 수 있다.
  • Mistral Medium 3.5는 긴 실행 워크플로우와 도구 사용을 필요로 하는 다단계 작업을 위해 설계되었으며, 비전 인코더도 포함한다.
Notable Quotes & Details
  • Mistral Medium 3.5: 128-billion parameter model, context window up to 256k tokens.

소프트웨어 개발자, AI 시스템 설계자, IT 관리자

China-Linked UAT-8302 Targets Governments Using Shared APT Malware Across Regions

중국과 연계된 고도의 지속적인 위협(APT) 그룹 UAT-8302가 2024년 말부터 남미 및 2025년 동남부 유럽 정부 기관을 대상으로 공격을 감행했으며, 여러 다른 중국 연계 해킹 그룹과 공유되는 악성코드 계열을 사용하고 있다.

  • UAT-8302는 2024년 말부터 남미, 2025년 동남부 유럽 정부 기관을 공격했다.
  • Cisco Talos가 UAT-8302로 추적하며, NetDraft(.NET 기반 백도어)를 포함한 맞춤형 악성코드를 배포했다.
  • NetDraft는 FINALDRAFT의 C# 변종으로, Ink Dragon, Earth Alux 등 다른 중국 연계 그룹과 관련되어 있다.
  • UAT-8302는 CloudSorcerer, SNOWLIGHT, Deed RAT, Zingdoor, Draculoader와 같은 다양한 악성 도구를 사용한다.
  • 이 그룹의 활동은 이전에 공개된 여러 위협 클러스터와 연결되어 있으며, 이는 중국과 연계된 APT 행위자들 간의 긴밀한 협력 관계를 시사한다.
Notable Quotes & Details
  • UAT-8302, NetDraft (aka NosyDoor), FINALDRAFT (aka Squidoor), Ink Dragon, CL-STA-0049, Earth Alux, Jewelbug, REF7707, LongNosedGoblin, Erudite Mogwai (aka Space Pirates and Webworm), LuckyStrike Agent, CloudSorcerer, SNOWLIGHT, UNC5174, UNC6586, UAT-6382, Deed RAT (aka Snappybee), ShadowPad, Zingdoor, Earth Estries, Draculoader, Crowdoor, HemiGate.

사이버 보안 전문가, 정부 기관, IT 보안 담당자

We Scanned 1 Million Exposed AI Services. Here's How Bad the Security Actually Is

AI 서비스의 빠른 도입이 보안을 희생시키고 있으며, 1백만 개의 노출된 AI 서비스를 스캔한 결과 상당수가 인증 없이 배포되어 심각한 보안 취약점을 드러냈다.

  • AI 채택의 빠른 속도가 보안 진전을 위험에 빠뜨리고 있다.
  • 1백만 개의 노출된 AI 서비스를 스캔한 결과, AI 인프라가 다른 소프트웨어보다 더 취약하고 노출되었으며 잘못 구성되어 있었다.
  • 상당수의 호스트가 인증 없이 배포되었고, 많은 프로젝트에서 인증이 기본적으로 활성화되지 않았다.
  • 사용자 대화 기록과 회사 도구가 노출되어 평판 손상부터 완전한 침해에 이르는 결과를 초래할 수 있다.
  • 멀티모달 LLM을 포함한 일반 챗봇이 악의적인 사용자에 의해 안전 가드를 우회하여 불법적인 콘텐츠 생성에 사용될 수 있다.
Notable Quotes & Details
  • 1백만 개의 노출된 AI 서비스 스캔, ClawdBot fiasco (2.6 CVEs per day).

사이버 보안 전문가, AI 개발자, 기업 경영진, IT 관리자

ScarCruft Hacks Gaming Platform to Deploy BirdCall Malware on Android and Windows

북한 연계 해킹 그룹 ScarCruft가 게임 플랫폼을 침해하여 안드로이드 및 윈도우용 BirdCall 악성코드를 배포, 주로 중국 내 한국계 주민들을 표적으로 삼았다.

  • ScarCruft는 공급망 스파이 공격을 통해 게임 플랫폼을 침해했다.
  • BirdCall 악성코드는 안드로이드와 윈도우 기기를 모두 표적으로 삼는 다중 플랫폼 위협이다.
  • 타겟 플랫폼인 sqgame[.]net은 중국 옌볜 지역의 한국계 주민들이 사용하는 게임 플랫폼이다.
  • BirdCall은 스크린샷 캡처, 키스트로크 로깅, 클립보드 내용 탈취, 셸 명령 실행 등의 기능을 갖춘 백도어이다.
  • BirdCall은 RokRAT의 진화된 형태로, RokRAT은 과거 macOS와 안드로이드를 표적으로 삼도록 변형되었다.
Notable Quotes & Details
  • 2025년 10월
  • 2021년
  • 2024년 말

사이버 보안 전문가, 일반 사용자

Microsoft Details Phishing Campaign Targeting 35,000 Users Across 26 Countries

마이크로소프트가 26개국 35,000명 이상의 사용자를 표적으로 삼은 대규모 피싱 캠페인의 세부 정보를 공개했다.

  • 이 피싱 캠페인은 2026년 4월 14일부터 16일 사이에 발생했다.
  • 35,000명 이상의 사용자와 13,000개 이상의 조직이 표적이 되었으며, 92%는 미국에 집중되었다.
  • 주요 표적 산업은 의료 및 생명 과학, 금융 서비스, 전문 서비스, 기술 및 소프트웨어 분야였다.
  • 캠페인은 "행동 강령"을 주제로 한 미끼와 합법적인 이메일 서비스를 사용하여 인증 토큰을 탈취했다.
  • 피싱 이메일은 실제 내부 통신처럼 보이도록 정교하게 제작되었다.
Notable Quotes & Details
  • 2026년 4월 14일
  • 16일
  • 35,000명
  • 26개국
  • 92%

기업 보안 담당자, 일반 사용자

S2W “AI 에이전트의 성패, LLM 성능 넘어 '온톨로지' 설계에 달려”

S2W의 CTO 박근태는 AI 에이전트의 성공이 LLM 성능을 넘어 온톨로지 설계에 달려 있다고 강조하며, 설명 가능한 AI(XAI)와 기업의 의사결정 지원에 온톨로지가 중요하다고 밝혔다.

  • AI 에이전트의 성공은 LLM 성능뿐만 아니라 '온톨로지' 설계에 달려 있다.
  • 온톨로지는 AI의 의사결정 경로를 추적하여 '설명 가능한 AI(XAI)'를 가능하게 한다.
  • S2W는 2018년부터 온톨로지 기반 기술을 개발해 왔으며, 특히 다크웹 정보 분석에 활용했다.
  • 기업들이 AI 도입 시 데이터 구조화를 최우선 순위로 고려하며 온톨로지 구축 수요가 증가하고 있다.
  • S2W는 온톨로지 설계부터 전문가 검증까지 7단계의 과정을 통해 기업의 AI 과제를 해결한다.
Notable Quotes & Details
  • 2018년
  • 1월

AI 개발자, 기업 경영진, AI 에이전트 관련 연구자

미스트랄, '바이브' 통해 원격 에이전트·미스트랄 미디엄 3.5 출시

미스트랄 AI가 코딩 에이전트 플랫폼 바이브(Vibe)에 '원격(클라우드) 에이전트' 기능과 차세대 모델 '미스트랄 미디엄 3.5(Mistral Medium 3.5)'를 출시하여 코딩 에이전트 생태계를 확장했다.

  • 미스트랄 AI는 코딩 에이전트 플랫폼 바이브에 원격(클라우드) 에이전트 기능을 도입했다.
  • 이를 통해 개발자는 클라우드 환경에서 작업을 병렬로 처리하고, 로컬 환경에서 클라우드로 세션을 전환할 수 있다.
  • 새롭게 공개된 '미스트랄 미디엄 3.5' 모델은 1280억개 매개변수와 25만6000 토큰 컨텍스트를 지원하며, 코드 생성 및 추론 성능이 우수하다.
  • 'SWE-벤치 베리파이드'에서 77.6%의 성능을 기록하며 경쟁 모델을 앞섰다.
  • 르 샤(Le Chat)에는 이메일, 일정 등을 연동하여 복잡한 다단계 작업을 수행하는 '워크 모드(Work mode)'가 추가되었다.
Notable Quotes & Details
  • 1일
  • 1280억개
  • 25만6000 토큰
  • 77.6%

소프트웨어 개발자, AI 모델 연구자, AI 에이전트 사용자

로봇 없는 AGI는 악몽"...알트먼, 휴머노이드 넘어 '범용 로봇 공장' 강조

샘 알트먼 오픈AI CEO가 AGI 실현을 위해 로봇의 중요성을 강조하며, 휴머노이드보다는 범용 제조 시스템 구축에 우선순위를 두겠다고 밝혔다.

  • 알트먼 CEO는 물리적 세계에서 AGI의 능력 구현을 위해 로봇이 필수적이라고 강조했다.
  • 특정 형태의 휴머노이드 로봇보다는 "자동화된 제조 능력"을 갖춘 '로봇 공장'의 범용성을 원한다고 설명했다.
  • 오픈AI는 피규어 AI와 파트너십을 맺고 로봇의 두뇌를 공급하며, 알트먼 개인적으로는 1X 스타트업에 투자했다.
  • 미래의 AI는 사용자의 모든 맥락을 이해하며 백그라운드에서 실행되는 개인용 에이전트 형태가 될 것이라고 예고했다.
  • AI를 인류 역사상 가장 강력한 일반 목적 기술로 평가하며, 불보다 더 큰 영향을 미칠 것으로 예측했다.
Notable Quotes & Details
  • 2023년
  • 300억달러
  • 10억달러
  • 290억달러

AI 산업 관계자, 투자자, 일반 독자

“통제 불능 섀도우 AI 막는다”...MS, 사내 거버넌스 플랫폼 ‘에이전트 365’ 출시

마이크로소프트가 기업 내 AI 에이전트의 통제 불능 확산을 막기 위해 보안 및 거버넌스 플랫폼 '에이전트 365'를 정식 출시했다.

  • AI 에이전트의 확산으로 인한 '에이전트 스프롤'과 '섀도우 AI' 문제가 기업 보안 위협으로 부상하고 있다.
  • 에이전트 365는 기업 내 모든 AI 에이전트를 중앙에서 파악, 관리, 보안 정책을 적용하는 '컨트롤 플레인'을 제공한다.
  • 핵심 기능은 가시성(Observability), 거버넌스(Governance), 보안(Security)으로 구성된다.
  • 멀티클라우드 환경 대응을 위해 AWS 베드록, 구글 제미나이 엔터프라이즈 등 외부 플랫폼과 연동된다.
  • '에이전트용 윈도우 365'를 통해 격리된 클라우드 환경에서 에이전트를 실행하여 보안 위험을 줄인다.
Notable Quotes & Details
  • 1일(현지시간)

기업 IT 관리자, 보안 담당자, AI 솔루션 도입을 고려하는 기업

머스크, 재판 전 브록먼에게 소송 합의 타진..."거절하면 대중의 증오 대상 될 것"

일론 머스크가 오픈AI와의 재판을 앞두고 그렉 브록먼 사장에게 합의를 제안했으나 거절당했으며, 이후 머스크 측 변호인단이 법정에서 브록먼 사장의 사리사욕을 추궁했다.

  • 머스크가 재판 이틀 전 브록먼 사장에게 합의를 타진했으나, 브록먼이 '상호 조건 없는 소 취하'를 역제안하며 거절했다.
  • 머스크는 합의 거절 시 "대중의 증오를 사게 될 것"이라는 압박성 발언을 했다고 오픈AI 측이 주장했다.
  • 법정에서 머스크 측 변호인은 브록먼 사장이 보유한 오픈AI 지분(300억 달러 가치)을 언급하며 비영리 재단 기부 부족을 추궁했다.
  • 브록먼 사장은 오픈AI의 성과는 머스크 CEO 퇴사 후 "피땀 흘린 노력"의 결과라고 반박했다.
  • 머스크 측 증인으로 UC 버클리 스튜어트 러셀 교수가 AI 기술의 위험성(사이버 보안, 정렬 오류, AGI 승자독식)을 증언했다.
Notable Quotes & Details
  • 3일(현지시간)
  • 4일
  • 300억달러
  • 2017년
  • 10억달러
  • 290억달러

AI 산업 관계자, 법률 전문가, 일반 독자

Jooojub
System S/W engineer
Explore Tags
Series
    Recent Post
    © 2026. jooojub. All right reserved.