ProText: A Benchmark Dataset for Measuring (Mis)gendering in Long-Form Texts
Summary
LLM의 장문 텍스트 변환 과정에서 성별 오류(misgendering) 및 젠더 편향을 측정하기 위한 벤치마크 데이터셋 ProText를 소개하는 논문
Key Points
- Apple ML Research 팀이 ProText 데이터셋을 공개함 (이름, 직업, 호칭, 친족 관계어 등 테마 명사 포함)
- 3가지 차원으로 구성: 테마 명사 유형, 테마 카테고리(남성/여성/중립), 대명사 카테고리(남성/여성/중립/없음)
- 요약 및 텍스트 재작성 등 텍스트 변환 작업에서 LLM의 성별 편향을 측정하도록 설계
- 전통적 대명사 해석 벤치마크를 넘어 젠더 이진법 이외의 경우도 포함
- 단 2개의 프롬프트와 2개의 모델만으로도 젠더 편향, 고정관념, misgendering에 대한 세밀한 인사이트 도출 가능
Notable Quotes & Details
Notable Data / Quotes
- 2개의 프롬프트와 2개의 모델로 nuanced 인사이트 도출 가능
- 명시적 젠더 단서가 없거나 모델이 이성애규범적 가정으로 기본 처리할 때 체계적 젠더 편향이 나타남
Intended Audience
AI/NLP 연구자, LLM 공정성 및 편향 연구자