추상 위키백과/업데이트/2022-05-27
◀ | 추상 위키백과 업데이트 | ▶ |
자연어 생성(NLG) 아키텍처에 대한 제안
Google.org 동료인 아리엘 구트만은 최근 위키백과의 NLG(자연 생성 생성) 시스템을 제안했습니다.
제안된 아키텍처는 4가지 주요 원칙에 의해 주도됩니다:
- 모듈화: 시스템은 NLG의 다양한 측면(예: 형태 구문 및 음성 규칙)이 독립적으로 수정될 수 있다는 점에서 모듈식이어야 합니다.
- 어휘력: 시스템은 어휘 데이터(코드와 별도로)를 가져올 수 있어야 하고 생산적인 언어 규칙에 의존하여 이러한 데이터를 즉석에서 생성할 수 있어야 합니다(예: 영어 복수형에 -s 사용).
- 재귀: 대부분의 언어의 구성 및 재귀적 특성으로 인해 효과적인 NLG 시스템은 자체적으로 재귀적이어야 합니다.
- 확장성: 시스템은 언어 전문가와 기술 기여자 뿐만 아니라 시스템의 다른 부분에서 작업하는 비기술적 및 비전문가 기여자 모두의 확장을 수용해야 합니다.
이러한 고려 사항은 최종 출력 텍스트가 렌더링될 때까지 입력 생성자가 다른 모듈(자연어의 다양한 측면에 해당)에 의해 처리되는 "파이프라인" 시스템의 제안으로 이어집니다.
이 파이프라인에서 진한 파란색 형식은 위키함수(사각형) 또는 위키데이터(둥근 사각형)에 기여한 사람이 만든 요소이고, 밝은 파란색 요소는 위키함수 오케스트레이터 내에 있는 기능 또는 데이터를 나타냅니다.
시스템의 주요 측면은 "템플릿 렌더러"입니다. 위키함수는 전문적인 템플릿 언어를 내부에서 개발하여 제공할 것이며, 이를 통해 비기술적 기여자도 자신의 언어에 대한 렌더러를 작성할 수 있습니다. 이러한 렌더러는 위키데이터의 어휘 데이터와 범용 종속성 스타일 문법 관계에 의해 지원되며, 이는 언어에 관심이 있는 기여자가 위키함수 내에서 정의합니다.
제안의 토론 페이지, 특히 내부 템플릿 시스템을 개발하는 아이디어에 대한 피드백을 듣게 되어 기쁩니다.
지난 주에 대한 추가 업데이트
- 이번 주에 팀은 첫 번째 심층 분석 세션을 개최했습니다. 프로젝트 OKR(목표 및 핵심 결과)을 발표하고 경영진의 피드백을 받았습니다.
- 팀은 이번 주에 지난 주말 해커톤을 준비하는 데 시간을 보냈습니다:
- 위키함수에 대한 프레젠테이션 및 Q&A가 있었습니다.
- 해커톤 참가자를 위해 몇 가지 파브리케이터 백로그 작업이 식별 및 태그 지정되었습니다.
다음은 각 작업 흐름의 상태를 강조하는 간단한 주간 요약입니다:
- 성능:
- 베타 클러스터 설정 진행: 이제 오케스트레이터 및 평가기 서비스가 최신 이미지로 자동 업데이트됩니다.
- NLG:
- NLG 시스템 아키텍처 설계 문서의 초기 초안 완료
- 메타데이터:
- 이전 및 새 메타데이터 형식에 대한 순방향 및 역방향 호환성을 모두 수용하기 위해 부분적으로 완성된 프론트 엔드 코드
- 경험:
- 모바일용 기능 보기 및 편집기 구현에 대한 더 많은 진전
- 벤자민 배열로 함수 스키마 마이그레이션 완료
- '대체 텍스트'에 대한 디자인 전달