추상 위키백과/업데이트/2022-06-07
◀ | 추상 위키백과 업데이트 | ▶ |
커뮤니티는 추상 위키백과를 사용하여 (최소한) 두 가지 다른 유형의 문서를 작성합니다. 다른 한편으로, 우리는 문장별로 조립된 맞춤형, 손으로 만든 콘텐츠를 갖게 될 것입니다. 오늘 우리는 첫 번째 유형에 대해 논의하고 다음 뉴스레터에서 두 번째 유형에 대해 논의할 것입니다. (추상 위키백과/업데이트/2022-06-21 )
첫 번째 유형의 문서는 매우 빠르게 생성될 수 있으며 앞으로도 오랫동안 대부분의 문서를 구성할 것입니다. 이를 위해 변수가 있는 텍스트 "즉" 모델을 사용할 수 있습니다. 다르게 말하면, 매드립스 게임의 라인을 따라 목록과 같은 다른 출처에서 채워지는 공백이 있는 텍스트입니다. 모델은 특정 유형의 항목에 대해 한 번 생성된 다음 위키데이터에 충분한 데이터가 있는 이 유형의 모든 단일 항목에 사용할 수 있습니다. 결과 문서는 다양한 위키백과에 이미 존재하는 많은 봇 생성 문서와 유사합니다.
예를 들어, 많은 언어에서 봇을 사용하여 수년간 문서를 작성하거나 유지 관리했습니다(예: 각각 100개 이상의 언어로 제공되는 1313년, 1428년 또는 1697년에 대한 문서). 영어 위키백과에서 미국 도시에 대한 많은 문서는 미국 인구 조사를 기반으로 한 봇에 의해 작성되었으며 나중에 2010년 인구 조사 이후 업데이트되었습니다. 스베르커 요한슨의 Lsjbot은 스웨덴어, 와라이어 또는 세부아노어와 같은 몇 가지 언어에서 위치 또는 종에 대한 수백만 개의 문서를 만든 봇의 잘 알려진 예입니다. 비슷한 활동이 많지는 않지만 꽤 많은 다른 언어로 진행되었습니다.
이러한 접근 방식은 어떻게 작동합니까? 다음 국가 목록과 같은 데이터 집합이 있다고 가정합니다:
나라 | 대륙 | 수도 | 인구 |
---|---|---|---|
요르단 | 아시아 | 암만 | 10428241 |
니카라과 | 중앙 아메리카 | 마나과 | 5142098 |
키르기스스탄 | 아시아 | 비슈케크 | 6201500 |
라오스 | 아시아 | 비엔티안 | 6858160 |
레바논 | 아시아 | 베이루트 | 6100075 |
이제 다음과 같이 이 데이터에서 완전한 텍스트를 생성할 수 있는 모델을 만들 수 있습니다:
“<나라>는 <인구>의 인구를 가진 <대륙>의 나라입니다. <나라>의 수도는 <수도>입니다.”
이 텍스트와 위의 데이터 집합을 사용하여 다음 5개의 원형 문서를 만들 수 있었습니다(간단함을 위해 참조는 표시되지 않음):
요르단은 인구 10,428,241명의 아시아 나라입니다. 요르단의 수도는 암만입니다.
니카라과는 인구 5,142,098명의 중앙 아메리카 나라입니다. 니카라과의 수도는 마나과입니다.
키르기스스탄은 인구 6,201,500명의 아시아 나라입니다. 키르기스스탄의 수도는 비슈케크입니다.
라오스는 인구 6,858,160명의 아시아 나라입니다. 라오스의 수도는 비엔티안입니다.
레바논은 인구 6,100,075명의 아시아 나라입니다. 레바논의 수도는 베이루트입니다.
"자연어 생성 시스템 구축"과 같은 주제에 대한 고전 교과서에서는 이 방법을 "메일 병합"이라고 부릅니다(메일 이상의 용도로 사용되지만). 모델은 종종 스프레드시트 또는 데이터베이스의 데이터 세트와 결합됩니다. 이것은 수십 년 동안 대량 메일링 및 기타 대량 콘텐츠를 만드는 데 사용되었으며 대량 사용자 지정의 한 형태입니다. 방법은 시간이 지남에 따라 점점 더 복잡해지고 더 많은 질문에 답할 수 있습니다. 누락되거나 선택적 정보를 처리하는 방법은 무엇입니까? 텍스트의 일부를 데이터에 적용하는 방법, 예: 적절한 경우 복수형이나 문법적 성별 또는 명사 클래스 등을 사용합니까? 위키백과에서 다양한 언어로 수백만 개의 기사를 생성한 위에서 언급한 봇은 대부분 이러한 방식으로 작업했습니다.
모델 접근 방식을 어디까지 밀어붙일 수 있는지에 대한 좋은 예는 위키데이터의 데이터를 기반으로 더글러스 애덤스에 대해 다음과 같은 영어 자동 설명을 생성하는 마그누스 만스케의 레조네이터를 고려하세요:
Douglas Adams was a British playwright, screenwriter, novelist, children's writer, science fiction writer, comedian, and writer. He was born on March 11, 1952 in Cambridge to Christopher Douglas Adams and Janet Adams. He studied at St John's College from 1971 until 1974 and Brentwood School from 1959 until 1970. His field of work included science fiction, comedy, satire, and science fiction. He was a member of Groucho Club and Footlights. He worked for The Digital Village from 1996 and for BBC. He married Jane Belson on November 25, 1991 (married until on May 11, 2001 ), Jane Belson on November 25, 1991 (married until on May 11, 2001 ), and Jane Belson on November 25, 1991 (married until on May 11, 2001 ). His children include Polly Adams, Polly Adams, and Polly Adams. He died of myocardial infarction on May 11, 2001 in Santa Barbara. He was buried at Highgate Cemetery.
이것이 없는 것보다 낫다고 한다면 리조네이터의 성과를 과소평가할 것 같습니다. 위의 텍스트는 리조네이터의 구조화된 데이터의 매력적인 표시와 함께 위키백과가 더글러스 애덤스에게 제공하는 많은 개별 언어보다 더 포괄적인 지식 접근으로 이어집니다. 비교를 위해 아제르바이잔어, 우르두어, 말라얄람어, 한국어 또는 덴마크어로 된 문서를 확인하세요. 동시에 대부분의 기여자가 수정하는 방법을 모르는 오류를 보여줍니다(예: 하위 이름의 반복 또는 괄호 안의 공백 등).
문서 자리 표시자 프로젝트는 콘텐츠 공백을 채우는 역할을 부분적으로 수행했지만 개발자는 의도적으로 기사처럼 보이는 결과를 피했습니다. 언어 Wikipedia의 컨텍스트 내에서 Wikidata의 구조화된 데이터를 표시합니다. 예를 들어, 다음은 아이티 크리올어로 트리케라톱스에 대해 생성된 페이지입니다.
위키백과에서 문서를 작성하기 위해 봇을 사용할 때의 한 가지 큰 단점은 이 콘텐츠가 커뮤니티의 아주 작은 하위 집합(종종 한 사람)에 의해 대부분 제어된다는 것입니다. 많은 봇과 데이터 집합은 다른 사람이 쉽게 들어와서 변경하고 봇을 다시 실행할 수 있는 방식으로 공개되지 않았습니다. (리조네이터는 텍스트가 동적으로 생성되고 실제 위키백과 문서에 통합되지 않기 때문에 이 문제를 피합니다.)
위키함수 및 위키데이터를 사용하면 이러한 모든 단계를 더 넓은 커뮤니티에 제어할 수 있습니다. 모델과 데이터는 모두 위키에서 편집되며 위키의 모든 일반적인 이점이 있습니다. 명확한 기록이 있고, 모든 사람이 웹을 통해 편집할 수 있고, 사람들이 토론할 수 있습니다. 모델을 채우는 데 사용되는 데이터는 위키데이터에서 유지 관리되고 모델 자체는 위키함수에서 유지됩니다. 이를 통해 우리는 텍스트에 대해 협력하고, 커뮤니티의 창의성을 발휘하고, 오류와 극단적인 경우를 함께 발견 및 수정하고, 항목 유형과 유형별 적용 범위를 천천히 확장할 수 있습니다.
후속 에세이에서 추상 콘텐츠를 만드는 다른 접근 방식에 대해 논의할 것입니다. 여기서 콘텐츠는 설명된 항목의 유형을 기반으로 하는 모델의 결과가 아니라 문장별로 수동으로 구성된 문서입니다.
5월 27일 주간 개발 업데이트:
- 팀은 해커톤에서 세션을 가졌는데, 여기에는 많은 사람들이 참석했습니다(약 30명). 참석해 주신 모든 분들과 질문과 의견에 감사드립니다!
- 또한 NLG 스트림에 대한 조정을 개선하기 위해 User:Mahir256과의 후속 회의도 있었습니다.
- 다음은 각 작업 흐름의 상태를 강조하는 간단한 주간 요약입니다.
- 성능:
- 관찰 가능성 문서 초안.
- 스테이징에서 함수-* 서비스를 가져오기 위해 헬름 차트를 업데이트했습니다.
- 성능 측정항목 설계를 완료하고 검토를 위해 공유
- NLG:
- 출시 후 위키함수에 필요한 변경 사항의 범위를 지정했습니다.
- 메타데이터:
- 일부 기능 평가기 타이밍 메트릭을 기록하고 오케스트레이터에 전달하기 시작했습니다.
- 경험:
- 위키람다(PHP) 레이어가 새로운 형식의 입력된 목록으로 마이그레이션되었습니다.
- 함수 보기 페이지의 모바일 경험 개선
- 디자인 시스템 팀 덕분에 코덱스를 사용하도록 탭 구성 요소를 전환했습니다.
- 디자인: 벵골어에서 종단 간 사용자 흐름 테스트를 수행했습니다.
- 성능:
"(이번 업데이트가 늦어진 점 사과드립니다. 이번 주에 다른 업데이트를 발송할 예정입니다)"