MAI-Transcribe-1

MAI-Transcribe-1이란?

MAI-Transcribe-1은 글로벌 제품을 개발하는 개발자를 위해 설계된 다국어 음성-텍스트(ASR) 모델입니다. 음성 오디오를 텍스트 전사본으로 변환하며, 다양한 언어, 억양, 그리고 어려운 녹음 조건의 오디오를 포함한 프로덕션 환경을 대상으로 합니다.

Microsoft에 따르면, MAI-Transcribe-1은 25개 언어에서 정확성을 최적화했으며, 배치 및 저지연 전사 요구사항을 모두 지원합니다. 이 모델은 Microsoft Foundry(공개 미리보기)에서 제공되며, Microsoft AI Playground에서도 액세스할 수 있습니다.

주요 기능

25개 언어 다국어 음성-텍스트: 다양한 말하기 스타일의 글로벌 제품 시나리오를 처리하도록 설계된 단일 모델.
배치 전사 속도: Microsoft에 따르면 배치 전사는 현재 “Microsoft Azure Fast offering”보다 2.5× 빠름.
저지연 성능: 회의 전사, 비디오 자막, 음성 입력과 같은 실시간 작업에 적합.
잡음이나 어려운 오디오에서의 견고한 전사: 배경 소음, 저품질 녹음, 겹치는 음성에 대한 벤치마크와 예시 제공.
프로덕션 지향 배포: Microsoft Foundry(공개 미리보기)를 통해 제공되며, Microsoft 제품의 단계적 롤아웃에 사용.
음성 에이전트 워크플로 통합: MAI-Voice-1(텍스트-음성) 및 LLM(설명된 대로)과 결합 시, 전사 기반의 엔드투엔드 음성 경험 지원.

MAI-Transcribe-1 사용 방법

Microsoft Foundry(공개 미리보기)에서 모델 액세스하고, 전사 워크플로(배치 또는 저지연 사용)에 맞게 구성.
Microsoft AI Playground에서 빠르게 테스트하여 오디오 시나리오의 전사 품질 평가.
음성 에이전트 프로젝트의 경우, MAI-Transcribe-1의 전사 출력을 LLM과 결합하여 의도/명령 해석하고, 선택적으로 MAI-Voice-1을 텍스트-음성 응답에 사용.

페이지에는 MAI-Transcribe-1이 Copilot의 음성 모드 및 Microsoft Teams와의 단계적 롤아웃에서 대화 전사에 사용된다고 명시되어 있습니다.

사용 사례

회의 전사 및 아카이브: 말로 된 회의를 검색 가능한 전사본으로 변환하여 나중에 검토 및 검색.
음성 이해가 필요한 음성 에이전트: MAI-Transcribe-1을 음성-텍스트 계층으로 사용하여 기본 LLM이 전사본에서 사용자 의도 해석.
콜센터 분석 및 QA: 품질 보증 및 고객 인사이트 추출과 같은 후속 분석에 적합한 전사본 생성.
미디어 및 접근성 워크플로: 비디오 자막 생성, 팟캐스트 전사, 음성-텍스트 출력을 통한 비디오 접근성 지원.
오디오 아카이브의 검색 및 지식 구축: ML 훈련, 검색 인덱싱, 요약에 사용되는 오디오 아카이브의 검색 가능 라이브러리 생성 및 대규모 처리 파이프라인 지원.

자주 묻는 질문

MAI-Transcribe-1은 음성-텍스트 모델인가 텍스트 모델인가? 오디오에서 전사본을 생성하는 음성-텍스트(자동 음성 인식) 모델입니다.
지원 언어는 몇 개인가? 페이지에 따르면 25개 언어를 지원합니다.
실시간 전사를 지원하나? Microsoft에 따르면, 회의 전사, 비디오 자막, 음성 입력과 같은 실시간 작업에 충분히 낮은 지연 시간을 제공합니다.
MAI-Transcribe-1은 어디서 액세스할 수 있나? Microsoft Foundry(공개 미리보기)에서 제공되며, Microsoft AI Playground에서 테스트할 수 있습니다.
음성 에이전트와의 관계는? 페이지에서 음성 에이전트의 기본 전사 계층으로 설명되며, MAI-Voice-1(텍스트-음성) 및 선택한 LLM과 결합.

대안

기타 ASR/음성-텍스트 모델: 언어 커버리지, 오디오 조건 정확도, 지연 요구사항에 따라 MAI-Transcribe-1과 대안 음성 인식 모델 비교.
클라우드 전사 API(범용 음성-텍스트 서비스): ASR 모델 실행/커스터마이징 대신 관리형 API로 전사를 원할 때 사용.
온디바이스 또는 오프라인 음성 인식 솔루션: 워크플로가 저지연보다 오프라인 처리를 우선하거나 온라인 추론 없이 오디오 처리 필요 시 고려.
비디오 자막/전사 파이프라인: 자막 및 접근성에 특화된 팀의 경우, 독립 ASR 모델 대신 전사와 자막/캡션 생성을 통합한 워크플로 도구 대안.