ทรานสคริปต์และสรุป YouTube โดย youtube-transcript.ai

Guideline และวิธีการทำงาน รหัสงาน ASR

เพิ่มส่วนขยาย Subkun ฟรี —— ใช้งานบน YouTube ได้โดยตรง

ดู
คำบรรยาย
สรุป
ถาม AI

https://www.youtube.com/watch?v=X9SJXE6bARQ

Summary

TL;DR — This webinar introduces the guidelines for the Indonesian training set project, emphasizing the crucial difference from test set projects: only clear speech parts should be kept, while unclear or overlapping speech must be removed to ensure optimal learning material for AI models. The session details the operating interface, the two-round process (labeling and QA), and specific criteria for discarding audio, intercepting segments, and transcribing content, with a focus on maintaining clarity and adhering to language rules.

Key points

Training set projects require the removal of all unclear and overlapping speech, unlike test set projects where these can be marked.

The operating interface includes a conversation context for reference, an audio player, multiple-choice questions for discarding/keeping audio and language mix, and text boxes for ASR results and final transcription.

The process involves a labeling round (listening, deciding to discard/keep, intercepting, selecting language, transcribing) and a QA round (reviewing and correcting labels and transcriptions).

Specific discard criteria include personal identifiable data, no speech, insufficient target language (Indonesian + English), excessive English (>30%), unclear speech, songs, and explicit/harmful content.

Interception rules focus on retaining as much clear, non-overlapping speech as possible, removing foreign languages, unclear speech, noises, and adhering to strict margin limits (within 100ms).

Transcription rules emphasize excluding punctuation and numbers in Arabic form, and calibrating unclear speech or mispronunciations only when certain of the intended word.

Takeaway — Strict adherence to guidelines, particularly regarding the removal of unclear/overlapping speech and accurate transcription of clear segments, is essential for creating high-quality training data for AI language models.

สรุป / Summary (th)

สรุปสั้น ๆ — การสัมมนาครั้งนี้เป็นการแนะนำแนวทางการทำงานสำหรับโปรเจกต์ชุดข้อมูลฝึกอบรมภาษาอินโดนีเซีย โดยเน้นย้ำความแตกต่างที่สำคัญจากโปรเจกต์ชุดข้อมูลทดสอบ: ต้องเก็บเฉพาะส่วนที่เป็นเสียงพูดที่ชัดเจนเท่านั้น ในขณะที่เสียงพูดที่ไม่ชัดเจนหรือเสียงพูดที่ซ้อนทับกันจะต้องถูกลบออก เพื่อให้มั่นใจว่าเป็นสื่อการเรียนรู้ที่ดีที่สุดสำหรับโมเดล AI เนื้อหาจะลงรายละเอียดเกี่ยวกับส่วนต่อประสานการทำงาน กระบวนการสองรอบ (การติดป้ายกำกับและการตรวจสอบคุณภาพ) และเกณฑ์เฉพาะสำหรับการทิ้งข้อมูลเสียง การตัดส่วน และการถอดเสียง โดยเน้นที่การรักษาความชัดเจนและการปฏิบัติตามกฎของภาษา

ประเด็นสำคัญ

โปรเจกต์ชุดข้อมูลฝึกอบรมกำหนดให้ลบเสียงพูดที่ไม่ชัดเจนและเสียงพูดที่ซ้อนทับกันทั้งหมด ซึ่งแตกต่างจากโปรเจกต์ชุดข้อมูลทดสอบที่สามารถทำเครื่องหมายได้

ส่วนต่อประสานการทำงานประกอบด้วยบริบทการสนทนาเพื่ออ้างอิง เครื่องเล่นเสียง คำถามแบบหลายตัวเลือกสำหรับการทิ้ง/เก็บข้อมูลเสียงและการผสมภาษา และกล่องข้อความสำหรับผลลัพธ์ ASR และการถอดเสียงขั้นสุดท้าย

กระบวนการประกอบด้วยรอบการติดป้ายกำกับ (การฟัง การตัดสินใจทิ้ง/เก็บ การตัดส่วน การเลือกภาษา การถอดเสียง) และรอบการตรวจสอบคุณภาพ (การตรวจสอบและแก้ไขป้ายกำกับและการถอดเสียง)

เกณฑ์การทิ้งข้อมูลเฉพาะ ได้แก่ ข้อมูลที่ระบุตัวตนได้ เสียงที่ไม่มีการพูด ภาษาเป้าหมายไม่เพียงพอ (อินโดนีเซีย + อังกฤษ) ภาษาอังกฤษมากเกินไป (>30%) เสียงพูดไม่ชัดเจน เพลง และเนื้อหาที่โจ่งแจ้ง/เป็นอันตราย

กฎการตัดส่วนมุ่งเน้นไปที่การรักษาเสียงพูดที่ชัดเจนและไม่ซ้อนทับกันให้ได้มากที่สุด การลบภาษาต่างประเทศ เสียงพูดที่ไม่ชัดเจน เสียงรบกวน และการปฏิบัติตามขีดจำกัดขอบเขตที่เข้มงวด (ภายใน 100 มิลลิวินาที)

กฎการถอดเสียงเน้นการยกเว้นเครื่องหมายวรรคตอนและตัวเลขในรูปแบบอารบิก และการปรับเทียบเสียงพูดที่ไม่ชัดเจนหรือการออกเสียงผิดพลาดก็ต่อเมื่อแน่ใจในคำที่ต้องการเท่านั้น

ข้อคิดสำคัญ — การปฏิบัติตามแนวทางอย่างเคร่งครัด โดยเฉพาะอย่างยิ่งเกี่ยวกับการลบเสียงพูดที่ไม่ชัดเจน/ซ้อนทับกันและการถอดเสียงส่วนที่ชัดเจนอย่างถูกต้อง เป็นสิ่งสำคัญอย่างยิ่งในการสร้างข้อมูลฝึกอบรมคุณภาพสูงสำหรับโมเดลภาษา AI

ดาวน์โหลดหรือคัดลอก YouTube transcript ที่จัดรูปแบบแล้ว (Markdown)

ทรานสคริปต์ฉบับเต็ม (สองภาษา)

กำลังโหลดทรานสคริปต์…

Source

YouTube video. Original: https://www.youtube.com/watch?v=X9SJXE6bARQ
Transcript captured and processed by youtube-transcript.ai on 2026-05-24.