แบบจำลองแบบแพร่

แบบจำลองแบบแพร่ (diffusion model) หรือ แบบจำลองความน่าจะเป็นแบบแพร่ (diffusion probability model) ในสาขาการเรียนรู้ของเครื่อง คือแบบจำลองตัวแปรแฝงประเภทหนึ่ง เป็นลูกโซ่มาร์คอฟที่ได้รับการฝึกโดยใช้วิธีแบบเบส์แบบแปรผัน^[1] เป้าหมายของแบบจำลองแบบแพร่คือการเรียนรู้โครงสร้างแฝงของชุดข้อมูลโดยการสร้างแบบจำลองพฤติกรรมของจุดข้อมูลแต่ละจุดที่แจกแจงในปริภูมิแฝง ในสาขาคอมพิวเตอร์วิทัศน์ ได้มีการใช้แบบจำลองแบบแพร่สร้างโครงข่ายประสาทเทียม ซึ่งฝึกให้เรียนรู้ที่จะย้อนกลับกระบวนการการแพร่เพื่อการลดสัญญาณรบกวนออกจากภาพที่ถูกทำให้เบลอด้วยสัญญาณรบกวนแบบเกาส์^[2]^[3]

แบบจำลองแบบแพร่ได้รับการคิดค้นขึ้นมาในปี 2015 โดยได้รับแรงบันดาลใจจากอุณหพลศาสตร์แบบไม่สมดุล^[4]^[5]

แบบจำลองแบบแพร่สามารถนำไปใช้กับการดำเนินการต่าง ๆ เช่น การลดสัญญาณรบกวนของภาพ, การซ่อมแซมภาพ, การเพิ่มความละเอียดภาพ การสร้างภาพ และการบีบอัดข้อมูล ตัวอย่างเช่น แบบจำลองการสร้างภาพสามารถสร้างภาพที่ดูเป็นธรรมชาติขึ้นมาใหม่ได้จากการใช้ภาพสัญญาณรบกวนแบบสุ่มเป็นค่าเริ่มต้น แล้วเรียนรู้กระบวนที่ตรงกันข้ามกับการแพร่ของภาพธรรมชาติ

ตัวอย่างการประยุกต์ใช้แบบจำลองแบบแพร่ที่มีชื่อเสียง ได้แก่ ตัวแบบสำหรับสร้างภาพจากข้อความ เช่น DALL-E 2 ของโอเพนเอไอ และ สเตเบิลดิฟฟิวชัน เป็นต้น DALL-E 2 ใช้แบบจำลองแบบแพร่สำหรับทั้งการแจกแจงก่อนของแบบจำลองสร้างภาพ และตัวถอดรหัสสำหรับการสร้างภาพขั้นสุดท้าย^[6]แม่แบบ:Sfn การบีบอัดข้อมูลโดยใช้แบบจำลองแบบแพร่มีข้อดีตรงที่ไม่ต้องเข้ารหัส และมีประสิทธิภาพสูงกว่าวิธีการบีบอัดประสิทธิภาพสูงสุดแบบดั้งเดิมแม่แบบ:Sfn

หลักการทางคณิตศาสตร์

การสร้างภาพ

พิจารณาปัญหาการสร้างภาพ โดยให้ $x$ เป็นรูปภาพ และฟังก์ชันความหนาแน่นความน่าจะเป็นบนปริภูมิรูปภาพคือ $p (x)$ ถ้ารู้ $p (x)$ ก็จะสามารถระบุความน่าจะเป็นที่ภาพแต่ละชนิดจะถูกสร้างขึ้นได้ แต่โดยทั่วไปแล้ว เป็นการยากที่จะทราบความน่าจะเป็นนั้น

ในกรณีส่วนใหญ่ เราไม่สนใจความน่าจะเป็นเฉพาะที่ภาพหนึ่ง ๆ จะถูกสร้างขึ้น แต่ที่สนใจกว่าก็คือว่า ภาพนั้นมีแนวโน้มที่จะถูกสร้างขึ้นมากเพียงใดเมื่อเทียบกับภาพใกล้เคียง ตัวอย่างเช่น หากมีรูปภาพแมวที่มีหนวด 2 หนวด ปัญหาคือภาพนั้นมีแนวโน้มที่จะถูกสร้างขึ้นแค่ไหนเมื่อเทียบกับภาพที่คล้ายกัน เช่น รูปภาพแมวที่มีหนวด 3 หนวด หรือรูปภาพที่ถูกเติมสัญญาณรบกวนแบบเกาส์เข้าไป

ดังนั้นเป้าหมายที่สนใจไม่ใช่ตัว $p (x)$ นั้นเอง แต่เป็น $\nabla_{x} \ln p (x)$ การพิจารณาแบบนี้มีข้อดีคือ

ประการแรก $p (x)$ ไม่จำเป็นต้องทำให้เป็นมาตรฐาน แต่ใช้ในรูป $\tilde{p} (x) = C p (x)$ ได้ ในที่นี่ $C = \int \tilde{p} (x) d x > 0$ เป็นค่าคงที่ตามที่ต้องการ และค่าที่แน่ชัดจะไม่มีผลต่อการคำนวณ
ประการที่สอง สามารถเปรียบเทียบ $p (x)$ กับความน่าจะเป็นของภาพใกล้เคียง $p (x + d x)$ ในรูป $\frac{p (x)}{p (x + d x)} = e^{- ⟨ \nabla_{x} \ln p, d x ⟩}$ ได้

ให้ฟังก์ชันคะแนนเป็น $s (x) := \nabla_{x} \ln p (x)$ แล้ว $s (x)$ จะสามารถสุ่มตัวอย่างจาก $p (x)$ โดยใช้พลศาสตร์อนุญาตให้สุ่มตัวอย่างโดยใช้พลศาสตร์ล็องฌ์แว็งความชันแบบเฟ้นสุ่ม (stochastic gradient Langevin dynamics) นี่เป็นรูปแบบที่เล็กที่สุดของวิธีมอนเตการ์โลลูกโซ่มาร์คอฟ^[2]

รูปแบบต่าง ๆ

การชี้นำโดยตัวจำแนก (classifier guidance)

แทนที่จะสุ่มตัวอย่างจากกลุ่มของรูปภาพทั้งหมด เราสามารถพิจารณาสุ่มเอาตัวอย่างแค่จากช่วงขอบเขตที่กำหนดโดยคำอธิบายภาพ เช่น แทนที่จะดึงออกมาจากกลุ่มรูปภาพทั่วไป ให้ดึงมาเฉพาะภาพที่สอดคล้องกับคำอธิบายว่า "แมว สีดำ ตา สีแดง" เป็นต้น โดยทั่วไปแล้วนี่จะเป็นการสุ่มตัวอย่างบนการแจกแจง $p (x | y)$ ในที่นี้รูปภาพ $x$ จะได้มาจากช่วงของภาพทั้งหมด ในขณะที่ขอบเขตของรูปภาพ $y$ จะถูกจำกัดอยู่ที่รูปภาพจำเพาะประเภท

จากมุมมองของแบบจำลองช่องสัญญาณที่มีสัญญาณรบกวน กระบวนการนี้สามารถเข้าใจได้ดังนี้ เมื่อต้องการจะสร้างภาพ $x$ ภายใต้เงื่อนไขตามคำอธิบาย $y$ ผู้ที่ต้องการสร้างภาพจะสร้างภาพขึ้นมานั้น จริง ๆ แล้วกำลังวาดภาพ $x$ อยู่ แต่เนื่องจากว่าภาพนั้นผ่านช่องสัญญาณที่มีสัญญาณรบกวน จึงเกิดการผิดเพี้ยนของตัวอักษร จนจินตนาการไปว่าได้รับสัญญาณเป็นคำอธิบาย $y$ ในกรณีนี้ การสร้างภาพในที่นี้เป็นแค่การทำนายภาพ $x$ ที่ถูกจินตนาการไว้แต่แรกโดยบุคคลที่ต้องการสร้างภาพนั้น

กล่าวอีกนัยหนึ่ง การสร้างภาพแบบมีเงื่อนไขนั้นเป็นเพียงการแปลภาษาที่อธิบายด้วยข้อความให้กลายเป็นภาษาที่อธิบายด้วยภาพ ดังนั้น เช่นเดียวกับแบบจำลองช่องสัญญาณที่มีสัญญาณรบกวน เราสามารถใช้ทฤษฎีบทของเบส์ได้ว่า

$p (x | y) \propto p (y | x) p (x)$

นั่นคือหากมีแบบจำลองที่ดีสำหรับปริภูมิรูปภาพทั้งหมด ( $p (x)$ ) และตัวแปลคุณภาพสูงสำหรับแปลง "รูปภาพ → ประเภท" ( $p (y | x)$ ) นั่นหมายความว่าเราสามารถจะได้ตัวแปล "ประเภท → รูปภาพ" ได้โดยไม่ต้องลำบากนัก

พลศาสตร์ล็องฌ์แว็งความชันแบบเฟ้นสุ่มใช้สมการต่อไปนี้

$\nabla_{x} \ln p (x | y) = \nabla_{x} \ln p (y | x) + \nabla_{x} \ln p (x)$

ในที่นี้ $\nabla_{x} \ln p (x)$ คือฟังก์ชันคะแนนที่เรียนรู้ตามที่อธิบายไว้ข้างต้น โดย $\nabla_{x} \ln p (y | x)$ ได้มาจากการใช้ตัวจำแนกรูปภาพที่หาอนุพันธ์ได้

การชี้นำโดยไร้ตัวจำแนก (classifier-free guidance, CFG)

แม้ในกรณีที่ไม่มีตัวจำแนก $p (y | x)$ ก็สามารถสกัดเอาตัวจำแนกจากตัวแบบจำลองรูปภาพเองได้ดังนี้^[7]

$\nabla_{x} \ln p_{β} (x | y) = (1 - β) \nabla_{x} \ln p (x) + β \nabla_{x} \ln p (x | y)$

แบบจำลองดังกล่าวนั้นมักจะฝึกสอนโดยป้อนให้ทั้ง $(x, y)$ และ $(x, N o n e)$ แล้วสร้างแบบจำลอง $\nabla_{x} \ln p (x | y)$ และ $\nabla_{x} \ln p (x)$ ขึ้นพร้อมกัน

CFG ได้กลายเป็นส่วนสำคัญที่ขาดไม่ได้สำหรับแบบจำลองต่าง ๆ เช่น GLIDE^[8], DALL-E^[9] และ Google Imagen^[10]

อ้างอิง

แม่แบบ:รายการอ้างอิง

[:0-1] แม่แบบ:Cite journal

[:1-2] 2.0 ^2.1 แม่แบบ:Cite arXiv

[3] แม่แบบ:Cite arXiv

[4] แม่แบบ:Cite journal

[5] แม่แบบ:Cite web

[6] แม่แบบ:Cite arXiv

[7] แม่แบบ:Cite arXiv

[8] แม่แบบ:Cite arXiv

[9] แม่แบบ:Cite arXiv

[10] แม่แบบ:Cite arXiv

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

แบบจำลองแบบแพร่

เนื้อหา

หลักการทางคณิตศาสตร์

การสร้างภาพ

รูปแบบต่าง ๆ

การชี้นำโดยตัวจำแนก (classifier guidance)

การชี้นำโดยไร้ตัวจำแนก (classifier-free guidance, CFG)

อ้างอิง

รายการนำทางไซต์

แบบจำลองแบบแพร่

หลักการทางคณิตศาสตร์

การสร้างภาพ

รูปแบบต่าง ๆ

การชี้นำโดยตัวจำแนก (classifier guidance)

การชี้นำโดยไร้ตัวจำแนก (classifier-free guidance, CFG)

อ้างอิง

รายการนำทางไซต์

ค้นหา