บทนำสู่แบบจำลองการแพร่กระจาย

สารบัญ[ซ่อน][แสดง]

รูปแบบการแพร่กระจายคืออะไร?
เจาะลึกโมเดลการแพร่กระจาย+-
วัตถุประสงค์สุดท้าย
ประโยชน์ของแบบจำลองการแพร่กระจาย
สรุป

ในช่วงไม่กี่ปีที่ผ่านมา แบบจำลองกำเนิดที่เรียกว่า "แบบจำลองการแพร่กระจาย" ได้รับความนิยมเพิ่มขึ้นและมีสาเหตุที่ดี

โลกได้เห็นแล้วว่าแบบจำลองการแพร่กระจายสามารถทำอะไรได้บ้าง เช่น GAN ที่มีประสิทธิภาพสูงในการสังเคราะห์ภาพ ต้องขอบคุณสิ่งพิมพ์สำคัญเพียงไม่กี่ฉบับที่เผยแพร่ในช่วงปี 2020 และ 2021

ผู้ปฏิบัติงานล่าสุดเห็นการใช้แบบจำลองการแพร่กระจายใน DALL-E2, โมเดลการสร้างภาพของ OpenAI ที่เผยแพร่เมื่อเดือนที่แล้ว

ผู้ปฏิบัติงานแมชชีนเลิร์นนิงหลายคนสงสัยสงสัยเกี่ยวกับการทำงานภายในของโมเดลการแพร่กระจายเนื่องจากความสำเร็จที่เพิ่มขึ้นอย่างรวดเร็ว

ในบทความนี้ เราจะมาดูรากฐานทางทฤษฎีของแบบจำลองการแพร่กระจาย การออกแบบ ข้อดี และอื่นๆ อีกมากมาย ไปกันเถอะ

รูปแบบการแพร่กระจายคืออะไร?

เริ่มต้นด้วยการหาว่าทำไมแบบจำลองนี้จึงถูกเรียกว่าแบบจำลองการแพร่กระจาย

คำที่เกี่ยวข้องกับอุณหพลศาสตร์ในชั้นเรียนฟิสิกส์เรียกว่าการแพร่ ระบบจะไม่สมดุลหากมีความเข้มข้นของวัสดุ เช่น กลิ่น อยู่ในที่เดียว

การแพร่กระจายจะต้องเกิดขึ้นเพื่อให้ระบบเข้าสู่สมดุล โมเลกุลของกลิ่นจะกระจายไปทั่วระบบจากบริเวณที่มีความเข้มข้นสูง ทำให้ระบบมีความสม่ำเสมอตลอด

ในที่สุดทุกอย่างจะกลายเป็นเนื้อเดียวกันเนื่องจากการแพร่ระบาด

แบบจำลองการแพร่กระจายได้รับแรงบันดาลใจจากสภาวะที่ไม่สมดุลทางอุณหพลศาสตร์นี้ แบบจำลองการแพร่กระจายใช้สายโซ่ Markov ซึ่งเป็นชุดของตัวแปรที่ค่าของตัวแปรแต่ละตัวขึ้นอยู่กับสถานะของเหตุการณ์ก่อนหน้า

ในการถ่ายภาพ เราได้เพิ่มจุดรบกวนจำนวนหนึ่งเข้าไปอย่างต่อเนื่องตลอดระยะการแพร่กระจายไปข้างหน้า

หลังจากเก็บภาพที่มีสัญญาณรบกวนมากขึ้นแล้ว เราก็ดำเนินการสร้างภาพที่ตามมาในซีรีส์โดยเพิ่มจุดรบกวนเพิ่มเติม

หลายครั้ง ขั้นตอนนี้เสร็จสิ้น ภาพนอยส์บริสุทธิ์เกิดจากการทำซ้ำวิธีนี้สองสามครั้ง

เราจะสร้างรูปภาพจากภาพที่รกนี้ได้อย่างไร

กระบวนการแพร่กลับตรงกันข้ามโดยใช้ a เครือข่ายประสาท. เครือข่ายเดียวกันและน้ำหนักเท่ากันถูกใช้ในกระบวนการแพร่ย้อนกลับเพื่อสร้างรูปภาพจาก t ถึง t-1

แทนที่จะปล่อยให้เครือข่ายคาดการณ์ภาพ เราสามารถคาดเดาสัญญาณรบกวนในแต่ละขั้นตอน ซึ่งจะต้องถูกลบออกจากภาพ เพื่อทำให้งานง่ายขึ้น

ในสถานการณ์ใด ๆ การออกแบบโครงข่ายประสาทเทียม ต้องเลือกในลักษณะที่รักษามิติข้อมูล

เจาะลึกโมเดลการแพร่กระจาย

ส่วนประกอบของแบบจำลองการแพร่กระจายเป็นกระบวนการไปข้างหน้า (หรือที่เรียกว่ากระบวนการแพร่กระจาย) โดยที่จุดอ้าง (มักจะเป็นภาพ) จะถูกรบกวนอย่างค่อยเป็นค่อยไป และกระบวนการย้อนกลับ (หรือที่เรียกว่ากระบวนการแพร่กระจายย้อนกลับ) ซึ่งมีสัญญาณรบกวน แปลงกลับเป็นตัวอย่างจากการกระจายเป้าหมาย

เมื่อระดับเสียงต่ำเพียงพอ สามารถใช้ Gaussians แบบมีเงื่อนไขเพื่อสร้างการเปลี่ยนลูกโซ่การสุ่มตัวอย่างในกระบวนการไปข้างหน้า การกำหนดพารามิเตอร์อย่างง่ายของกระบวนการส่งต่อเป็นผลมาจากการผสมผสานความรู้นี้กับสมมติฐานของ Markov:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt-1) := N (xt; p 1 − βtxt−1, βtI)

Here 1 ….T คือตารางความแปรปรวน (ไม่ว่าจะเรียนรู้หรือตายตัว) ที่รับรองว่าสำหรับ T ที่สูงเพียงพอ xT จะเป็นค่า Gaussian แบบไอโซโทรปิก

T ขนาดใหญ่

กระบวนการที่ตรงกันข้ามคือการที่มายากลรูปแบบการแพร่กระจายเกิดขึ้น โมเดลเรียนรู้ที่จะย้อนกลับกระบวนการแพร่กระจายนี้ในระหว่างการฝึกอบรม เพื่อสร้างข้อมูลใหม่ โมเดลเรียนรู้การแจกแจงร่วมกันเป็น (x0:ท) ผลลัพธ์ของการเริ่มต้นด้วยสมการเสียงเกาส์เซียนบริสุทธิ์

(xT):=ยังไม่มีข้อความ(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt-1|xt), pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ( xt, t))

ที่ซึ่งพบพารามิเตอร์ที่ขึ้นกับเวลาของการเปลี่ยนภาพแบบเกาส์เซียน โดยเฉพาะอย่างยิ่ง ให้สังเกตว่าสูตร Markov ระบุว่าการกระจายการเปลี่ยนผ่านของการแพร่กระจายแบบย้อนกลับนั้นขึ้นอยู่กับขั้นตอนก่อนหน้าเท่านั้น (หรือขั้นตอนเวลาที่ตามมา ขึ้นอยู่กับว่าคุณมองอย่างไร):

pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))

การฝึกโมเดล

แบบจำลอง Markov แบบย้อนกลับที่เพิ่มความน่าจะเป็นของข้อมูลการฝึกสูงสุดนั้นใช้เพื่อฝึกแบบจำลองการแพร่กระจาย ในทางปฏิบัติ การฝึกนั้นคล้ายคลึงกับการลดขอบเขตบนที่แปรผันบนความน่าจะเป็นของบันทึกเชิงลบ

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 บันทึก pθ(xt-1|xt) q (xt|xt-1) =: L

Models

ตอนนี้ เราต้องตัดสินใจว่าจะดำเนินการอย่างไร โมเดลการแพร่กระจายของเรา หลังจากสร้างรากฐานทางคณิตศาสตร์ของฟังก์ชันเป้าหมายของเราแล้ว การตัดสินใจเพียงอย่างเดียวที่จำเป็นสำหรับกระบวนการส่งต่อคือการกำหนดกำหนดการความแปรปรวน ซึ่งโดยปกติแล้วค่าจะเพิ่มขึ้นในระหว่างขั้นตอน

เราพิจารณาอย่างยิ่งที่จะใช้การกำหนดพารามิเตอร์การกระจายแบบเกาส์เซียนและสถาปัตยกรรมแบบจำลองสำหรับขั้นตอนย้อนกลับ

เงื่อนไขเดียวของการออกแบบของเราคือทั้งอินพุตและเอาต์พุตมีขนาดเท่ากัน สิ่งนี้เน้นย้ำถึงระดับความอิสระมหาศาลที่โมเดลการแพร่มีให้

ด้านล่างนี้ เราจะเจาะลึกยิ่งขึ้นเกี่ยวกับตัวเลือกเหล่านี้

ส่งต่อกระบวนการ

เราต้องจัดเตรียมกำหนดการความแปรปรวนที่เกี่ยวข้องกับกระบวนการส่งต่อ เราตั้งค่าให้เป็นค่าคงที่ที่ขึ้นกับเวลาโดยเฉพาะ และไม่คำนึงถึงความเป็นไปได้ที่จะเรียนรู้ได้ กำหนดการจาก

β1 = 10-4 ถึง βT = 0.02.

Lt จะกลายเป็นค่าคงที่เมื่อเทียบกับชุดพารามิเตอร์ที่เรียนรู้ได้ของเราเนื่องจากกำหนดการความแปรปรวนคงที่ ทำให้เราไม่ต้องสนใจในระหว่างการฝึกอบรมโดยไม่คำนึงถึงค่าเฉพาะที่เลือก

ย้อนกลับกระบวนการ

ตอนนี้เรามาดูการตัดสินใจที่จำเป็นในการกำหนดกระบวนการย้อนกลับ จำไว้ว่าเราอธิบายการเปลี่ยนผ่านของ Markov แบบย้อนกลับเป็น Gaussian อย่างไร:

pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))

ตอนนี้เราได้ระบุประเภทการทำงานแล้ว. แม้ว่าจะมีเทคนิคที่ซับซ้อนกว่าในการกำหนดพารามิเตอร์ แต่เราเพียงแค่ตั้งค่า

Σθ(xt, t) = σ 2 เสื้อ ฉัน

σ 2 t = βt

กล่าวอีกนัยหนึ่ง เราถือว่า Gaussian หลายตัวแปรเป็นผลมาจาก Gaussian ที่แยกจากกันโดยมีความแปรปรวนเท่ากัน ซึ่งเป็นค่าความแปรปรวนที่สามารถผันผวนตามกาลเวลา ส่วนเบี่ยงเบนเหล่านี้ถูกกำหนดให้ตรงกับตารางเวลาของการเบี่ยงเบนกระบวนการส่งต่อ

จากผลของสูตรใหม่นี้, เรามี:

pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t)) :=N (xt-1; µθ (xt, t), σ2 t I)

ส่งผลให้ฟังก์ชันการสูญเสียอื่นที่แสดงด้านล่าง ซึ่งผู้เขียนพบว่ามีการฝึกอบรมที่สอดคล้องกันมากขึ้นและผลลัพธ์ที่เหนือกว่า:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

ผู้เขียนยังได้ดึงความเชื่อมโยงระหว่างการกำหนดรูปแบบการแพร่กระจายและแบบจำลองการกำเนิดที่จับคู่คะแนนตาม Langevin เช่นเดียวกับการพัฒนาอิสระและขนานกันของฟิสิกส์ควอนตัมที่ใช้คลื่นและกลศาสตร์ควอนตัมแบบเมทริกซ์ ซึ่งเผยให้เห็นสูตรที่เปรียบเทียบกันได้สองสูตรของปรากฏการณ์เดียวกัน ปรากฏว่าแบบจำลองการแพร่กระจายและแบบจำลองตามคะแนนสามารถเป็นสองด้านของเหรียญเดียวกันได้

สถาปัตยกรรมเครือข่าย

แม้ว่าฟังก์ชันการสูญเสียการควบแน่นของเรามีเป้าหมายเพื่อฝึกโมเดล เเรายังไม่ได้ตัดสินใจเกี่ยวกับสถาปัตยกรรมของโมเดลนี้ โปรดทราบว่าโมเดลต้องมีขนาดอินพุตและเอาต์พุตเหมือนกัน

ด้วยข้อจำกัดนี้ จึงไม่น่าแปลกใจเลยที่สถาปัตยกรรมแบบ U-Net มักถูกใช้เพื่อสร้างแบบจำลองการกระจายภาพ

สถาปัตยกรรมเครือข่าย

มีการเปลี่ยนแปลงมากมายตามเส้นทางของกระบวนการย้อนกลับในขณะที่ใช้การแจกแจงแบบเกาส์เซียนแบบมีเงื่อนไขแบบต่อเนื่อง จำไว้ว่าเป้าหมายของขั้นตอนย้อนกลับคือการสร้างภาพที่ประกอบด้วยค่าพิกเซลจำนวนเต็ม การพิจารณาความเป็นไปได้ที่ไม่ต่อเนื่อง (บันทึก) สำหรับแต่ละค่าพิกเซลที่เป็นไปได้เหนือพิกเซลทั้งหมดจึงเป็นสิ่งจำเป็น

ซึ่งทำได้โดยการกำหนดตัวถอดรหัสแบบแยกแยกต่างหากให้กับการเปลี่ยนผ่านครั้งสุดท้ายของสายการแพร่แบบย้อนกลับ การประเมินโอกาสของภาพบางภาพ x0 กำหนด x1

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ ถ้า x = 1 x + 1 255 ถ้า x < 1 δ−(x) = −∞ ถ้า x = -1 x − 1 255 ถ้า x > -1

โดยที่ตัวยก I หมายถึงการแยกพิกัดหนึ่งตัว และ D หมายถึงจำนวนมิติในข้อมูล

วัตถุประสงค์ ณ จุดนี้คือเพื่อสร้างความน่าจะเป็นของค่าจำนวนเต็มแต่ละค่าสำหรับพิกเซลหนึ่งๆ โดยพิจารณาจากการกระจายค่าที่เป็นไปได้สำหรับพิกเซลนั้นในช่วงเวลาที่แปรผัน เสื้อ=1.

วัตถุประสงค์สุดท้าย

นักวิทยาศาสตร์กล่าวว่าผลลัพธ์ที่ยิ่งใหญ่ที่สุดนั้นมาจากการคาดการณ์องค์ประกอบสัญญาณรบกวนของภาพในช่วงเวลาหนึ่ง ในที่สุดพวกเขาใช้เป้าหมายต่อไปนี้:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

ในภาพต่อไปนี้ ขั้นตอนการฝึกอบรมและการสุ่มตัวอย่างสำหรับแบบจำลองการแพร่กระจายของเราได้รับการอธิบายไว้อย่างกระชับ:

วัตถุประสงค์สุดท้าย

ประโยชน์ของแบบจำลองการแพร่กระจาย

ตามที่ได้ระบุไว้แล้ว ปริมาณการวิจัยเกี่ยวกับแบบจำลองการแพร่กระจายได้เพิ่มขึ้นเป็นทวีคูณเมื่อเร็วๆ นี้ ขณะนี้โมเดลการแพร่กระจายให้คุณภาพของภาพที่ล้ำสมัยและได้รับแรงบันดาลใจจากเทอร์โมไดนามิกที่ไม่สมดุล

โมเดลการแพร่กระจายมีข้อดีอื่นๆ ที่หลากหลาย นอกเหนือจากการมีคุณภาพของภาพที่ล้ำสมัย เช่น ไม่ต้องการการฝึกอบรมจากฝ่ายตรงข้าม

ข้อเสียของการฝึกปรปักษ์นั้นเป็นที่รู้จักอย่างกว้างขวาง ดังนั้นจึงควรเลือกทางเลือกอื่นที่ไม่ใช่คู่ต่อสู้ที่มีประสิทธิภาพเทียบเท่าและประสิทธิผลในการฝึก

โมเดลการแพร่กระจายยังให้ข้อดีของความสามารถในการปรับขนาดและความเท่าเทียมในแง่ของประสิทธิภาพการฝึกอบรม

แม้ว่าแบบจำลองการแพร่กระจายจะสร้างผลลัพธ์ที่ดูเหมือนไม่ได้มาจากอากาศ แต่พื้นฐานของผลลัพธ์เหล่านี้มาจากการตัดสินใจและรายละเอียดทางคณิตศาสตร์ที่รอบคอบและน่าสนใจจำนวนหนึ่ง และแนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรมยังคงอยู่ระหว่างการพัฒนา

สรุป

โดยสรุป นักวิจัยได้สาธิตการค้นพบการสังเคราะห์ภาพคุณภาพสูงโดยใช้แบบจำลองความน่าจะเป็นแบบแพร่ ซึ่งเป็นกลุ่มของแบบจำลองตัวแปรแฝงซึ่งได้รับแรงบันดาลใจจากแนวคิดจากอุณหพลศาสตร์ที่ไม่สมดุล

พวกเขาประสบความสำเร็จอย่างมากจากผลลัพธ์อันล้ำสมัยและการฝึกอบรมที่ไม่เป็นปฏิปักษ์ และเมื่ออายุยังน้อย ความก้าวหน้าที่มากขึ้นอาจเกิดขึ้นในปีต่อๆ ไป

โดยเฉพาะอย่างยิ่ง มีการค้นพบว่าแบบจำลองการแพร่กระจายมีความสำคัญต่อการทำงานของรุ่นขั้นสูง เช่น DALL-E 2

Here คุณสามารถเข้าถึงการวิจัยฉบับสมบูรณ์ได้

บทนำสู่แบบจำลองการแพร่กระจาย

รูปแบบการแพร่กระจายคืออะไร?