ในช่วงไม่กี่ปีที่ผ่านมา แบบจำลองกำเนิดที่เรียกว่า "แบบจำลองการแพร่กระจาย" ได้รับความนิยมเพิ่มขึ้นและมีสาเหตุที่ดี
โลกได้เห็นแล้วว่าแบบจำลองการแพร่กระจายสามารถทำอะไรได้บ้าง เช่น GAN ที่มีประสิทธิภาพสูงในการสังเคราะห์ภาพ ต้องขอบคุณสิ่งพิมพ์สำคัญเพียงไม่กี่ฉบับที่เผยแพร่ในช่วงปี 2020 และ 2021
ผู้ปฏิบัติงานล่าสุดเห็นการใช้แบบจำลองการแพร่กระจายใน DALL-E2, โมเดลการสร้างภาพของ OpenAI ที่เผยแพร่เมื่อเดือนที่แล้ว
ผู้ปฏิบัติงานแมชชีนเลิร์นนิงหลายคนสงสัยสงสัยเกี่ยวกับการทำงานภายในของโมเดลการแพร่กระจายเนื่องจากความสำเร็จที่เพิ่มขึ้นอย่างรวดเร็ว
ในบทความนี้ เราจะมาดูรากฐานทางทฤษฎีของแบบจำลองการแพร่กระจาย การออกแบบ ข้อดี และอื่นๆ อีกมากมาย ไปกันเถอะ
รูปแบบการแพร่กระจายคืออะไร?
เริ่มต้นด้วยการหาว่าทำไมแบบจำลองนี้จึงถูกเรียกว่าแบบจำลองการแพร่กระจาย
คำที่เกี่ยวข้องกับอุณหพลศาสตร์ในชั้นเรียนฟิสิกส์เรียกว่าการแพร่ ระบบจะไม่สมดุลหากมีความเข้มข้นของวัสดุ เช่น กลิ่น อยู่ในที่เดียว
การแพร่กระจายจะต้องเกิดขึ้นเพื่อให้ระบบเข้าสู่สมดุล โมเลกุลของกลิ่นจะกระจายไปทั่วระบบจากบริเวณที่มีความเข้มข้นสูง ทำให้ระบบมีความสม่ำเสมอตลอด
ในที่สุดทุกอย่างจะกลายเป็นเนื้อเดียวกันเนื่องจากการแพร่ระบาด
แบบจำลองการแพร่กระจายได้รับแรงบันดาลใจจากสภาวะที่ไม่สมดุลทางอุณหพลศาสตร์นี้ แบบจำลองการแพร่กระจายใช้สายโซ่ Markov ซึ่งเป็นชุดของตัวแปรที่ค่าของตัวแปรแต่ละตัวขึ้นอยู่กับสถานะของเหตุการณ์ก่อนหน้า
ในการถ่ายภาพ เราได้เพิ่มจุดรบกวนจำนวนหนึ่งเข้าไปอย่างต่อเนื่องตลอดระยะการแพร่กระจายไปข้างหน้า
หลังจากเก็บภาพที่มีสัญญาณรบกวนมากขึ้นแล้ว เราก็ดำเนินการสร้างภาพที่ตามมาในซีรีส์โดยเพิ่มจุดรบกวนเพิ่มเติม
หลายครั้ง ขั้นตอนนี้เสร็จสิ้น ภาพนอยส์บริสุทธิ์เกิดจากการทำซ้ำวิธีนี้สองสามครั้ง
เราจะสร้างรูปภาพจากภาพที่รกนี้ได้อย่างไร
กระบวนการแพร่กลับตรงกันข้ามโดยใช้ a เครือข่ายประสาท. เครือข่ายเดียวกันและน้ำหนักเท่ากันถูกใช้ในกระบวนการแพร่ย้อนกลับเพื่อสร้างรูปภาพจาก t ถึง t-1
แทนที่จะปล่อยให้เครือข่ายคาดการณ์ภาพ เราสามารถคาดเดาสัญญาณรบกวนในแต่ละขั้นตอน ซึ่งจะต้องถูกลบออกจากภาพ เพื่อทำให้งานง่ายขึ้น
ในสถานการณ์ใด ๆ การออกแบบโครงข่ายประสาทเทียม ต้องเลือกในลักษณะที่รักษามิติข้อมูล
เจาะลึกโมเดลการแพร่กระจาย
ส่วนประกอบของแบบจำลองการแพร่กระจายเป็นกระบวนการไปข้างหน้า (หรือที่เรียกว่ากระบวนการแพร่กระจาย) โดยที่จุดอ้าง (มักจะเป็นภาพ) จะถูกรบกวนอย่างค่อยเป็นค่อยไป และกระบวนการย้อนกลับ (หรือที่เรียกว่ากระบวนการแพร่กระจายย้อนกลับ) ซึ่งมีสัญญาณรบกวน แปลงกลับเป็นตัวอย่างจากการกระจายเป้าหมาย
เมื่อระดับเสียงต่ำเพียงพอ สามารถใช้ Gaussians แบบมีเงื่อนไขเพื่อสร้างการเปลี่ยนลูกโซ่การสุ่มตัวอย่างในกระบวนการไปข้างหน้า การกำหนดพารามิเตอร์อย่างง่ายของกระบวนการส่งต่อเป็นผลมาจากการผสมผสานความรู้นี้กับสมมติฐานของ Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt-1) := N (xt; p 1 − βtxt−1, βtI)
Here 1 ….T คือตารางความแปรปรวน (ไม่ว่าจะเรียนรู้หรือตายตัว) ที่รับรองว่าสำหรับ T ที่สูงเพียงพอ xT จะเป็นค่า Gaussian แบบไอโซโทรปิก
กระบวนการที่ตรงกันข้ามคือการที่มายากลรูปแบบการแพร่กระจายเกิดขึ้น โมเดลเรียนรู้ที่จะย้อนกลับกระบวนการแพร่กระจายนี้ในระหว่างการฝึกอบรม เพื่อสร้างข้อมูลใหม่ โมเดลเรียนรู้การแจกแจงร่วมกันเป็น (x0:ท) ผลลัพธ์ของการเริ่มต้นด้วยสมการเสียงเกาส์เซียนบริสุทธิ์
(xT):=ยังไม่มีข้อความ(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt-1|xt), pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ( xt, t))
ที่ซึ่งพบพารามิเตอร์ที่ขึ้นกับเวลาของการเปลี่ยนภาพแบบเกาส์เซียน โดยเฉพาะอย่างยิ่ง ให้สังเกตว่าสูตร Markov ระบุว่าการกระจายการเปลี่ยนผ่านของการแพร่กระจายแบบย้อนกลับนั้นขึ้นอยู่กับขั้นตอนก่อนหน้าเท่านั้น (หรือขั้นตอนเวลาที่ตามมา ขึ้นอยู่กับว่าคุณมองอย่างไร):
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
การฝึกโมเดล
แบบจำลอง Markov แบบย้อนกลับที่เพิ่มความน่าจะเป็นของข้อมูลการฝึกสูงสุดนั้นใช้เพื่อฝึกแบบจำลองการแพร่กระจาย ในทางปฏิบัติ การฝึกนั้นคล้ายคลึงกับการลดขอบเขตบนที่แปรผันบนความน่าจะเป็นของบันทึกเชิงลบ
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 บันทึก pθ(xt-1|xt) q (xt|xt-1) =: L
Models
ตอนนี้ เราต้องตัดสินใจว่าจะดำเนินการอย่างไร โมเดลการแพร่กระจายของเรา หลังจากสร้างรากฐานทางคณิตศาสตร์ของฟังก์ชันเป้าหมายของเราแล้ว การตัดสินใจเพียงอย่างเดียวที่จำเป็นสำหรับกระบวนการส่งต่อคือการกำหนดกำหนดการความแปรปรวน ซึ่งโดยปกติแล้วค่าจะเพิ่มขึ้นในระหว่างขั้นตอน
เราพิจารณาอย่างยิ่งที่จะใช้การกำหนดพารามิเตอร์การกระจายแบบเกาส์เซียนและสถาปัตยกรรมแบบจำลองสำหรับขั้นตอนย้อนกลับ
เงื่อนไขเดียวของการออกแบบของเราคือทั้งอินพุตและเอาต์พุตมีขนาดเท่ากัน สิ่งนี้เน้นย้ำถึงระดับความอิสระมหาศาลที่โมเดลการแพร่มีให้
ด้านล่างนี้ เราจะเจาะลึกยิ่งขึ้นเกี่ยวกับตัวเลือกเหล่านี้
ส่งต่อกระบวนการ
เราต้องจัดเตรียมกำหนดการความแปรปรวนที่เกี่ยวข้องกับกระบวนการส่งต่อ เราตั้งค่าให้เป็นค่าคงที่ที่ขึ้นกับเวลาโดยเฉพาะ และไม่คำนึงถึงความเป็นไปได้ที่จะเรียนรู้ได้ กำหนดการจาก
β1 = 10-4 ถึง βT = 0.02.
Lt จะกลายเป็นค่าคงที่เมื่อเทียบกับชุดพารามิเตอร์ที่เรียนรู้ได้ของเราเนื่องจากกำหนดการความแปรปรวนคงที่ ทำให้เราไม่ต้องสนใจในระหว่างการฝึกอบรมโดยไม่คำนึงถึงค่าเฉพาะที่เลือก
ย้อนกลับกระบวนการ
ตอนนี้เรามาดูการตัดสินใจที่จำเป็นในการกำหนดกระบวนการย้อนกลับ จำไว้ว่าเราอธิบายการเปลี่ยนผ่านของ Markov แบบย้อนกลับเป็น Gaussian อย่างไร:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
ตอนนี้เราได้ระบุประเภทการทำงานแล้ว. แม้ว่าจะมีเทคนิคที่ซับซ้อนกว่าในการกำหนดพารามิเตอร์ แต่เราเพียงแค่ตั้งค่า
Σθ(xt, t) = σ 2 เสื้อ ฉัน
σ 2 t = βt
กล่าวอีกนัยหนึ่ง เราถือว่า Gaussian หลายตัวแปรเป็นผลมาจาก Gaussian ที่แยกจากกันโดยมีความแปรปรวนเท่ากัน ซึ่งเป็นค่าความแปรปรวนที่สามารถผันผวนตามกาลเวลา ส่วนเบี่ยงเบนเหล่านี้ถูกกำหนดให้ตรงกับตารางเวลาของการเบี่ยงเบนกระบวนการส่งต่อ
จากผลของสูตรใหม่นี้, เรามี:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t)) :=N (xt-1; µθ (xt, t), σ2 t I)
ส่งผลให้ฟังก์ชันการสูญเสียอื่นที่แสดงด้านล่าง ซึ่งผู้เขียนพบว่ามีการฝึกอบรมที่สอดคล้องกันมากขึ้นและผลลัพธ์ที่เหนือกว่า:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
ผู้เขียนยังได้ดึงความเชื่อมโยงระหว่างการกำหนดรูปแบบการแพร่กระจายและแบบจำลองการกำเนิดที่จับคู่คะแนนตาม Langevin เช่นเดียวกับการพัฒนาอิสระและขนานกันของฟิสิกส์ควอนตัมที่ใช้คลื่นและกลศาสตร์ควอนตัมแบบเมทริกซ์ ซึ่งเผยให้เห็นสูตรที่เปรียบเทียบกันได้สองสูตรของปรากฏการณ์เดียวกัน ปรากฏว่าแบบจำลองการแพร่กระจายและแบบจำลองตามคะแนนสามารถเป็นสองด้านของเหรียญเดียวกันได้
สถาปัตยกรรมเครือข่าย
แม้ว่าฟังก์ชันการสูญเสียการควบแน่นของเรามีเป้าหมายเพื่อฝึกโมเดล เเรายังไม่ได้ตัดสินใจเกี่ยวกับสถาปัตยกรรมของโมเดลนี้ โปรดทราบว่าโมเดลต้องมีขนาดอินพุตและเอาต์พุตเหมือนกัน
ด้วยข้อจำกัดนี้ จึงไม่น่าแปลกใจเลยที่สถาปัตยกรรมแบบ U-Net มักถูกใช้เพื่อสร้างแบบจำลองการกระจายภาพ
มีการเปลี่ยนแปลงมากมายตามเส้นทางของกระบวนการย้อนกลับในขณะที่ใช้การแจกแจงแบบเกาส์เซียนแบบมีเงื่อนไขแบบต่อเนื่อง จำไว้ว่าเป้าหมายของขั้นตอนย้อนกลับคือการสร้างภาพที่ประกอบด้วยค่าพิกเซลจำนวนเต็ม การพิจารณาความเป็นไปได้ที่ไม่ต่อเนื่อง (บันทึก) สำหรับแต่ละค่าพิกเซลที่เป็นไปได้เหนือพิกเซลทั้งหมดจึงเป็นสิ่งจำเป็น
ซึ่งทำได้โดยการกำหนดตัวถอดรหัสแบบแยกแยกต่างหากให้กับการเปลี่ยนผ่านครั้งสุดท้ายของสายการแพร่แบบย้อนกลับ การประเมินโอกาสของภาพบางภาพ x0 กำหนด x1
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ถ้า x = 1 x + 1 255 ถ้า x < 1 δ−(x) = −∞ ถ้า x = -1 x − 1 255 ถ้า x > -1
โดยที่ตัวยก I หมายถึงการแยกพิกัดหนึ่งตัว และ D หมายถึงจำนวนมิติในข้อมูล
วัตถุประสงค์ ณ จุดนี้คือเพื่อสร้างความน่าจะเป็นของค่าจำนวนเต็มแต่ละค่าสำหรับพิกเซลหนึ่งๆ โดยพิจารณาจากการกระจายค่าที่เป็นไปได้สำหรับพิกเซลนั้นในช่วงเวลาที่แปรผัน เสื้อ=1.
วัตถุประสงค์สุดท้าย
นักวิทยาศาสตร์กล่าวว่าผลลัพธ์ที่ยิ่งใหญ่ที่สุดนั้นมาจากการคาดการณ์องค์ประกอบสัญญาณรบกวนของภาพในช่วงเวลาหนึ่ง ในที่สุดพวกเขาใช้เป้าหมายต่อไปนี้:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
ในภาพต่อไปนี้ ขั้นตอนการฝึกอบรมและการสุ่มตัวอย่างสำหรับแบบจำลองการแพร่กระจายของเราได้รับการอธิบายไว้อย่างกระชับ:
ประโยชน์ของแบบจำลองการแพร่กระจาย
ตามที่ได้ระบุไว้แล้ว ปริมาณการวิจัยเกี่ยวกับแบบจำลองการแพร่กระจายได้เพิ่มขึ้นเป็นทวีคูณเมื่อเร็วๆ นี้ ขณะนี้โมเดลการแพร่กระจายให้คุณภาพของภาพที่ล้ำสมัยและได้รับแรงบันดาลใจจากเทอร์โมไดนามิกที่ไม่สมดุล
โมเดลการแพร่กระจายมีข้อดีอื่นๆ ที่หลากหลาย นอกเหนือจากการมีคุณภาพของภาพที่ล้ำสมัย เช่น ไม่ต้องการการฝึกอบรมจากฝ่ายตรงข้าม
ข้อเสียของการฝึกปรปักษ์นั้นเป็นที่รู้จักอย่างกว้างขวาง ดังนั้นจึงควรเลือกทางเลือกอื่นที่ไม่ใช่คู่ต่อสู้ที่มีประสิทธิภาพเทียบเท่าและประสิทธิผลในการฝึก
โมเดลการแพร่กระจายยังให้ข้อดีของความสามารถในการปรับขนาดและความเท่าเทียมในแง่ของประสิทธิภาพการฝึกอบรม
แม้ว่าแบบจำลองการแพร่กระจายจะสร้างผลลัพธ์ที่ดูเหมือนไม่ได้มาจากอากาศ แต่พื้นฐานของผลลัพธ์เหล่านี้มาจากการตัดสินใจและรายละเอียดทางคณิตศาสตร์ที่รอบคอบและน่าสนใจจำนวนหนึ่ง และแนวทางปฏิบัติที่ดีที่สุดในอุตสาหกรรมยังคงอยู่ระหว่างการพัฒนา
สรุป
โดยสรุป นักวิจัยได้สาธิตการค้นพบการสังเคราะห์ภาพคุณภาพสูงโดยใช้แบบจำลองความน่าจะเป็นแบบแพร่ ซึ่งเป็นกลุ่มของแบบจำลองตัวแปรแฝงซึ่งได้รับแรงบันดาลใจจากแนวคิดจากอุณหพลศาสตร์ที่ไม่สมดุล
พวกเขาประสบความสำเร็จอย่างมากจากผลลัพธ์อันล้ำสมัยและการฝึกอบรมที่ไม่เป็นปฏิปักษ์ และเมื่ออายุยังน้อย ความก้าวหน้าที่มากขึ้นอาจเกิดขึ้นในปีต่อๆ ไป
โดยเฉพาะอย่างยิ่ง มีการค้นพบว่าแบบจำลองการแพร่กระจายมีความสำคัญต่อการทำงานของรุ่นขั้นสูง เช่น DALL-E 2
Here คุณสามารถเข้าถึงการวิจัยฉบับสมบูรณ์ได้
เขียนความเห็น