ಸಾಮಾನ್ಯವಾಗಿ, GAN ಗಳು, VAE ಗಳು ಮತ್ತು ಆಟೋರೆಗ್ರೆಸಿವ್ ಮಾದರಿಗಳಂತಹ ಆಳವಾದ ಉತ್ಪಾದಕ ಮಾದರಿಗಳು ಚಿತ್ರ ಸಂಶ್ಲೇಷಣೆ ಸಮಸ್ಯೆಗಳನ್ನು ನಿಭಾಯಿಸುತ್ತವೆ.
ಅವರು ರಚಿಸುವ ದತ್ತಾಂಶದ ಉತ್ತಮ ಗುಣಮಟ್ಟವನ್ನು ಗಮನಿಸಿದರೆ, ಇತ್ತೀಚಿನ ವರ್ಷಗಳಲ್ಲಿ ಉತ್ಪಾದಕ ವಿರೋಧಿ ಜಾಲಗಳು (GAN ಗಳು) ಹೆಚ್ಚಿನ ಗಮನವನ್ನು ಪಡೆದಿವೆ.
ಪ್ರಸರಣ ಮಾದರಿಗಳು ಸ್ವತಃ ಸ್ಥಾಪಿಸಿದ ಮತ್ತೊಂದು ಆಕರ್ಷಕ ಅಧ್ಯಯನ ಕ್ಷೇತ್ರವಾಗಿದೆ. ಚಿತ್ರ, ವೀಡಿಯೊ ಮತ್ತು ಧ್ವನಿ ಉತ್ಪಾದನೆಯ ಕ್ಷೇತ್ರಗಳು ಇವೆರಡಕ್ಕೂ ವ್ಯಾಪಕವಾದ ಬಳಕೆಯನ್ನು ಕಂಡುಕೊಂಡಿವೆ.
ಪ್ರಸರಣ ಮಾದರಿಗಳು ವಿರುದ್ಧ GAN ಗಳು: ಯಾವುದು ಉತ್ತಮ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ? ಸ್ವಾಭಾವಿಕವಾಗಿ, ಇದು ನಿರಂತರ ಚರ್ಚೆಗೆ ಕಾರಣವಾಗಿದೆ.
GAN ಎಂದು ಕರೆಯಲ್ಪಡುವ ಕಂಪ್ಯೂಟೇಶನಲ್ ಆರ್ಕಿಟೆಕ್ಚರ್ನಲ್ಲಿ, ಎರಡು ನರಮಂಡಲ ಜಾಲಗಳು ನೈಜ ದತ್ತಾಂಶಕ್ಕಾಗಿ ರವಾನಿಸಬಹುದಾದ ಡೇಟಾದ ಹೊಸದಾಗಿ ಸಂಶ್ಲೇಷಿತ ನಿದರ್ಶನಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ಪರಸ್ಪರರ ವಿರುದ್ಧ ಹೋರಾಡಲಾಗುತ್ತದೆ.
ಸಂಗೀತ ಮತ್ತು ಗ್ರಾಫಿಕ್ಸ್ ಉತ್ಪಾದನೆಗೆ ತರಬೇತಿಯ ಸ್ಥಿರತೆ ಮತ್ತು ಹೆಚ್ಚಿನ ಫಲಿತಾಂಶಗಳನ್ನು ಒದಗಿಸುವುದರಿಂದ ಪ್ರಸರಣ ಮಾದರಿಗಳು ಹೆಚ್ಚು ಹೆಚ್ಚು ಜನಪ್ರಿಯವಾಗುತ್ತಿವೆ.
ಈ ಲೇಖನವು ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್ ಮತ್ತು GAN ಗಳ ಮೂಲಕ ವಿವರವಾಗಿ ಹೋಗುತ್ತದೆ, ಹಾಗೆಯೇ ಅವುಗಳು ಹೇಗೆ ಪರಸ್ಪರ ಭಿನ್ನವಾಗಿರುತ್ತವೆ ಮತ್ತು ಕೆಲವು ಇತರ ವಿಷಯಗಳು.
ಹಾಗಾದರೆ, ಜನರೇಟಿವ್ ಅಡ್ವರ್ಸರಿಯಲ್ ನೆಟ್ವರ್ಕ್ಗಳು ಯಾವುವು?
ನಿಜವಾದ ಡೇಟಾ ಎಂದು ತಪ್ಪಾಗಿ ಗ್ರಹಿಸಬಹುದಾದ ಹೊಸ, ಕೃತಕ ಡೇಟಾದ ನಿದರ್ಶನಗಳನ್ನು ರಚಿಸಲು, ಉತ್ಪಾದಕ ವಿರೋಧಿ ನೆಟ್ವರ್ಕ್ಗಳು (GAN ಗಳು) ಎರಡು ನರಗಳ ನೆಟ್ವರ್ಕ್ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತವೆ ಮತ್ತು ಅವುಗಳನ್ನು ಪರಸ್ಪರ ವಿರುದ್ಧವಾಗಿ ನಿಲ್ಲಿಸುತ್ತವೆ (ಹೀಗಾಗಿ ಹೆಸರಿನಲ್ಲಿ "ವಿರೋಧಿ").
ಅವುಗಳನ್ನು ಭಾಷಣ, ವೀಡಿಯೊ ಮತ್ತು ಚಿತ್ರ ರಚನೆಗೆ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ.
ನಿರ್ದಿಷ್ಟ ಡೇಟಾಸೆಟ್ನಿಂದ ಹಿಂದೆ ಕಂಡುಹಿಡಿಯದ ಡೇಟಾವನ್ನು ರಚಿಸುವುದು GAN ನ ಉದ್ದೇಶವಾಗಿದೆ. ಮಾದರಿಗಳಿಂದ ನಿಜವಾದ, ಗುರುತಿಸಲಾಗದ ಆಧಾರವಾಗಿರುವ ಡೇಟಾ ವಿತರಣೆಯ ಮಾದರಿಯನ್ನು ಊಹಿಸಲು ಪ್ರಯತ್ನಿಸುವುದು ಇದನ್ನು ಮಾಡುತ್ತದೆ.
ಪರ್ಯಾಯವಾಗಿ ಹೇಳುವುದಾದರೆ, ಈ ನೆಟ್ವರ್ಕ್ಗಳು ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ವಿತರಣೆಯನ್ನು ಕಲಿಯಲು ಪ್ರಯತ್ನಿಸುವ ಸೂಚ್ಯ ಮಾದರಿಗಳಾಗಿವೆ.
ಈ ಗುರಿಯನ್ನು ಹೇಗೆ ಸಾಧಿಸುವುದು ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯಲು GAN ಬಳಸಿದ ವಿಧಾನವು ಕಾದಂಬರಿಯಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ, ಅವರು ಸೂಚ್ಯ ಮಾದರಿಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಎರಡು ಆಟಗಾರರ ಆಟವನ್ನು ಆಡುವ ಮೂಲಕ ಡೇಟಾವನ್ನು ಉತ್ಪಾದಿಸುತ್ತಾರೆ.
ಕೆಳಗಿನವು ರಚನೆಯನ್ನು ವಿವರಿಸುತ್ತದೆ:
- ಅಧಿಕೃತ ಮತ್ತು ನಕಲಿ ಡೇಟಾದ ನಡುವೆ ವ್ಯತ್ಯಾಸವನ್ನು ತೋರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಪಡೆಯುವ ತಾರತಮ್ಯ
- ಡೇಟಾವನ್ನು ರಚಿಸಲು ಹೊಸ ಮಾರ್ಗಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಜನರೇಟರ್ ತಾರತಮ್ಯವನ್ನು ಮೋಸಗೊಳಿಸಬಹುದು.
ತಾರತಮ್ಯಕಾರನು ನರಮಂಡಲದಂತೆ ತೋರುತ್ತಾನೆ. ಆದ್ದರಿಂದ, ಜನರೇಟರ್ ಮೋಸಗೊಳಿಸಲು ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಚಿತ್ರವನ್ನು ರಚಿಸಬೇಕಾಗಿದೆ.
ಈ ಜನರೇಟರ್ಗಳು ಯಾವುದೇ ಔಟ್ಪುಟ್ ವಿತರಣೆಯನ್ನು ಬಳಸಿಕೊಂಡು ತರಬೇತಿ ಪಡೆದಿಲ್ಲ ಎಂಬುದು ಆಟೋಎನ್ಕೋಡರ್ ಮಾದರಿಗಳು ಮತ್ತು ಇತರ ಮಾದರಿಗಳ ನಡುವಿನ ಗಮನಾರ್ಹ ವ್ಯತ್ಯಾಸವಾಗಿದೆ.
ಮಾದರಿಯ ನಷ್ಟದ ಕಾರ್ಯವನ್ನು ಕೊಳೆಯಲು ಎರಡು ಮಾರ್ಗಗಳಿವೆ:
- ತಾರತಮ್ಯಕಾರರು ನೈಜ ಡೇಟಾವನ್ನು ನಿಖರವಾಗಿ ಊಹಿಸಿದರೆ ಪ್ರಮಾಣೀಕರಿಸುವ ಸಾಮರ್ಥ್ಯ
- ರಚಿತವಾದ ಡೇಟಾವನ್ನು ಒಂದು ಭಾಗದಿಂದ ನಿಖರವಾಗಿ ಊಹಿಸಲಾಗಿದೆ.
ಅತ್ಯುತ್ತಮ ಕಾರ್ಯಸಾಧ್ಯ ತಾರತಮ್ಯದಲ್ಲಿ, ಈ ನಷ್ಟದ ಕಾರ್ಯವನ್ನು ನಂತರ ಕಡಿಮೆಗೊಳಿಸಲಾಗುತ್ತದೆ:
ಆದ್ದರಿಂದ ಜೆನೆರಿಕ್ ಮಾದರಿಗಳನ್ನು ದೂರ ಕಡಿಮೆಗೊಳಿಸುವಿಕೆ ಮಾದರಿಗಳು ಮತ್ತು ತಾರತಮ್ಯವು ಆದರ್ಶವಾಗಿದ್ದರೆ, ನಿಜವಾದ ಮತ್ತು ಉತ್ಪತ್ತಿಯಾಗುವ ವಿತರಣೆಯ ನಡುವಿನ ವ್ಯತ್ಯಾಸವನ್ನು ಕಡಿಮೆಗೊಳಿಸುವಿಕೆ ಎಂದು ಪರಿಗಣಿಸಬಹುದು.
ವಾಸ್ತವದಲ್ಲಿ, ವಿಭಿನ್ನ ಭಿನ್ನತೆಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳಬಹುದು ಮತ್ತು ವಿವಿಧ GAN ತರಬೇತಿ ವಿಧಾನಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು.
ಜನರೇಟರ್ ಮತ್ತು ತಾರತಮ್ಯಕಾರರ ನಡುವಿನ ವ್ಯಾಪಾರ-ವಹಿವಾಟುಗಳನ್ನು ಒಳಗೊಂಡಿರುವ ಕಲಿಕೆಯ ಡೈನಾಮಿಕ್ಸ್, GAN ಗಳ ನಷ್ಟದ ಕಾರ್ಯವನ್ನು ಸರಿಹೊಂದಿಸಲು ಸರಳವಾಗಿದ್ದರೂ ಅನುಸರಿಸಲು ಸವಾಲಾಗಿದೆ.
ಕಲಿಕೆ ಒಮ್ಮುಖವಾಗುತ್ತದೆ ಎಂಬ ಭರವಸೆಯೂ ಇಲ್ಲ. ಪರಿಣಾಮವಾಗಿ, GAN ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡುವುದು ಕಷ್ಟಕರವಾಗಿದೆ, ಏಕೆಂದರೆ ಕಣ್ಮರೆಯಾಗುತ್ತಿರುವ ಗ್ರೇಡಿಯಂಟ್ಗಳು ಮತ್ತು ಮೋಡ್ ಕುಸಿತದಂತಹ ಸಮಸ್ಯೆಗಳ ಮೂಲಕ ಓಡುವುದು ವಿಶಿಷ್ಟವಾಗಿದೆ (ರಚಿತವಾದ ಮಾದರಿಗಳಲ್ಲಿ ಯಾವುದೇ ವೈವಿಧ್ಯತೆ ಇಲ್ಲದಿದ್ದಾಗ).
ಈಗ, ಇದು ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್ಗಳ ಸಮಯ
ಪ್ರಸರಣ ಮಾದರಿಗಳ ಅಭಿವೃದ್ಧಿಯ ಮೂಲಕ GAN ಗಳ ತರಬೇತಿ ಒಮ್ಮುಖದ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲಾಗಿದೆ.
ಈ ಮಾದರಿಗಳು ಪ್ರಸರಣ ಪ್ರಕ್ರಿಯೆಯು ಶಬ್ದದ ಪ್ರಗತಿಶೀಲ ಹಸ್ತಕ್ಷೇಪದಿಂದ ಉಂಟಾಗುವ ಮಾಹಿತಿ ನಷ್ಟಕ್ಕೆ ಸಮನಾಗಿರುತ್ತದೆ ಎಂದು ಊಹಿಸುತ್ತದೆ (ಪ್ರಸರಣ ಪ್ರಕ್ರಿಯೆಯ ಪ್ರತಿ ಹಂತದಲ್ಲೂ ಗಾಸಿಯನ್ ಶಬ್ದವನ್ನು ಸೇರಿಸಲಾಗುತ್ತದೆ).
ಮಾದರಿಯಲ್ಲಿರುವ ಮಾಹಿತಿಯ ಮೇಲೆ ಶಬ್ದವು ಹೇಗೆ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವುದು ಅಂತಹ ಮಾದರಿಯ ಉದ್ದೇಶವಾಗಿದೆ, ಅಥವಾ ಇನ್ನೊಂದು ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಪ್ರಸರಣದಿಂದಾಗಿ ಎಷ್ಟು ಮಾಹಿತಿಯು ಕಳೆದುಹೋಗುತ್ತದೆ.
ಒಂದು ಮಾದರಿಯು ಇದನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಾದರೆ, ಅದು ಮೂಲ ಮಾದರಿಯನ್ನು ಹಿಂಪಡೆಯಲು ಮತ್ತು ಸಂಭವಿಸಿದ ಮಾಹಿತಿ ನಷ್ಟವನ್ನು ರದ್ದುಗೊಳಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.
ಡಿನಾಯ್ಸಿಂಗ್ ಡಿಫ್ಯೂಷನ್ ಮಾದರಿಯ ಮೂಲಕ ಇದನ್ನು ಸಾಧಿಸಲಾಗುತ್ತದೆ. ಫಾರ್ವರ್ಡ್ ಡಿಫ್ಯೂಷನ್ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ರಿವರ್ಸ್ ಡಿಫ್ಯೂಷನ್ ಪ್ರಕ್ರಿಯೆಯು ಎರಡು ಹಂತಗಳನ್ನು ರೂಪಿಸುತ್ತದೆ.
ಫಾರ್ವರ್ಡ್ ಡಿಫ್ಯೂಷನ್ ಪ್ರಕ್ರಿಯೆಯು ಗಸ್ಸಿಯನ್ ಶಬ್ದವನ್ನು (ಅಂದರೆ, ಪ್ರಸರಣ ಪ್ರಕ್ರಿಯೆ) ಕ್ರಮೇಣವಾಗಿ ಸೇರಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ದತ್ತಾಂಶವು ಶಬ್ದದಿಂದ ಸಂಪೂರ್ಣವಾಗಿ ಕಲುಷಿತಗೊಳ್ಳುತ್ತದೆ.
ನರಗಳ ಜಾಲವನ್ನು ತರುವಾಯ ರಿವರ್ಸ್ ಡಿಫ್ಯೂಷನ್ ವಿಧಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಶಬ್ಧವನ್ನು ಹಿಮ್ಮೆಟ್ಟಿಸಲು ಷರತ್ತುಬದ್ಧ ವಿತರಣೆಯ ಸಂಭವನೀಯತೆಗಳನ್ನು ಕಲಿಯಲು ತರಬೇತಿ ನೀಡಲಾಗುತ್ತದೆ.
ಇಲ್ಲಿ ನೀವು ಅದರ ಬಗ್ಗೆ ಹೆಚ್ಚು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು ಪ್ರಸರಣ ಮಾದರಿ.
ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್ Vs GAN ಗಳು
ಪ್ರಸರಣ ಮಾದರಿಯಂತೆ, GAN ಗಳು ಶಬ್ದದಿಂದ ಚಿತ್ರಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ.
ಮಾದರಿಯು ಜನರೇಟರ್ ನ್ಯೂರಲ್ ನೆಟ್ವರ್ಕ್ನಿಂದ ಮಾಡಲ್ಪಟ್ಟಿದೆ, ಇದು ಕ್ಲಾಸ್ ಲೇಬಲ್ ಅಥವಾ ಪಠ್ಯ ಎನ್ಕೋಡಿಂಗ್ನಂತಹ ಕೆಲವು ಮಾಹಿತಿಯುಕ್ತ ಕಂಡೀಷನಿಂಗ್ ವೇರಿಯಬಲ್ನ ಶಬ್ದದಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.
ಫಲಿತಾಂಶವು ವಾಸ್ತವಿಕ ಚಿತ್ರವನ್ನು ಹೋಲುವ ಏನಾದರೂ ಆಗಿರಬೇಕು.
ಫೋಟೊರಿಯಲಿಸ್ಟಿಕ್ ಮತ್ತು ಹೈ-ಫಿಡೆಲಿಟಿ ಪಿಕ್ಚರ್ ಪೀಳಿಗೆಯನ್ನು ರಚಿಸಲು, ನಾವು GAN ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತೇವೆ. GAN ಗಳಿಗಿಂತ ಹೆಚ್ಚು ವಾಸ್ತವಿಕ ದೃಶ್ಯಗಳನ್ನು ಪ್ರಸರಣ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಉತ್ಪಾದಿಸಲಾಗುತ್ತದೆ.
ಒಂದು ರೀತಿಯಲ್ಲಿ, ಸತ್ಯಗಳನ್ನು ವಿವರಿಸುವಲ್ಲಿ ಪ್ರಸರಣ ಮಾದರಿಗಳು ಹೆಚ್ಚು ನಿಖರವಾಗಿರುತ್ತವೆ.
GAN ಇನ್ಪುಟ್ ಯಾದೃಚ್ಛಿಕ ಶಬ್ದ ಅಥವಾ ವರ್ಗ ಕಂಡೀಷನಿಂಗ್ ವೇರಿಯೇಬಲ್ ಆಗಿ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ವಾಸ್ತವಿಕ ಮಾದರಿಯನ್ನು ಔಟ್ಪುಟ್ ಮಾಡುತ್ತದೆ, ಪ್ರಸರಣ ಮಾದರಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ನಿಧಾನವಾಗಿರುತ್ತವೆ, ಪುನರಾವರ್ತನೆಯಾಗಿರುತ್ತವೆ ಮತ್ತು ಹೆಚ್ಚಿನ ಮಾರ್ಗದರ್ಶನದ ಅಗತ್ಯವಿರುತ್ತದೆ.
ಶಬ್ದದಿಂದ ಮೂಲ ಚಿತ್ರಕ್ಕೆ ಹಿಂತಿರುಗುವ ಗುರಿಯೊಂದಿಗೆ ಪದೇ ಪದೇ ಡಿನಾಯ್ಸಿಂಗ್ ಅನ್ನು ಅನ್ವಯಿಸಿದಾಗ ದೋಷಕ್ಕೆ ಹೆಚ್ಚಿನ ಸ್ಥಳವಿಲ್ಲ.
ಪ್ರತಿಯೊಂದು ಚೆಕ್ಪಾಯಿಂಟ್ ರಚನೆಯ ಹಂತದ ಉದ್ದಕ್ಕೂ ಹಾದುಹೋಗುತ್ತದೆ ಮತ್ತು ಪ್ರತಿ ಹಂತದಲ್ಲೂ ಚಿತ್ರವು ಹೆಚ್ಚು ಹೆಚ್ಚು ಮಾಹಿತಿಯನ್ನು ಪಡೆಯಬಹುದು.
ತೀರ್ಮಾನ
ಕೊನೆಯಲ್ಲಿ, 2020 ಮತ್ತು 2021 ರಲ್ಲಿ ಪ್ರಕಟವಾದ ಕೆಲವು ಮಹತ್ವದ ಸಂಶೋಧನೆಗಳ ಕಾರಣದಿಂದಾಗಿ, ಪ್ರಸರಣ ಮಾದರಿಗಳು ಈಗ ಚಿತ್ರ ಸಂಶ್ಲೇಷಣೆಯ ವಿಷಯದಲ್ಲಿ GAN ಗಳನ್ನು ಮೀರಿಸಬಹುದು.
ಈ ವರ್ಷ, OpenAI ಅನ್ನು ಪ್ರಾರಂಭಿಸಲಾಯಿತು DALL-E2, ಅಭ್ಯಾಸಕಾರರು ಪ್ರಸರಣ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳಲು ಅನುಮತಿಸುವ ಚಿತ್ರ ನಿರ್ಮಾಣ ಮಾದರಿ.
GAN ಗಳು ಅತ್ಯಾಧುನಿಕವಾಗಿದ್ದರೂ, ಅವುಗಳ ನಿರ್ಬಂಧಗಳು ಅವುಗಳನ್ನು ಹೊಸ ಸಂದರ್ಭಗಳಲ್ಲಿ ಅಳೆಯಲು ಮತ್ತು ಬಳಸಲು ಸವಾಲಾಗಿಸುತ್ತವೆ.
ಸಂಭವನೀಯತೆ-ಆಧಾರಿತ ಮಾದರಿಗಳನ್ನು ಬಳಸಿಕೊಂಡು GAN-ತರಹದ ಮಾದರಿ ಗುಣಮಟ್ಟವನ್ನು ಸಾಧಿಸಲು, ಅದರಲ್ಲಿ ಬಹಳಷ್ಟು ಕೆಲಸವನ್ನು ಹಾಕಲಾಗಿದೆ.
ಪ್ರತ್ಯುತ್ತರ ನೀಡಿ