ಓಪನ್ AI ಗ್ಲೈಡ್ (ಡಿಫ್ಯೂಷನ್) - ಕೇವಲ ಒಂದು ಪಠ್ಯ ಇನ್‌ಪುಟ್‌ನೊಂದಿಗೆ ಇಮೇಜ್ ಜನರೇಷನ್

ಪರಿವಿಡಿ[ಮರೆಮಾಡಿ][ತೋರಿಸಿ]

ಓಪನ್ ಎಐ ಗ್ಲೈಡ್ ಎಂದರೇನು?
ಗ್ಲೈಡ್ ಆರ್ಕಿಟೆಕ್ಚರ್
ಪ್ರಸರಣ ಮಾದರಿ
ಗ್ಲೈಡ್ ಸಾಮರ್ಥ್ಯಗಳು+-
- 1. ಚಿತ್ರದ ಜನರೇಷನ್
- 2. ಗ್ಲೈಡ್ ಇನ್‌ಪೇಂಟಿಂಗ್
ತೀರ್ಮಾನ

ಕಂಪ್ಯೂಟರ್ ಚಿತ್ರವನ್ನು ವಿವರಿಸಬಹುದು ಎಂದು ನೀವು ಹೆಚ್ಚಾಗಿ ತಿಳಿದಿರುತ್ತೀರಿ.

ಉದಾಹರಣೆಗೆ, ನಿಮ್ಮ ಮಕ್ಕಳೊಂದಿಗೆ ಆಟವಾಡುತ್ತಿರುವ ನಾಯಿಯ ಚಿತ್ರವನ್ನು 'ತೋಟದಲ್ಲಿ ನಾಯಿ ಮತ್ತು ಮಕ್ಕಳು' ಎಂದು ಅನುವಾದಿಸಬಹುದು. ಆದರೆ ಇದಕ್ಕೆ ವಿರುದ್ಧವಾದ ಮಾರ್ಗವು ಈಗ ಕಾರ್ಯಸಾಧ್ಯವಾಗಿದೆ ಎಂದು ನಿಮಗೆ ತಿಳಿದಿದೆಯೇ? ನೀವು ಕೆಲವು ಪದಗಳನ್ನು ಟೈಪ್ ಮಾಡಿ ಮತ್ತು ಯಂತ್ರವು ಹೊಸ ಚಿತ್ರವನ್ನು ರಚಿಸುತ್ತದೆ.

ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಛಾಯಾಚಿತ್ರಗಳನ್ನು ಹುಡುಕುವ Google ಹುಡುಕಾಟದಂತೆ, ಇದೆಲ್ಲವೂ ತಾಜಾವಾಗಿದೆ. ಇತ್ತೀಚಿನ ವರ್ಷಗಳಲ್ಲಿ, OpenAI ಪ್ರಮುಖ ಸಂಸ್ಥೆಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ, ಅದ್ಭುತ ಫಲಿತಾಂಶಗಳನ್ನು ವರದಿ ಮಾಡಿದೆ.

ಅವರು ತಮ್ಮ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಬೃಹತ್ ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರ ಡೇಟಾಬೇಸ್‌ಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡುತ್ತಾರೆ. ಅವರು ತಮ್ಮ GLIDE ಇಮೇಜ್ ಮಾದರಿಯಲ್ಲಿ ಒಂದು ಕಾಗದವನ್ನು ಪ್ರಕಟಿಸಿದರು, ಇದು ನೂರಾರು ಮಿಲಿಯನ್ ಫೋಟೋಗಳ ಮೇಲೆ ತರಬೇತಿ ಪಡೆದಿದೆ. ಫೋಟೊರಿಯಲಿಸಂನ ವಿಷಯದಲ್ಲಿ, ಇದು ಅವರ ಹಿಂದಿನ 'DALL-E' ಮಾದರಿಯನ್ನು ಮೀರಿಸುತ್ತದೆ.

ಈ ಪೋಸ್ಟ್‌ನಲ್ಲಿ, ಪಠ್ಯ-ನಿರ್ದೇಶಿತ ಪ್ರಸರಣ ಮಾದರಿಗಳೊಂದಿಗೆ ಫೋಟೋರಿಯಾಲಿಸ್ಟಿಕ್ ಚಿತ್ರಗಳನ್ನು ಉತ್ಪಾದಿಸುವ ಮತ್ತು ಬದಲಾಯಿಸುವ ಗುರಿಯನ್ನು ಹೊಂದಿರುವ ಹಲವಾರು ಆಕರ್ಷಕ ಉಪಕ್ರಮಗಳಲ್ಲಿ ಒಂದಾದ OpenAI ನ GLIDE ಅನ್ನು ನಾವು ನೋಡುತ್ತೇವೆ. ಆರಂಭಿಸೋಣ.

ಏನದು AI ಗ್ಲೈಡ್ ತೆರೆಯಿರಿ?

ಹೆಚ್ಚಿನ ಚಿತ್ರಗಳನ್ನು ಪದಗಳಲ್ಲಿ ವಿವರಿಸಬಹುದಾದರೂ, ಪಠ್ಯ ಇನ್‌ಪುಟ್‌ಗಳಿಂದ ಚಿತ್ರಗಳನ್ನು ರಚಿಸುವುದು ವಿಶೇಷ ಜ್ಞಾನ ಮತ್ತು ಗಮನಾರ್ಹ ಸಮಯದ ಅಗತ್ಯವಿರುತ್ತದೆ.

ನೈಸರ್ಗಿಕ ಭಾಷಾ ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಂದ ಫೋಟೊರಿಯಲಿಸ್ಟಿಕ್ ಚಿತ್ರಗಳನ್ನು ತಯಾರಿಸಲು AI ಏಜೆಂಟ್‌ಗೆ ಅವಕಾಶ ನೀಡುವುದರಿಂದ ಜನರು ಅಭೂತಪೂರ್ವ ಸುಲಭವಾಗಿ ಶ್ರೀಮಂತ ಮತ್ತು ವೈವಿಧ್ಯಮಯ ದೃಶ್ಯ ವಸ್ತುಗಳನ್ನು ರಚಿಸಲು ಅನುಮತಿಸುತ್ತದೆ ಆದರೆ ಸರಳವಾದ ಪುನರಾವರ್ತಿತ ಪರಿಷ್ಕರಣೆ ಮತ್ತು ರಚಿಸಿದ ಚಿತ್ರಗಳ ಸೂಕ್ಷ್ಮ-ಧಾನ್ಯದ ನಿಯಂತ್ರಣವನ್ನು ಅನುಮತಿಸುತ್ತದೆ.

ಹೊಸ ವಸ್ತುಗಳನ್ನು ಸೇರಿಸಲು, ನೆರಳುಗಳು ಮತ್ತು ಪ್ರತಿಫಲನಗಳನ್ನು ರಚಿಸಲು, ನಿರ್ವಹಿಸಲು ನೈಸರ್ಗಿಕ ಭಾಷೆಯ ಪಠ್ಯ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಫೋಟೋಗಳನ್ನು ಸಂಪಾದಿಸಲು GLIDE ಅನ್ನು ಬಳಸಬಹುದು ಚಿತ್ರ ಚಿತ್ರಕಲೆ, ಮತ್ತು ಇತ್ಯಾದಿ.

ಇದು ಮೂಲ ರೇಖಾ ಚಿತ್ರಗಳನ್ನು ಫೋಟೊರಿಯಲಿಸ್ಟಿಕ್ ಛಾಯಾಚಿತ್ರಗಳಾಗಿ ಪರಿವರ್ತಿಸಬಹುದು ಮತ್ತು ಸಂಕೀರ್ಣ ಸಂದರ್ಭಗಳಲ್ಲಿ ಅಸಾಧಾರಣವಾದ ಶೂನ್ಯ-ಮಾದರಿ ತಯಾರಿಕೆ ಮತ್ತು ದುರಸ್ತಿ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಹೊಂದಿದೆ.

ಇತ್ತೀಚಿನ ಸಂಶೋಧನೆಯು ಸಂಭವನೀಯ-ಆಧಾರಿತ ಪ್ರಸರಣ ಮಾದರಿಗಳು ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಸಂಶ್ಲೇಷಿತ ಚಿತ್ರಗಳನ್ನು ಸಹ ಉತ್ಪಾದಿಸಬಹುದು ಎಂದು ತೋರಿಸಿದೆ, ವಿಶೇಷವಾಗಿ ವಿವಿಧ ಮತ್ತು ನಿಷ್ಠೆಯನ್ನು ಸಮತೋಲನಗೊಳಿಸುವ ಮಾರ್ಗದರ್ಶಿ ವಿಧಾನದೊಂದಿಗೆ ಸಂಯೋಜಿಸಿದಾಗ.

AI ಗ್ಲೈಡ್ ತೆರೆಯಿರಿ

OpenAI ಪ್ರಕಟಿಸಿದ a ಮಾರ್ಗದರ್ಶಿ ಪ್ರಸರಣ ಮಾದರಿ ಮೇ ತಿಂಗಳಲ್ಲಿ, ಇದು ಪ್ರಸರಣ ಮಾದರಿಗಳನ್ನು ವರ್ಗೀಕರಣದ ಲೇಬಲ್‌ಗಳ ಮೇಲೆ ಷರತ್ತುಬದ್ಧವಾಗಿರಲು ಅನುಮತಿಸುತ್ತದೆ. ಪಠ್ಯ-ಷರತ್ತುಬದ್ಧ ಚಿತ್ರ ರಚನೆಯ ಸಮಸ್ಯೆಗೆ ಮಾರ್ಗದರ್ಶಿ ಪ್ರಸರಣವನ್ನು ತರುವ ಮೂಲಕ GLIDE ಈ ಯಶಸ್ಸಿನ ಮೇಲೆ ಸುಧಾರಿಸುತ್ತದೆ.

3.5 ಶತಕೋಟಿ ಪ್ಯಾರಾಮೀಟರ್ ಗ್ಲೈಡ್ ಡಿಫ್ಯೂಷನ್ ಮಾದರಿಯನ್ನು ಪಠ್ಯ ಎನ್‌ಕೋಡರ್ ಬಳಸಿ ನೈಸರ್ಗಿಕ ಭಾಷಾ ವಿವರಣೆಗಳ ಮೇಲೆ ಸ್ಥಿತಿಗೆ ತರಲು ತರಬೇತಿ ನೀಡಿದ ನಂತರ, ಸಂಶೋಧಕರು ಎರಡು ಪರ್ಯಾಯ ಮಾರ್ಗದರ್ಶಿ ತಂತ್ರಗಳನ್ನು ಪರೀಕ್ಷಿಸಿದರು: CLIP ಮಾರ್ಗದರ್ಶನ ಮತ್ತು ವರ್ಗೀಕರಣ-ಮುಕ್ತ ಮಾರ್ಗದರ್ಶನ.

CLIP ಎನ್ನುವುದು ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರಗಳ ಜಂಟಿ ಪ್ರಾತಿನಿಧ್ಯಗಳನ್ನು ಕಲಿಯಲು ಸ್ಕೇಲೆಬಲ್ ತಂತ್ರವಾಗಿದ್ದು ಅದು ಶೀರ್ಷಿಕೆಗೆ ಚಿತ್ರವು ಎಷ್ಟು ಹತ್ತಿರದಲ್ಲಿದೆ ಎಂಬುದರ ಆಧಾರದ ಮೇಲೆ ಸ್ಕೋರ್ ಅನ್ನು ನೀಡುತ್ತದೆ.

ಮಾದರಿಗಳನ್ನು "ಮಾರ್ಗದರ್ಶಿ" ಮಾಡುವ CLIP ಮಾದರಿಯೊಂದಿಗೆ ವರ್ಗೀಕರಣವನ್ನು ಬದಲಿಸುವ ಮೂಲಕ ತಂಡವು ತಮ್ಮ ಪ್ರಸರಣ ಮಾದರಿಗಳಲ್ಲಿ ಈ ತಂತ್ರವನ್ನು ಬಳಸಿತು. ಏತನ್ಮಧ್ಯೆ, ವರ್ಗೀಕರಣ-ಮುಕ್ತ ಮಾರ್ಗದರ್ಶನವು ಪ್ರತ್ಯೇಕ ವರ್ಗೀಕರಣದ ತರಬೇತಿಯನ್ನು ಒಳಗೊಂಡಿರದ ಪ್ರಸರಣ ಮಾದರಿಗಳನ್ನು ನಿರ್ದೇಶಿಸುವ ತಂತ್ರವಾಗಿದೆ.

ಗ್ಲೈಡ್ ಆರ್ಕಿಟೆಕ್ಚರ್

ಗ್ಲೈಡ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಮೂರು ಘಟಕಗಳನ್ನು ಒಳಗೊಂಡಿದೆ: 64 × 64 ಇಮೇಜ್ ಅನ್ನು ರಚಿಸಲು ತರಬೇತಿ ಪಡೆದ ಅಬ್ಲೇಟೆಡ್ ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್ (ADM), ಪಠ್ಯ ಪ್ರಾಂಪ್ಟ್ ಮೂಲಕ ಇಮೇಜ್ ಉತ್ಪಾದನೆಯ ಮೇಲೆ ಪ್ರಭಾವ ಬೀರುವ ಪಠ್ಯ ಮಾದರಿ (ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್), ಮತ್ತು ನಮ್ಮ ಸಣ್ಣ 64 × 64 ಅನ್ನು ಪರಿವರ್ತಿಸುವ ಅಪ್‌ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮಾಡೆಲ್. ಚಿತ್ರಗಳನ್ನು ಹೆಚ್ಚು ಅರ್ಥೈಸಬಹುದಾದ 256 x 256 ಪಿಕ್ಸೆಲ್‌ಗಳಿಗೆ.

ಚಿತ್ರ ರಚಿಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ನಿಯಂತ್ರಿಸಲು ಮೊದಲ ಎರಡು ಘಟಕಗಳು ಒಟ್ಟಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತವೆ, ಇದರಿಂದಾಗಿ ಪಠ್ಯ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಸೂಕ್ತವಾಗಿ ಪ್ರತಿಬಿಂಬಿಸುತ್ತದೆ, ಆದರೆ ಎರಡನೆಯದು ನಾವು ರಚಿಸುವ ಚಿತ್ರಗಳನ್ನು ಸುಲಭವಾಗಿ ಗ್ರಹಿಸಲು ಅಗತ್ಯವಿದೆ. ಗ್ಲೈಡ್ ಯೋಜನೆಯು ಎ 2021 ರಲ್ಲಿ ಪ್ರಕಟವಾದ ವರದಿ ADM ತಂತ್ರಗಳು ಪ್ರಸ್ತುತ ಜನಪ್ರಿಯ, ಅತ್ಯಾಧುನಿಕ ಉತ್ಪಾದಕ ಮಾದರಿಗಳನ್ನು ಚಿತ್ರ ಮಾದರಿ ಗುಣಮಟ್ಟದಲ್ಲಿ ಮೀರಿಸಿವೆ ಎಂದು ತೋರಿಸಿದೆ.

ADM ಗಾಗಿ, GLIDE ಲೇಖಕರು ಅದೇ ImageNet 64 x 64 ಮಾದರಿಯನ್ನು Dhariwal ಮತ್ತು Nichol ನಂತೆ ಬಳಸಿಕೊಂಡರು, ಆದರೆ 512 ರ ಬದಲಿಗೆ 64 ಚಾನಲ್‌ಗಳೊಂದಿಗೆ. ಇದರ ಪರಿಣಾಮವಾಗಿ ಇಮೇಜ್‌ನೆಟ್ ಮಾದರಿಯು ಸರಿಸುಮಾರು 2.3 ಶತಕೋಟಿ ನಿಯತಾಂಕಗಳನ್ನು ಹೊಂದಿದೆ.

GLIDE ತಂಡವು, ಧಾರಿವಾಲ್ ಮತ್ತು ನಿಕೋಲ್‌ಗಿಂತ ಭಿನ್ನವಾಗಿ, ಚಿತ್ರವನ್ನು ರಚಿಸುವ ಪ್ರಕ್ರಿಯೆಯ ಮೇಲೆ ಹೆಚ್ಚಿನ ನೇರ ನಿಯಂತ್ರಣವನ್ನು ಹೊಂದಲು ಬಯಸಿತು, ಹೀಗಾಗಿ ಅವರು ದೃಷ್ಟಿಗೋಚರ ಮಾದರಿಯನ್ನು ಗಮನ-ಸಕ್ರಿಯಗೊಳಿಸಿದ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್‌ನೊಂದಿಗೆ ಸಂಯೋಜಿಸಿದರು. ಪಠ್ಯ ಇನ್‌ಪುಟ್ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದರ ಮೂಲಕ ಚಿತ್ರ ಉತ್ಪಾದಿಸುವ ಪ್ರಕ್ರಿಯೆಯ ಔಟ್‌ಪುಟ್‌ನ ಮೇಲೆ GLIDE ನಿಮಗೆ ಸ್ವಲ್ಪ ನಿಯಂತ್ರಣವನ್ನು ನೀಡುತ್ತದೆ.

ಇತರ ಮಾದರಿಗಳೊಂದಿಗೆ ಗ್ಲೈಡ್ ಹೋಲಿಕೆ

ಫೋಟೋಗಳು ಮತ್ತು ಶೀರ್ಷಿಕೆಗಳ (DALL-E ಯೋಜನೆಯಲ್ಲಿ ಬಳಸಲಾದಂತೆಯೇ) ಸೂಕ್ತವಾದ ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡುವ ಮೂಲಕ ಇದನ್ನು ಸಾಧಿಸಲಾಗುತ್ತದೆ.

ಪಠ್ಯವನ್ನು ಆರಂಭದಲ್ಲಿ ಕೆ ಟೋಕನ್‌ಗಳ ಸರಣಿಯಾಗಿ ಎನ್‌ಕೋಡ್ ಮಾಡಲಾಗಿದೆ. ಅದರ ನಂತರ, ಟೋಕನ್ಗಳನ್ನು ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ ಮಾದರಿಯಲ್ಲಿ ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ. ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ನ ಔಟ್ಪುಟ್ ಅನ್ನು ನಂತರ ಎರಡು ರೀತಿಯಲ್ಲಿ ಬಳಸಬಹುದು. ADM ಮಾದರಿಗೆ, ವರ್ಗ ಎಂಬೆಡಿಂಗ್ ಬದಲಿಗೆ ಅಂತಿಮ ಟೋಕನ್ ಎಂಬೆಡಿಂಗ್ ಅನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ಎರಡನೆಯದಾಗಿ, ಟೋಕನ್ ಎಂಬೆಡಿಂಗ್‌ಗಳ ಅಂತಿಮ ಪದರ - ವೈಶಿಷ್ಟ್ಯ ವಾಹಕಗಳ ಸರಣಿ - ADM ಮಾದರಿಯಲ್ಲಿನ ಪ್ರತಿ ಗಮನ ಪದರದ ಆಯಾಮಗಳಿಗೆ ಸ್ವತಂತ್ರವಾಗಿ ಪ್ರಕ್ಷೇಪಿಸಲಾಗಿದೆ ಮತ್ತು ಪ್ರತಿ ಗಮನದ ಸಂದರ್ಭಕ್ಕೆ ಸಂಯೋಜಿತವಾಗಿದೆ.

ವಾಸ್ತವದಲ್ಲಿ, ಇನ್‌ಪುಟ್ ಪದಗಳು ಮತ್ತು ಅವುಗಳ ಸಂಬಂಧಿತ ಚಿತ್ರಗಳ ಕಲಿತ ಗ್ರಹಿಕೆಯನ್ನು ಆಧರಿಸಿ ಅನನ್ಯ ಮತ್ತು ಫೋಟೊರಿಯಾಲಿಸ್ಟಿಕ್ ಶೈಲಿಯಲ್ಲಿ ಒಂದೇ ರೀತಿಯ ಪಠ್ಯ ಟೋಕನ್‌ಗಳ ಹೊಸ ಸಂಯೋಜನೆಗಳಿಂದ ಚಿತ್ರವನ್ನು ತಯಾರಿಸಲು ಇದು ADM ಮಾದರಿಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ. ಈ ಪಠ್ಯ-ಎನ್‌ಕೋಡಿಂಗ್ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ 1.2 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಹೊಂದಿದೆ ಮತ್ತು 24 ರ ಅಗಲದೊಂದಿಗೆ 2048 ಎಂಜಲು ಬ್ಲಾಕ್‌ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತದೆ.

ಅಂತಿಮವಾಗಿ, ಅಪ್‌ಸ್ಯಾಂಪ್ಲರ್ ಡಿಫ್ಯೂಷನ್ ಮಾದರಿಯು ಸುಮಾರು 1.5 ಶತಕೋಟಿ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು ಮೂಲ ಮಾದರಿಗೆ ಹೋಲಿಸಿದರೆ ಅದರ ಪಠ್ಯ ಎನ್‌ಕೋಡರ್ ಚಿಕ್ಕದಾಗಿದೆ, 1024 ಮತ್ತು 384 ಮೂಲ ಚಾನಲ್‌ಗಳ ಅಗಲವನ್ನು ಹೊಂದಿದೆ. ಈ ಮಾದರಿಯು ಹೆಸರೇ ಸೂಚಿಸುವಂತೆ, ಯಂತ್ರಗಳು ಮತ್ತು ಮನುಷ್ಯರಿಗೆ ಅರ್ಥವಿವರಣೆಯನ್ನು ಸುಧಾರಿಸುವ ಸಲುವಾಗಿ ಮಾದರಿಯ ಅಪ್‌ಗ್ರೇಡ್‌ನಲ್ಲಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಫಿಲ್ಟರ್ ಮಾಡಿದ ಸಣ್ಣ ಚಿತ್ರಗಳನ್ನು ಗ್ಲೈಡ್ ಮಾಡಿ

ಪ್ರಸರಣ ಮಾದರಿ

GLIDE ತನ್ನದೇ ಆದ ADM ಆವೃತ್ತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಚಿತ್ರಗಳನ್ನು ರಚಿಸುತ್ತದೆ ("ಮಾರ್ಗದರ್ಶಿ" ಗಾಗಿ ADM-G). ADM-G ಮಾದರಿಯು ಪ್ರಸರಣ U-ನೆಟ್ ಮಾದರಿಯ ಮಾರ್ಪಾಡು. ಪ್ರಸರಣ U-ನೆಟ್ ಮಾದರಿಯು VAE, GAN ಮತ್ತು ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್‌ಗಳಂತಹ ಹೆಚ್ಚು ಸಾಮಾನ್ಯವಾದ ಚಿತ್ರ ಸಂಶ್ಲೇಷಣೆಯ ತಂತ್ರಗಳಿಂದ ನಾಟಕೀಯವಾಗಿ ಭಿನ್ನವಾಗಿದೆ.

ಪ್ರಸರಣ ಮಾದರಿ

ಡೇಟಾಗೆ ಯಾದೃಚ್ಛಿಕ ಶಬ್ದವನ್ನು ಕ್ರಮೇಣವಾಗಿ ಸೇರಿಸಲು ಅವರು ಮಾರ್ಕೊವ್ ಸರಪಳಿ ಪ್ರಸರಣ ಹಂತಗಳನ್ನು ನಿರ್ಮಿಸುತ್ತಾರೆ ಮತ್ತು ನಂತರ ಪ್ರಸರಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಹಿಮ್ಮೆಟ್ಟಿಸಲು ಕಲಿಯುತ್ತಾರೆ ಮತ್ತು ಶಬ್ದದಿಂದಲೇ ಅಗತ್ಯವಿರುವ ಡೇಟಾ ಮಾದರಿಗಳನ್ನು ಮರುನಿರ್ಮಾಣ ಮಾಡುತ್ತಾರೆ. ಇದು ಎರಡು ಹಂತಗಳಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ: ಫಾರ್ವರ್ಡ್ ಮತ್ತು ರಿವರ್ಸ್ ಡಿಫ್ಯೂಷನ್.

ಫಾರ್ವರ್ಡ್ ಡಿಫ್ಯೂಷನ್ ವಿಧಾನ, ಮಾದರಿಯ ನಿಜವಾದ ವಿತರಣೆಯಿಂದ ಡೇಟಾ ಬಿಂದುವನ್ನು ನೀಡಲಾಗಿದೆ, ಪೂರ್ವನಿಯೋಜಿತ ಸರಣಿಯ ಹಂತಗಳ ಮೇಲೆ ಮಾದರಿಗೆ ಸಣ್ಣ ಪ್ರಮಾಣದ ಶಬ್ದವನ್ನು ಸೇರಿಸುತ್ತದೆ. ಹಂತಗಳು ಗಾತ್ರದಲ್ಲಿ ಹೆಚ್ಚಾದಂತೆ ಮತ್ತು ಅನಂತತೆಯನ್ನು ತಲುಪಿದಾಗ, ಮಾದರಿಯು ಎಲ್ಲಾ ಗುರುತಿಸಬಹುದಾದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಅನುಕ್ರಮವು ಐಸೊಟ್ರೊಪಿಕ್ ಗಾಸಿಯನ್ ಕರ್ವ್ ಅನ್ನು ಹೋಲುವಂತೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.

ಸದ್ದು ಮಾಡದ ಶಬ್ದದ ಗ್ಲೈಡ್ ಚಿತ್ರ

ಹಿಂದುಳಿದ ಪ್ರಸರಣದ ಸಮಯದಲ್ಲಿ ಹಂತ, ಪ್ರಸರಣ ಮಾದರಿ ಚಿತ್ರಗಳ ಮೇಲೆ ಸೇರಿಸಲಾದ ಶಬ್ದದ ಪ್ರಭಾವವನ್ನು ಹಿಮ್ಮೆಟ್ಟಿಸಲು ಕಲಿಯುತ್ತದೆ ಮತ್ತು ಮೂಲ ಇನ್‌ಪುಟ್ ಮಾದರಿ ವಿತರಣೆಯನ್ನು ಹೋಲುವ ಪ್ರಯತ್ನದ ಮೂಲಕ ಉತ್ಪತ್ತಿಯಾದ ಚಿತ್ರವನ್ನು ಅದರ ಮೂಲ ಆಕಾರಕ್ಕೆ ಹಿಂತಿರುಗಿಸುತ್ತದೆ.

ಪೂರ್ಣಗೊಂಡ ಮಾದರಿಯು ನೈಜ ಗಾಸಿಯನ್ ಶಬ್ದ ಇನ್‌ಪುಟ್ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್‌ನೊಂದಿಗೆ ಹಾಗೆ ಮಾಡಬಹುದು. ADM-G ವಿಧಾನವು ಹಿಂದಿನದಕ್ಕಿಂತ ಬದಲಾಗುತ್ತದೆ, ಇದರಲ್ಲಿ CLIP ಅಥವಾ ಕಸ್ಟಮೈಸ್ ಮಾಡಿದ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್, ಇನ್‌ಪುಟ್ ಮಾಡಲಾದ ಪಠ್ಯ ಪ್ರಾಂಪ್ಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸಿಕೊಳ್ಳುವ ಮೂಲಕ ಹಿಂದುಳಿದ ಪ್ರಸರಣ ಹಂತದ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರುತ್ತದೆ.

ಗ್ಲೈಡ್ ಸಾಮರ್ಥ್ಯಗಳು

1. ಚಿತ್ರದ ಜನರೇಷನ್

GLIDE ನ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಮತ್ತು ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ಬಳಕೆಯು ಬಹುಶಃ ಚಿತ್ರ ಸಂಶ್ಲೇಷಣೆಯಾಗಿದೆ. ಚಿತ್ರಗಳು ಸಾಧಾರಣವಾಗಿದ್ದರೂ ಮತ್ತು ಪ್ರಾಣಿ/ಮಾನವ ರೂಪಗಳೊಂದಿಗೆ GLIDE ತೊಂದರೆಯನ್ನು ಹೊಂದಿದ್ದರೂ, ಒಂದು-ಶಾಟ್ ಚಿತ್ರ ನಿರ್ಮಾಣದ ಸಾಮರ್ಥ್ಯವು ಬಹುತೇಕ ಅಂತ್ಯವಿಲ್ಲ.

GLIDE ನೊಂದಿಗೆ ಚಿತ್ರದ ಉತ್ಪಾದನೆ

ಇದು ಪ್ರಾಣಿಗಳು, ಪ್ರಸಿದ್ಧ ವ್ಯಕ್ತಿಗಳು, ಭೂದೃಶ್ಯಗಳು, ಕಟ್ಟಡಗಳು ಮತ್ತು ಹೆಚ್ಚಿನವುಗಳ ಫೋಟೋಗಳನ್ನು ರಚಿಸಬಹುದು ಮತ್ತು ಇದು ವಿವಿಧ ಕಲಾ ಶೈಲಿಗಳಲ್ಲಿ ಮತ್ತು ಫೋಟೋ-ವಾಸ್ತವವಾಗಿ ಮಾಡಬಹುದು. ಕೆಳಗಿನ ಮಾದರಿಗಳಲ್ಲಿ ಕಂಡುಬರುವಂತೆ, ಗ್ಲೈಡ್ ವಿವಿಧ ರೀತಿಯ ಪಠ್ಯದ ಒಳಹರಿವುಗಳನ್ನು ದೃಶ್ಯ ಸ್ವರೂಪಕ್ಕೆ ಅರ್ಥೈಸಲು ಮತ್ತು ಅಳವಡಿಸಿಕೊಳ್ಳಲು ಸಮರ್ಥವಾಗಿದೆ ಎಂದು ಸಂಶೋಧಕರ ಲೇಖಕರು ಪ್ರತಿಪಾದಿಸುತ್ತಾರೆ.

2. ಗ್ಲೈಡ್ ಇನ್‌ಪೇಂಟಿಂಗ್

GLIDE ನ ಸ್ವಯಂಚಾಲಿತ ಫೋಟೋ ಪೇಂಟಿಂಗ್ ವಾದಯೋಗ್ಯವಾಗಿ ಅತ್ಯಂತ ಆಕರ್ಷಕ ಬಳಕೆಯಾಗಿದೆ. GLIDE ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಚಿತ್ರವನ್ನು ಇನ್‌ಪುಟ್‌ನಂತೆ ತೆಗೆದುಕೊಳ್ಳಬಹುದು, ಬದಲಾಯಿಸಬೇಕಾದ ಸ್ಥಳಗಳಿಗೆ ಪಠ್ಯ ಪ್ರಾಂಪ್ಟ್‌ನೊಂದಿಗೆ ಅದನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಬಹುದು ಮತ್ತು ನಂತರ ಆ ಭಾಗಗಳಿಗೆ ಸುಲಭವಾಗಿ ಸಕ್ರಿಯ ಮಾರ್ಪಾಡುಗಳನ್ನು ಮಾಡಬಹುದು.

ಇನ್ನೂ ಉತ್ತಮ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡಲು SDEdit ನಂತಹ ಸಂಪಾದನೆ ಮಾದರಿಯೊಂದಿಗೆ ಇದನ್ನು ಬಳಸಬೇಕು. ಭವಿಷ್ಯದಲ್ಲಿ, ಈ ರೀತಿಯ ಸಾಮರ್ಥ್ಯಗಳ ಪ್ರಯೋಜನವನ್ನು ಪಡೆಯುವ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು ಕೋಡ್-ಮುಕ್ತ ಚಿತ್ರ-ಮಾರ್ಪಡಿಸುವ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಲ್ಲಿ ನಿರ್ಣಾಯಕವಾಗಬಹುದು.

ತೀರ್ಮಾನ

ಈಗ ನಾವು ಪ್ರಕ್ರಿಯೆಯ ಮೂಲಕ ಹೋಗಿದ್ದೇವೆ, ಗ್ಲೈಡ್ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದರ ಮೂಲಭೂತ ಅಂಶಗಳನ್ನು ನೀವು ಗ್ರಹಿಸಬೇಕು, ಹಾಗೆಯೇ ಚಿತ್ರ ರಚನೆ ಮತ್ತು ಇಮೇಜ್ ಮಾರ್ಪಾಡುಗಳಲ್ಲಿ ಅದರ ಸಾಮರ್ಥ್ಯಗಳ ವಿಸ್ತಾರವನ್ನು ನೀವು ಗ್ರಹಿಸಬೇಕು.

ಓಪನ್ AI ಗ್ಲೈಡ್ (ಡಿಫ್ಯೂಷನ್) - ಕೇವಲ ಒಂದು ಪಠ್ಯ ಇನ್‌ಪುಟ್‌ನೊಂದಿಗೆ ಇಮೇಜ್ ಜನರೇಷನ್

ಏನದು AI ಗ್ಲೈಡ್ ತೆರೆಯಿರಿ?

ಗ್ಲೈಡ್ ಆರ್ಕಿಟೆಕ್ಚರ್

ಪ್ರಸರಣ ಮಾದರಿ

ಗ್ಲೈಡ್ ಸಾಮರ್ಥ್ಯಗಳು

1. ಚಿತ್ರದ ಜನರೇಷನ್

2. ಗ್ಲೈಡ್ ಇನ್‌ಪೇಂಟಿಂಗ್

ತೀರ್ಮಾನ

ನಮ್ಮ ಬಗ್ಗೆ ಜೇ

HashDork ನಲ್ಲಿ ಹೆಚ್ಚಿನ ಲೇಖನಗಳು:

ನಿಮ್ಮ AI ನಲ್ಲಿ ಭ್ರಮೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು ಹೇಗೆ

ಕೊಲೊಸ್ಸಿಯನ್ vs ಹೇಗೆನ್

ಈ ಭವಿಷ್ಯದ ಟೆಕ್ ಸುದ್ದಿಪತ್ರವು ಹೀರುವುದಿಲ್ಲ

ಓಪನ್ AI ಗ್ಲೈಡ್ (ಡಿಫ್ಯೂಷನ್) - ಕೇವಲ ಒಂದು ಪಠ್ಯ ಇನ್‌ಪುಟ್‌ನೊಂದಿಗೆ ಇಮೇಜ್ ಜನರೇಷನ್

ಏನದು AI ಗ್ಲೈಡ್ ತೆರೆಯಿರಿ?

ಗ್ಲೈಡ್ ಆರ್ಕಿಟೆಕ್ಚರ್

ಪ್ರಸರಣ ಮಾದರಿ

ಗ್ಲೈಡ್ ಸಾಮರ್ಥ್ಯಗಳು

1. ಚಿತ್ರದ ಜನರೇಷನ್

2. ಗ್ಲೈಡ್ ಇನ್‌ಪೇಂಟಿಂಗ್

ತೀರ್ಮಾನ

ನಮ್ಮ ಬಗ್ಗೆ ಜೇ

HashDork ನಲ್ಲಿ ಹೆಚ್ಚಿನ ಲೇಖನಗಳು:

ನಿಮ್ಮ AI ನಲ್ಲಿ ಭ್ರಮೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು ಹೇಗೆ

ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮಕ್ಕಾಗಿ 10 ಅತ್ಯುತ್ತಮ AI ಪರಿಕರಗಳು

ಕೊಲೊಸ್ಸಿಯನ್ vs ಹೇಗೆನ್

10 ಅತ್ಯುತ್ತಮ AI ಅನಿಮೇಟೆಡ್ ವೀಡಿಯೊ ಮೇಕರ್ ಪರಿಕರಗಳು

ರೀಡರ್ ಹೊಂದಾಣಿಕೆ

ಪ್ರತ್ಯುತ್ತರ ನೀಡಿ ಉತ್ತರ ರದ್ದು

ಈ ಭವಿಷ್ಯದ ಟೆಕ್ ಸುದ್ದಿಪತ್ರವು ಹೀರುವುದಿಲ್ಲ