ఇటీవలి సంవత్సరాలలో, లోతైన అభ్యాస నమూనాలు మానవ భాషను అర్థం చేసుకోవడంలో మరింత ప్రభావవంతంగా మారాయి.
వంటి ప్రాజెక్టుల గురించి ఆలోచించండి GPT-3, ఇది ఇప్పుడు పూర్తి కథనాలు మరియు వెబ్సైట్లను సృష్టించగలదు. GitHub ఇటీవలే ప్రవేశపెట్టబడింది GitHub కోపైలట్, మీకు అవసరమైన కోడ్ రకాన్ని వివరించడం ద్వారా మొత్తం కోడ్ స్నిప్పెట్లను అందించే సేవ.
OpenAI, Facebook మరియు Google పరిశోధకులు మరొక పనిని నిర్వహించడానికి లోతైన అభ్యాసాన్ని ఉపయోగించే మార్గాలపై పని చేస్తున్నారు: చిత్రాలను శీర్షిక చేయడం. మిలియన్ల కొద్దీ ఎంట్రీలతో కూడిన పెద్ద డేటాసెట్ని ఉపయోగించి, వారు కొన్నింటితో ముందుకు వచ్చారు ఆశ్చర్యకరమైన ఫలితాలు.
ఇటీవల, ఈ పరిశోధకులు వ్యతిరేక పనిని నిర్వహించడానికి ప్రయత్నించారు: శీర్షిక నుండి చిత్రాలను రూపొందించడం. వివరణ నుండి పూర్తిగా కొత్త చిత్రాన్ని సృష్టించడం ఇప్పుడు సాధ్యమేనా?
ఈ గైడ్ రెండు అత్యంత అధునాతన టెక్స్ట్-టు-ఇమేజ్ మోడల్లను అన్వేషిస్తుంది: OpenAI యొక్క DALL-E 2 మరియు Google యొక్క Imagen AI. ఈ ప్రాజెక్ట్లలో ప్రతి ఒక్కటి మనకు తెలిసిన సమాజాన్ని మార్చగల సంచలనాత్మక పద్ధతులను ప్రవేశపెట్టింది.
అయితే ముందుగా, టెక్స్ట్-టు-ఇమేజ్ జనరేషన్ అంటే ఏమిటో అర్థం చేసుకుందాం.
టెక్స్ట్-టు-ఇమేజ్ జనరేషన్ అంటే ఏమిటి?
టెక్స్ట్-టు-ఇమేజ్ మోడల్స్ ప్రాంప్ట్ల ఆధారంగా కొత్త మరియు ప్రత్యేకమైన చిత్రాలను సృష్టించడానికి కంప్యూటర్లను అనుమతించండి. వ్యక్తులు ఇప్పుడు వారు రూపొందించాలనుకుంటున్న చిత్రం యొక్క టెక్స్ట్ వివరణను అందించగలరు మరియు మోడల్ వీలైనంత దగ్గరగా ఆ వర్ణనకు సరిపోయే దృశ్యాన్ని రూపొందించడానికి ప్రయత్నిస్తుంది.
మెషిన్ లెర్నింగ్ మోడల్స్ పనితీరును మరింత మెరుగుపరచడానికి ఇమేజ్-క్యాప్షన్ జతలను కలిగి ఉన్న పెద్ద డేటాసెట్ల వినియోగాన్ని ఉపయోగించాయి.
చాలా వచనం నుండి చిత్రం మోడల్లు ట్రాన్స్ఫార్మర్ లాంగ్వేజ్ మోడల్ని ఉపయోగిస్తాయి ప్రాంప్ట్లను అర్థం చేసుకోవడానికి. ఈ రకమైన మోడల్ ఎ నాడీ నెట్వర్క్ సహజ భాష యొక్క సందర్భం మరియు అర్థ అర్థాన్ని తెలుసుకోవడానికి ప్రయత్నిస్తుంది.
తదుపరి, ఉత్పాదక నమూనాలు వంటివి వ్యాప్తి నమూనాలు మరియు చిత్ర సంశ్లేషణ కోసం ఉత్పాదక వ్యతిరేక నెట్వర్క్లు ఉపయోగించబడతాయి.
DALLE 2 అంటే ఏమిటి?
డాల్-E2 ఏప్రిల్ 2022లో విడుదలైన OpenAI కంప్యూటర్ మోడల్. పదాలు మరియు పదబంధాలను చిత్రాలకు అనుబంధించడానికి మిలియన్ల కొద్దీ లేబుల్ చిత్రాల డేటాబేస్పై మోడల్ శిక్షణ పొందింది.
వినియోగదారులు "లాసాగ్నా తినే పిల్లి" వంటి సాధారణ పదబంధాన్ని టైప్ చేయవచ్చు మరియు DALL-E 2 పదబంధం వివరించడానికి ప్రయత్నిస్తున్న దాని స్వంత వివరణను రూపొందిస్తుంది.
స్క్రాచ్ నుండి చిత్రాలను సృష్టించడంతోపాటు, DALL-E 2 ఇప్పటికే ఉన్న చిత్రాలను కూడా సవరించగలదు. దిగువ ఉదాహరణలో, DALL-E జోడించిన మంచంతో గది యొక్క సవరించిన చిత్రాన్ని రూపొందించగలిగింది.
OpenAI గత కొన్ని సంవత్సరాలలో విడుదల చేసిన అనేక సారూప్య ప్రాజెక్ట్లలో DALL-E 2 ఒకటి. OpenAI యొక్క GPT-3 విభిన్న శైలుల వచనాన్ని రూపొందించినట్లు అనిపించినప్పుడు అది వార్తలకు విలువైనదిగా మారింది.
ప్రస్తుతం, DALL-E 2 ఇంకా బీటా టెస్టింగ్లో ఉంది. ఆసక్తి ఉన్న వినియోగదారులు వారి కోసం సైన్ అప్ చేయవచ్చు నిరీక్షణ జాబితా, వేచి ఉన్న జాబితా మరియు యాక్సెస్ కోసం వేచి ఉండండి.
ఇది ఎలా పని చేస్తుంది?
DALL-E 2 ఫలితాలు ఆకట్టుకునేలా ఉన్నప్పటికీ, ఇది ఎలా పని చేస్తుందో మీరు ఆశ్చర్యపోవచ్చు.
DALL-E 2 అనేది OpenAI యొక్క GPT-3 ప్రాజెక్ట్ యొక్క మల్టీమోడల్ అమలుకు ఒక ఉదాహరణ.
మొదట, వినియోగదారు యొక్క టెక్స్ట్ ప్రాంప్ట్ ప్రాంప్ట్ను ప్రాతినిధ్య స్థలానికి మ్యాప్ చేసే టెక్స్ట్ ఎన్కోడర్లో ఉంచబడుతుంది. DALL-E 2 సహజ భాష నుండి అర్థ సమాచారాన్ని పొందేందుకు CLIP (కాంట్రాస్టివ్ లాంగ్వేజ్-ఇమేజ్ ప్రీ-ట్రైనింగ్) అనే మరో OpenAI మోడల్ని ఉపయోగిస్తుంది.
తరువాత, ఒక మోడల్ అని పిలుస్తారు ముందు టెక్స్ట్ ఎన్కోడింగ్ను ఇమేజ్ ఎన్కోడింగ్గా మ్యాప్ చేస్తుంది. ఈ ఇమేజ్ ఎన్కోడింగ్ టెక్స్ట్ ఎన్కోడింగ్ దశలో కనిపించే సెమాంటిక్ సమాచారాన్ని క్యాప్చర్ చేయాలి.
వాస్తవ చిత్రాన్ని రూపొందించడానికి, సెమాంటిక్ సమాచారం మరియు ఇమేజ్ ఎన్కోడింగ్ వివరాలను ఉపయోగించి దృశ్యమానాన్ని రూపొందించడానికి DALL-E 2 ఇమేజ్ డీకోడర్ను ఉపయోగిస్తుంది. OpenAI సవరించిన సంస్కరణను ఉపయోగిస్తుంది గ్లైడ్ చిత్రం రూపొందించడానికి మోడల్. GLIDE a పై ఆధారపడుతుంది వ్యాప్తి నమూనా చిత్రాలను రూపొందించడానికి.
DALL-E 2 మోడల్కు గ్లైడ్ జోడించడం వలన మరింత ఫోటోరియలిస్టిక్ అవుట్పుట్ను ప్రారంభించబడింది. GLIDE మోడల్ యాదృచ్ఛికంగా లేదా యాదృచ్ఛికంగా నిర్ణయించబడినందున, DALL-E 2 మోడల్ మోడల్ను మళ్లీ మళ్లీ అమలు చేయడం ద్వారా సులభంగా వైవిధ్యాలను సృష్టించగలదు.
పరిమితులు
DALL-E 2 మోడల్ యొక్క ఆకట్టుకునే ఫలితాలు ఉన్నప్పటికీ, ఇది ఇప్పటికీ కొన్ని పరిమితులను ఎదుర్కొంటోంది.
స్పెల్లింగ్ టెక్స్ట్
DALL-E 2 వచనాన్ని రూపొందించడానికి ప్రయత్నించే ప్రాంప్ట్లు పదాలను స్పెల్లింగ్ చేయడంలో ఇబ్బందిని కలిగి ఉన్నాయని వెల్లడిస్తున్నాయి. స్పెల్లింగ్ సమాచారంలో భాగం కానందున ఇది జరిగి ఉండవచ్చని నిపుణులు ఊహిస్తున్నారు శిక్షణ డేటాసెట్.
కంపోజిషనల్ రీజనింగ్
DALL-E 2కి ఇంకా కంపోజిషనల్ రీజనింగ్లో కొంత ఇబ్బంది ఉందని పరిశోధకులు గమనించారు. సరళంగా చెప్పాలంటే, ఈ అంశాల మధ్య సంబంధాలను గుర్తించడంలో సమస్య ఉన్నప్పుడే మోడల్ చిత్రం యొక్క వ్యక్తిగత అంశాలను అర్థం చేసుకోగలదు.
ఉదాహరణకు, “నీలం క్యూబ్ పైన రెడ్ క్యూబ్” అని ప్రాంప్ట్ ఇచ్చినట్లయితే, DALL-E ఒక నీలిరంగు క్యూబ్ మరియు ఎరుపు క్యూబ్ను ఖచ్చితంగా ఉత్పత్తి చేస్తుంది కానీ వాటిని సరిగ్గా ఉంచడంలో విఫలమవుతుంది. నిర్దిష్ట సంఖ్యలో ఆబ్జెక్ట్లను బయటకు తీయడానికి అవసరమైన ప్రాంప్ట్లతో మోడల్కు ఇబ్బంది ఉన్నట్లు కూడా గమనించబడింది.
డేటాసెట్లో పక్షపాతం
ప్రాంప్ట్లో ఇతర వివరాలు లేకుంటే, DALL-E తెలుపు లేదా పాశ్చాత్య వ్యక్తులను మరియు పరిసరాలను వర్ణించేలా గమనించబడింది. డేటాసెట్లో పాశ్చాత్య-కేంద్రీకృత చిత్రాల సమృద్ధి కారణంగా ఈ ప్రాతినిధ్య పక్షపాతం ఏర్పడుతుంది.
మోడల్ లింగ మూస పద్ధతులను అనుసరించడం కూడా గమనించబడింది. ఉదాహరణకు, ప్రాంప్ట్ “ఫ్లైట్ అటెండెంట్” అని టైప్ చేయడం వల్ల ఎక్కువగా మహిళా ఫ్లైట్ అటెండెంట్ల చిత్రాలు రూపొందుతాయి.
Google Imagen AI అంటే ఏమిటి?
Google యొక్క ఇమేజెన్ AI ఇన్పుట్ టెక్స్ట్ నుండి ఫోటోరియలిస్టిక్ చిత్రాలను రూపొందించడానికి ఉద్దేశించిన మోడల్. DALL-E మాదిరిగానే, మోడల్ కూడా టెక్స్ట్ను అర్థం చేసుకోవడానికి ట్రాన్స్ఫార్మర్ లాంగ్వేజ్ మోడల్లను ఉపయోగిస్తుంది మరియు అధిక-నాణ్యత చిత్రాలను రూపొందించడానికి డిఫ్యూజన్ మోడల్ల వాడకంపై ఆధారపడుతుంది.
ఇమేజెన్తో పాటు, గూగుల్ డ్రాబెంచ్ అనే టెక్స్ట్-టు-ఇమేజ్ మోడల్ల కోసం బెంచ్మార్క్ను కూడా విడుదల చేసింది. DrawBenchని ఉపయోగించి, మానవ రేటర్లు DALL-E 2తో సహా ఇతర మోడళ్ల కంటే ఇమేజెన్ అవుట్పుట్ను ఇష్టపడతారని వారు గమనించగలిగారు.
ఇది ఎలా పని చేస్తుంది?
DALL-E మాదిరిగానే, ఇమేజెన్ ముందుగా వినియోగదారు ప్రాంప్ట్ను స్తంభింపచేసిన టెక్స్ట్ ఎన్కోడర్ ద్వారా టెక్స్ట్ ఎంబెడ్డింగ్గా మారుస్తుంది.
ఇమేజెన్ ఒక డిఫ్యూజన్ మోడల్ను ఉపయోగిస్తుంది, ఇది శబ్దం యొక్క నమూనాను ఇమేజ్లుగా ఎలా మార్చాలో నేర్చుకుంటుంది. ఈ చిత్రాల ప్రారంభ అవుట్పుట్ తక్కువ రిజల్యూషన్గా ఉంటుంది మరియు చివరి చిత్రం యొక్క రిజల్యూషన్ను పెంచడానికి సూపర్-రిజల్యూషన్ డిఫ్యూజన్ మోడల్గా పిలువబడే మరొక మోడల్ ద్వారా పంపబడుతుంది. మొదటి డిఫ్యూజన్ మోడల్ 64×64 పిక్సెల్ ఇమేజ్ను అవుట్పుట్ చేస్తుంది మరియు తర్వాత హై-రిజల్యూషన్ 1024×1024 ఇమేజ్కి ఎగిరింది.
ఇమేజెన్ బృందం పరిశోధన ఆధారంగా, టెక్స్ట్ డేటాపై మాత్రమే శిక్షణ పొందిన పెద్ద ఘనీభవించిన భాషా నమూనాలు ఇప్పటికీ టెక్స్ట్-టు-ఇమేజ్ జనరేషన్ కోసం అత్యంత ప్రభావవంతమైన టెక్స్ట్ ఎన్కోడర్లు.
అధ్యయనం డైనమిక్ థ్రెషోల్డింగ్ భావనను కూడా పరిచయం చేస్తుంది. చిత్రాన్ని రూపొందించేటప్పుడు మార్గదర్శక బరువులను పెంచడం ద్వారా చిత్రాలను మరింత ఫోటోరియలిస్టిక్గా కనిపించేలా ఈ పద్ధతి అనుమతిస్తుంది.
DALLE 2 vs ఇమేజెన్ యొక్క పనితీరు
Google యొక్క బెంచ్మార్క్ నుండి ప్రాథమిక ఫలితాలు మానవ ప్రతివాదులు DALL-E 2 మరియు ఇతర టెక్స్ట్-టు-ఇమేజ్ మోడల్లైన లాటెంట్ డిఫ్యూజన్ మరియు VQGAN+CLIP ద్వారా ఇమేజెన్ ద్వారా రూపొందించబడిన చిత్రాలను ఇష్టపడతారని చూపిస్తుంది.
ఇమేజెన్ బృందం నుండి వచ్చే అవుట్పుట్ కూడా వారి మోడల్ స్పెల్లింగ్ టెక్స్ట్లో మెరుగ్గా పనిచేస్తుందని చూపించింది, ఇది DALL-E 2 మోడల్కు తెలిసిన బలహీనత.
అయినప్పటికీ, Google ఇంకా మోడల్ను ప్రజలకు విడుదల చేయలేదు కాబట్టి, Google యొక్క బెంచ్మార్క్లు ఎంత ఖచ్చితమైనవి అనేది ఇంకా చూడవలసి ఉంది.
ముగింపు
ఫోటోరియలిస్టిక్ టెక్స్ట్-టు-ఇమేజ్ మోడల్ల పెరుగుదల వివాదాస్పదమైంది ఎందుకంటే ఈ మోడల్లు అనైతిక ఉపయోగం కోసం పండినవి.
సాంకేతికత స్పష్టమైన కంటెంట్ను సృష్టించడానికి లేదా తప్పుడు సమాచారం కోసం ఒక సాధనంగా దారితీయవచ్చు. Google మరియు OpenAI రెండింటి నుండి పరిశోధకులకు దీని గురించి తెలుసు, అందుకే ఈ సాంకేతికతలు ఇప్పటికీ అందరికీ అందుబాటులో లేవు.
టెక్స్ట్-టు-ఇమేజ్ మోడల్లు కూడా ముఖ్యమైన ఆర్థిక చిక్కులను కలిగి ఉన్నాయి. DALL-E వంటి మోడల్లు ప్రధాన స్రవంతిలోకి మారితే మోడల్లు, ఫోటోగ్రాఫర్లు మరియు కళాకారుల వంటి వృత్తులు ప్రభావితం అవుతాయా?
ప్రస్తుతానికి, ఈ నమూనాలు ఇప్పటికీ పరిమితులను కలిగి ఉన్నాయి. AI- రూపొందించిన ఏదైనా చిత్రాన్ని పరిశీలనకు పట్టుకోవడం దాని లోపాలను బహిర్గతం చేస్తుంది. OpenAI మరియు Google రెండూ అత్యంత ప్రభావవంతమైన మోడల్ల కోసం పోటీ పడుతుండడంతో, నిజంగా పరిపూర్ణమైన అవుట్పుట్ను రూపొందించడానికి ముందు ఇది కొంత సమయం కావచ్చు: అసలు విషయం నుండి వేరు చేయలేని చిత్రం.
సాంకేతికత అంత దూరం వెళితే ఏమి జరుగుతుందని మీరు అనుకుంటున్నారు?
సమాధానం ఇవ్వూ