గత రెండు సంవత్సరాలలో టెక్స్ట్-టు-ఇమేజ్ AI మోడల్లు ఎంత శక్తివంతమైనవిగా మారాయనే దాని గురించి మీరు విని ఉండవచ్చు. కానీ అదే సాంకేతికత 2D నుండి 3Dకి దూకడానికి సహాయపడుతుందని మీకు తెలుసా?
నేటి డిజిటల్ ల్యాండ్స్కేప్లో AI- రూపొందించిన 3D మోడల్లు విస్తృత వినియోగ సందర్భాన్ని కలిగి ఉన్నాయి. వీడియో గేమ్స్ మరియు చలనచిత్రం నైపుణ్యం కలిగిన 3D కళాకారులపై ఆధారపడుతుంది మరియు కంప్యూటర్-ఉత్పత్తి దృశ్యాలను అందించడానికి 3D ఆస్తులను సృష్టించడానికి బ్లెండర్ వంటి మోడలింగ్ సాఫ్ట్వేర్లపై ఆధారపడుతుంది.
ఏది ఏమైనప్పటికీ, పరిశ్రమ తక్కువ శ్రమతో 3D ఆస్తులను రూపొందించడానికి యంత్ర అభ్యాసాన్ని ఉపయోగించడం సాధ్యమేనా, అదే విధంగా నేడు 2D కళాకారులు DALL-E మరియు మిడ్ జర్నీ?
ఈ కథనం ఇప్పటికే ఉన్న ఉపయోగించి సమర్థవంతమైన టెక్స్ట్-టు-3D మోడల్ను రూపొందించడానికి ప్రయత్నించే నవల అల్గారిథమ్ను అన్వేషిస్తుంది వ్యాప్తి నమూనాలు.
ఏమిటి డ్రీమ్ఫ్యూజన్?
3D ఆస్తులను నేరుగా ఉత్పత్తి చేసే డిఫ్యూజన్ మోడల్ను రూపొందించడంలో ఒక ప్రధాన సమస్య ఏమిటంటే చాలా 3D డేటా అందుబాటులో లేదు. ఇంటర్నెట్లో కనిపించే చిత్రాల యొక్క విస్తారమైన డేటాసెట్ కారణంగా 2D వ్యాప్తి నమూనాలు చాలా శక్తివంతమైనవిగా మారాయి. 3డి ఆస్తుల విషయంలో కూడా ఇదే చెప్పలేం.
కొన్ని 3D ఉత్పాదక పద్ధతులు ఈ సమృద్ధిగా ఉన్న 2D డేటాను సద్వినియోగం చేసుకోవడం ద్వారా ఈ డేటా లేకపోవడంతో పని చేస్తాయి.
డ్రీమ్ఫ్యూజన్ అందించిన వచన వివరణ ఆధారంగా 3D నమూనాలను సృష్టించగల ఉత్పాదక నమూనా. DreamFusion మోడల్ టెక్స్ట్ ప్రాంప్ట్ల నుండి వాస్తవిక త్రిమితీయ నమూనాలను రూపొందించడానికి ముందుగా శిక్షణ పొందిన టెక్స్ట్-టు-ఇమేజ్ డిఫ్యూజన్ మోడల్ను ఉపయోగిస్తుంది.
3D శిక్షణ డేటా లేనప్పటికీ, ఈ విధానం అధిక-విశ్వసనీయ రూపం మరియు లోతుతో పొందికైన 3D ఆస్తులను రూపొందించింది.
ఇది ఎలా పని చేస్తుంది?
DreamFusion అల్గోరిథం రెండు ప్రధాన నమూనాలను కలిగి ఉంటుంది: ఒక 2D డిఫ్యూజన్ మోడల్ మరియు a నాడీ నెట్వర్క్ ఇది 2D చిత్రాలను ఒక బంధన 3D దృశ్యంగా మార్చగలదు.
Google యొక్క ఇమేజ్ టెక్స్ట్-టు-ఇమేజ్ మోడల్
అల్గోరిథం యొక్క మొదటి భాగం వ్యాప్తి నమూనా. వచనాన్ని చిత్రాలకు మార్చడానికి ఈ మోడల్ బాధ్యత వహిస్తుంది.
చిత్రాన్ని ఒక నిర్దిష్ట వస్తువు యొక్క చిత్ర వైవిధ్యాల యొక్క పెద్ద నమూనాను రూపొందించగల ఒక వ్యాప్తి నమూనా. ఈ సందర్భంలో, మా చిత్ర వైవిధ్యాలు అందించిన వస్తువు యొక్క అన్ని కోణాలను కవర్ చేయాలి. ఉదాహరణకు, మేము గుర్రం యొక్క 3D మోడల్ను రూపొందించాలనుకుంటే, మేము అన్ని కోణాల నుండి గుర్రం యొక్క 2D చిత్రాలను కోరుకుంటున్నాము. మా అల్గారిథమ్లోని తదుపరి మోడల్ కోసం వీలైనంత ఎక్కువ సమాచారాన్ని (రంగులు, ప్రతిబింబాలు, సాంద్రత) అందించడానికి Imagenను ఉపయోగించడం లక్ష్యం.
NeRFతో 3D మోడల్లను సృష్టిస్తోంది
తర్వాత, డ్రీమ్ఫ్యూజన్ ఒక మోడల్ని ఉపయోగిస్తుంది న్యూరల్ రేడియన్స్ ఫీల్డ్ లేదా NeRF నిజానికి రూపొందించబడిన ఇమేజ్ సెట్ నుండి 3D మోడల్ని సృష్టించడానికి. NeRFలు 3D చిత్రాల డేటాసెట్తో సంక్లిష్టమైన 2D దృశ్యాలను సృష్టించగలవు.
NeRF ఎలా పనిచేస్తుందో అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం.
అందించబడిన 2D చిత్రాల డేటాసెట్ నుండి ఆప్టిమైజ్ చేయబడిన నిరంతర వాల్యూమెట్రిక్ సీన్ ఫంక్షన్ను రూపొందించడం మోడల్ లక్ష్యం.
మోడల్ ఒక ఫంక్షన్ను సృష్టిస్తే, ఇన్పుట్ మరియు అవుట్పుట్ ఏమిటి?
సన్నివేశం ఫంక్షన్ 3D స్థానం మరియు 2D వీక్షణ దిశను ఇన్పుట్గా తీసుకుంటుంది. ఫంక్షన్ అప్పుడు రంగు (RGB రూపంలో) మరియు నిర్దిష్ట వాల్యూమ్ సాంద్రతను అందిస్తుంది.
నిర్దిష్ట దృక్కోణం నుండి 2D చిత్రాన్ని రూపొందించడానికి, మోడల్ 3D పాయింట్ల సమితిని ఉత్పత్తి చేస్తుంది మరియు రంగు మరియు వాల్యూమ్ సాంద్రత విలువల సమితిని అందించడానికి సన్నివేశం ఫంక్షన్ ద్వారా ఆ పాయింట్లను అమలు చేస్తుంది. వాల్యూమ్ రెండరింగ్ పద్ధతులు ఆ విలువలను 2D ఇమేజ్ అవుట్పుట్గా మారుస్తాయి.
NeRF మరియు 2D డిఫ్యూజన్ మోడల్లను కలిపి ఉపయోగించడం
NeRF ఎలా పనిచేస్తుందో ఇప్పుడు మనకు తెలుసు, ఈ మోడల్ మన రూపొందించిన చిత్రాల నుండి ఖచ్చితమైన 3D మోడల్లను ఎలా రూపొందించగలదో చూద్దాం.
అందించిన ప్రతి టెక్స్ట్ ప్రాంప్ట్ కోసం, DreamFusion మొదటి నుండి యాదృచ్ఛికంగా ప్రారంభించబడిన NeRFకి శిక్షణ ఇస్తుంది. ప్రతి పునరావృతం గోళాకార కోఆర్డినేట్ల సెట్లో యాదృచ్ఛిక కెమెరా స్థానాన్ని ఎంచుకుంటుంది. గాజు గోళంలో ఉన్న మోడల్ గురించి ఆలోచించండి. మేము మా 3D మోడల్ యొక్క కొత్త చిత్రాన్ని రూపొందించిన ప్రతిసారీ, మా అవుట్పుట్ యొక్క వాన్టేజ్ పాయింట్గా మా గోళంలో యాదృచ్ఛిక బిందువును ఎంచుకుంటాము. DreamFusion యాదృచ్ఛిక కాంతి స్థానాన్ని కూడా ఎంచుకుంటుంది l రెండరింగ్ కోసం ఉపయోగించడానికి.
మేము కెమెరా మరియు లైట్ పొజిషన్ను కలిగి ఉన్న తర్వాత, ఒక NeRF మోడల్ రెండర్ చేయబడుతుంది. DreamFusion యాదృచ్ఛికంగా రంగుల రెండర్, ఆకృతి లేని రెండర్ మరియు ఆల్బెడో యొక్క రెండరింగ్ మధ్య ఎటువంటి షేడింగ్ లేకుండా ఎంచుకుంటుంది.
మా టెక్స్ట్-టు-ఇమేజ్ మోడల్ (ఇమేజెన్) ప్రతినిధి నమూనాను రూపొందించడానికి తగినంత చిత్రాలను రూపొందించాలని మేము ఇంతకు ముందే పేర్కొన్నాము.
డ్రీమ్ఫ్యూజన్ దీన్ని ఎలా సాధిస్తుంది?
డ్రీమ్ఫ్యూజన్ ఉద్దేశించిన కోణాలను సాధించడానికి ఇన్పుట్ ప్రాంప్ట్ను కొద్దిగా సవరించింది. ఉదాహరణకు, మన ప్రాంప్ట్కు “ఓవర్హెడ్ వ్యూ” జోడించడం ద్వారా మేము అధిక ఎలివేషన్ కోణాలను సాధించవచ్చు. “ఫ్రంట్ వ్యూ”, “సైడ్ వ్యూ” మరియు “బ్యాక్ వ్యూ” వంటి పదబంధాలను జోడించడం ద్వారా మనం ఇతర కోణాలను రూపొందించవచ్చు.
యాదృచ్ఛిక కెమెరా స్థానాల నుండి దృశ్యాలు పదేపదే రెండర్ చేయబడతాయి. ఈ రెండరింగ్లు స్కోర్ డిస్టిలేషన్ లాస్ ఫంక్షన్ గుండా వెళతాయి. ఒక సాధారణ గ్రేడియంట్ అవరోహణ విధానం నెమ్మదిగా మెరుగుపరుస్తుంది 3D మోడల్ ఇది వచనం ద్వారా వివరించబడిన దృశ్యానికి సరిపోయే వరకు.
మేము NeRFని ఉపయోగించి 3D మోడల్ను రెండర్ చేసిన తర్వాత, మేము దీనిని ఉపయోగించవచ్చు మార్చింగ్ క్యూబ్స్ అల్గోరిథం మా మోడల్ యొక్క 3D మెష్ను అవుట్పుట్ చేయడానికి. ఈ మెష్ తర్వాత ప్రముఖ 3D రెండరర్లు లేదా మోడలింగ్ సాఫ్ట్వేర్లోకి దిగుమతి చేసుకోవచ్చు.
పరిమితులు
డ్రీమ్ఫ్యూజన్ యొక్క అవుట్పుట్ ఇప్పటికే ఉన్న టెక్స్ట్-టు-ఇమేజ్ డిఫ్యూజన్ మోడల్లను ఒక కొత్త మార్గంలో ఉపయోగిస్తుంది కాబట్టి, పరిశోధకులు కొన్ని పరిమితులను గుర్తించారు.
SDS లాస్ ఫంక్షన్ ఓవర్సాచురేటెడ్ మరియు ఓవర్ స్మూత్డ్ ఫలితాలను అందించడానికి గమనించబడింది. మీరు దీన్ని అసహజమైన రంగులు వేయడం మరియు అవుట్పుట్లలో కచ్చితమైన వివరాలు లేకపోవడాన్ని గమనించవచ్చు.
DreamFusion అల్గోరిథం ఇమేజెన్ మోడల్ అవుట్పుట్ యొక్క రిజల్యూషన్ ద్వారా కూడా పరిమితం చేయబడింది, ఇది 64 x 64 పిక్సెల్లు. ఇది సంశ్లేషణ చేయబడిన మోడళ్లకు చక్కటి వివరాలు లేకపోవడానికి దారితీస్తుంది.
చివరగా, 3D డేటా నుండి 2D మోడల్లను సింథసైజ్ చేయడంలో స్వాభావిక సవాలు ఉందని పరిశోధకులు గుర్తించారు. 3D చిత్రాల సమితి నుండి మనం రూపొందించగల అనేక 2D నమూనాలు ఉన్నాయి, ఇది ఆప్టిమైజేషన్ను చాలా కష్టతరం చేస్తుంది మరియు అస్పష్టంగా కూడా చేస్తుంది.
ముగింపు
ఏదైనా వస్తువు లేదా దృశ్యాన్ని సృష్టించడానికి టెక్స్ట్-టు-ఇమేజ్ డిఫ్యూజన్ మోడల్ల సామర్థ్యం కారణంగా DreamFusion యొక్క 3D రెండరింగ్లు బాగా పని చేస్తాయి. ఎటువంటి 3D శిక్షణ డేటా లేకుండా 3D స్పేస్లోని ఒక దృశ్యాన్ని న్యూరల్ నెట్వర్క్ ఎలా అర్థం చేసుకోగలదో అది ఆకట్టుకుంటుంది. నేను చదవమని సిఫార్సు చేస్తున్నాను మొత్తం కాగితం DreamFusion అల్గారిథమ్ యొక్క సాంకేతిక వివరాల గురించి మరింత తెలుసుకోవడానికి.
చివరికి ఫోటో-రియలిస్టిక్ 3D మోడల్లను రూపొందించడానికి ఈ సాంకేతికత మెరుగుపడుతుందని ఆశిస్తున్నాము. AI రూపొందించిన పరిసరాలను ఉపయోగించే మొత్తం వీడియో గేమ్లు లేదా అనుకరణలను ఊహించండి. లీనమయ్యే 3D ప్రపంచాలను సృష్టించడానికి ఇది వీడియో గేమ్ డెవలపర్ల ప్రవేశ అవరోధాన్ని తగ్గిస్తుంది!
భవిష్యత్తులో టెక్స్ట్-టు-3D మోడల్స్ ఏ పాత్ర పోషిస్తాయని మీరు అనుకుంటున్నారు?
సమాధానం ఇవ్వూ