Mae modelau trylediad wedi ysgubo'r byd gan storm gyda rhyddhau Dal-E 2, Delwedd Google, Trylediad Sefydlog, a Canol siwrnai, sbarduno arloesedd ac ymestyn ffiniau dysgu peirianyddol.
Gall y modelau hyn gynhyrchu nifer bron yn ddiderfyn o ddelweddau o awgrymiadau geiriau, gan gynnwys delweddau ffotorealistig, hudol, dyfodolaidd, ac, wrth gwrs, delweddau ciwt.
Mae'r galluoedd hyn yn ail-ddychmygu'r hyn y mae'n ei olygu i bobl ryngwynebu â silicon, gan roi'r gallu i ni wneud bron unrhyw lun y gallwn ei ragweld.
Wrth i'r modelau hyn ddatblygu neu wrth i'r patrwm cynhyrchiol nesaf gymryd drosodd, bydd bodau dynol yn gallu cynhyrchu delweddau, ffilmiau, a phrofiadau trochi eraill gyda meddwl yn unig.
Yn y swydd hon, byddwn yn trafod y model trylediad, trylediad sefydlog, sut mae'n gweithio, a thiwtorial peintio model tryledu, ymhlith pethau eraill.
Beth yw'r model Tryledu?
Cyfeirir at fodelau dysgu peirianyddol a all greu data newydd o ddata hyfforddi fel modelau cynhyrchiol. Mae modelau cynhyrchiol eraill yn cynnwys modelau seiliedig ar lif, awto-godyddion amrywiadol, a rhwydweithiau gwrthwynebus cynhyrchiol (GANs).
Gall pob un gynhyrchu lluniau o ansawdd rhagorol. Mae modelau trylediad yn dysgu adfer y data trwy wrthdroi'r broses ychwanegu sŵn hon ar ôl niweidio'r data hyfforddi trwy ychwanegu sŵn. I'w roi mewn ffordd arall, mae modelau trylediad yn gallu creu lluniau cydlynol allan o'r sŵn.
Mae modelau trylediad yn dysgu trwy gyflwyno sŵn i luniau, y mae'r model yn ddiweddarach yn meistroli'r broses o gael gwared arnynt. Er mwyn cynhyrchu delweddau realistig, mae'r model wedyn yn cymhwyso'r dechneg denoising hon i hadau ar hap.
Trwy gyflyru'r broses cynhyrchu lluniau, gellir defnyddio'r modelau hyn ar y cyd â chanllawiau testun-i-ddelwedd i gynhyrchu nifer bron yn ddiderfyn o ddelweddau o destun yn unig. Gall yr hadau gael eu cyfeirio gan fewnbynnau o fewnosodiadau fel CLIP i roi galluoedd testun-i-ddelwedd cryf.
Gall modelau tryledu gyflawni amrywiaeth o dasgau, gan gynnwys creu delweddau, dadwneud delweddau, peintio, paentio allan, a thryledu ychydig.
Nawr, beth yw trylediad sefydlog?
Mae Stable Diffusion yn fodel dysgu peirianyddol ar gyfer creu lluniau yn seiliedig ar destun a ddarperir gan Sefydlogrwydd.AI. Mae'n gallu cynhyrchu delweddau o destun.
Cydrannau trylediad sefydlog
Trylediad Sefydlog yn system sy'n cynnwys nifer o gydrannau a chysyniadau. Nid model unigol mohono. Pan fyddwn yn gwirio y tu ôl i'r cwfl, y peth cyntaf a welwn yw bod yna gydran deall testun sy'n trosi gwybodaeth testun yn gynrychioliad rhifol sy'n dal cysyniadau'r testun.
Gallwn alw'r amgodiwr testun hwn yn Drawsnewidydd model iaith (yn dechnegol: amgodiwr testun model CLIP). Mae'n cymryd y testun mewnbwn ac yn cynhyrchu rhestr o gyfanrifau (fector) ar gyfer pob gair/tocyn yn y testun. Yna caiff y data hwnnw ei gyflenwi i'r Cynhyrchydd Delwedd, sy'n cynnwys sawl cydran.
Mae dau gam yn y generadur delwedd:
1. Crëwr Gwybodaeth Delwedd
Y brif gydran mewn Trylediad Sefydlog yw'r elfen hon. Dyma lle mae'r rhan fwyaf o'r gwelliant mewn perfformiad o gymharu â fersiynau cynharach.
Mae'r gydran hon yn mynd trwy sawl cam i ddarparu data llun. Dim ond o fewn gofod gwybodaeth delwedd (neu ofod cudd) y mae crëwr gwybodaeth llun yn gweithredu.
Mae'n gyflymach na modelau trylediad cynharach a oedd yn gweithredu mewn gofod picsel oherwydd y nodwedd hon. Yn dechnegol, mae'r gydran hon yn cynnwys algorithm amserlennu ac UNet rhwydwaith nefol.
Cyfeirir at y broses sy'n digwydd yn y gydran hon fel “trylediad”. Cynhyrchir delwedd o ansawdd uchel yn y pen draw o ganlyniad i brosesu'r wybodaeth fesul cam (gan y gydran nesaf, y datgodiwr delwedd).
2. Delwedd Decoder
Gan ddefnyddio'r data a gafodd gan y cynhyrchydd gwybodaeth, mae'r datgodiwr delwedd yn creu llun. Mae'n gweithredu unwaith yn unig i greu'r llun picsel gorffenedig ar ddiwedd y llawdriniaeth.
Tiwtorial Ardrawiad Tryledu Sefydlog
Peintio llun Trylediad Stabl yw'r dechneg o lenwi rhannau o ddelwedd sydd ar goll neu wedi'u difrodi. Pwrpas peintio lluniau yw cuddio'r ffaith bod y ddelwedd wedi'i hadfer.
Defnyddir y dechneg hon yn aml i ddileu pethau annymunol o ddelwedd neu i adfer rhannau o ffotograffau hanesyddol sydd wedi'u difrodi. Mae peintio Trylediad Stabl yn ffordd gymharol ddiweddar o baentio sy'n arwain at effeithiau addawol.
Bydd dilyn y cyfarwyddiadau isod yn eich galluogi i ddechrau archwilio peintio ac addasu lluniau presennol os ydych chi am geisio peintio â thrylediad sefydlog:
- Ewch i Huggingface Ardrawiad Trylediad Sefydlog
- Uwchlwythwch eich delwedd eich hun
- Dileu'r rhan o'ch delwedd sydd angen ei disodli.
- Rhowch eich anogwr yma (yr hyn rydych chi am ei ychwanegu yn lle'r hyn rydych chi'n ei ddileu)
- Dewiswch "rhedeg"
Yn y fideo i fyny top, rydyn ni'n uwchlwytho llun gyda thri lemon a'u cyfnewid am afalau. Rwy'n bersonol yn argymell rhoi cynnig arni gyda'ch ffotograffau a'ch awgrymiadau eich hun.
Casgliad
Yn gyffredinol, mae peintio trylediad cyson yn ddull ardderchog o gynhyrchu delweddau neu fideos ffug sy'n ymddangos yn hynod o real. Wrth i ni symud tuag at ddatblygiad technoleg newydd, bydd yn mynd yn anoddach ac yn anoddach gwahaniaethu rhwng dilys a thwyllodrus wrth i dechnoleg ddatblygu.
Swahir
Mae'r hanner cyntaf yn gwbl amherthnasol i'r ail hanner. Byddai wedi bod yn cŵl iawn pe bai'r awdur wedi egluro sut mae paent yn gweithio yn fframwaith y model a eglurodd yn gynharach, wedi gallu rhoi mewnwelediadau. Ond na! Byddai hynny wedi gofyn am ddealltwriaeth wirioneddol, yn hytrach na chasglu a phrosesu testun ar hap.