ນັກວິທະຍາສາດຂໍ້ມູນ ແລະຜູ້ຊ່ຽວຊານດ້ານການຮຽນຮູ້ເຄື່ອງຈັກຈັດການກັບຂໍ້ມູນຈໍານວນຫລາຍຂອງປະເພດຕ່າງໆໃນໂຄງການວິທະຍາສາດຂໍ້ມູນທົ່ວໄປ. ແບບຈໍາລອງຈໍານວນຫລາຍໄດ້ຖືກພັດທະນາດ້ວຍການຕັ້ງຄ່າແລະລັກສະນະຕ່າງໆ, ເຊັ່ນດຽວກັນກັບການປັບຕົວພາລາມິເຕີແບບຊ້ໍາຊ້ອນເພື່ອໃຫ້ໄດ້ປະສິດທິພາບທີ່ດີທີ່ສຸດ.
ໃນສະຖານະການດັ່ງກ່າວ, ທຸກໆການດັດແກ້ຂໍ້ມູນແລະການປັບປຸງຂະບວນການສ້າງຕົວແບບຕ້ອງໄດ້ຮັບການຕິດຕາມແລະວັດແທກເພື່ອກໍານົດສິ່ງທີ່ເຮັດວຽກແລະສິ່ງທີ່ບໍ່ໄດ້. ມັນຍັງມີຄວາມສໍາຄັນທີ່ຈະສາມາດກັບຄືນໄປຫາສະບັບທີ່ຜ່ານມາແລະເບິ່ງຜົນໄດ້ຮັບທີ່ຜ່ານມາ.
ການຄວບຄຸມເວີຊັນຂໍ້ມູນ (DVC), ເຊິ່ງຊ່ວຍໃນການຄຸ້ມຄອງຂໍ້ມູນ, ຮູບແບບທີ່ຕິດພັນ, ແລະດໍາເນີນການຜົນໄດ້ຮັບທີ່ສາມາດແຜ່ພັນໄດ້, ເປັນເທກໂນໂລຍີຫນຶ່ງທີ່ຊ່ວຍໃຫ້ພວກເຮົາສາມາດຕິດຕາມທັງຫມົດນີ້.
ໃນບົດຂຽນນີ້, ພວກເຮົາຈະເບິ່ງຢ່າງໃກ້ຊິດໃນການຄວບຄຸມສະບັບຂໍ້ມູນ, ແລະເຄື່ອງມືທີ່ດີທີ່ສຸດທີ່ຈະໃຊ້. ໃຫ້ເລີ່ມຕົ້ນ.
ການຄວບຄຸມເວີຊັນຂໍ້ມູນແມ່ນຫຍັງ?
ສະບັບແມ່ນຕ້ອງການສໍາລັບລະບົບການຜະລິດທັງຫມົດ. ຈຸດດຽວຂອງການເຂົ້າເຖິງຂໍ້ມູນທີ່ທັນສະໄຫມທີ່ສຸດ. ຊັບພະຍາກອນໃດໆທີ່ມັກຈະຖືກດັດແປງ, ໂດຍສະເພາະໂດຍຜູ້ໃຊ້ຫຼາຍໆຄົນໃນເວລາດຽວກັນ, ຕ້ອງການການສ້າງເສັ້ນທາງການກວດສອບເພື່ອຕິດຕາມການປ່ຽນແປງທັງຫມົດ.
ລະບົບການຄວບຄຸມສະບັບແມ່ນຮັບຜິດຊອບສໍາລັບການຮັບປະກັນວ່າທຸກຄົນໃນທີມງານຢູ່ໃນຫນ້າດຽວກັນ. ມັນຮັບປະກັນວ່າທຸກຄົນໃນທີມງານກໍາລັງເຮັດວຽກຢູ່ໃນສະບັບຫລ້າສຸດຂອງໄຟລ໌ແລະ, ສໍາຄັນກວ່ານັ້ນ, ທຸກຄົນກໍາລັງຮ່ວມມືໃນໂຄງການດຽວກັນໃນແຕ່ລະຄັ້ງ.
ຖ້າທ່ານມີອຸປະກອນທີ່ເຫມາະສົມ, ທ່ານສາມາດເຮັດສໍາເລັດດ້ວຍຄວາມພະຍາຍາມຫນ້ອຍທີ່ສຸດ!
ເຈົ້າຈະມີຊຸດຂໍ້ມູນທີ່ສອດຄ່ອງກັນ ແລະເກັບຂໍ້ມູນຢ່າງລະອຽດຂອງການຄົ້ນຄວ້າທັງໝົດຂອງເຈົ້າຫາກເຈົ້າໃຊ້ຍຸດທະສາດການຈັດການສະບັບຂໍ້ມູນທີ່ໜ້າເຊື່ອຖືໄດ້. ເຄື່ອງມືການສ້າງສະບັບຂໍ້ມູນແມ່ນສໍາຄັນສໍາລັບຂະບວນການເຮັດວຽກຂອງທ່ານຖ້າທ່ານສົນໃຈກ່ຽວກັບການແຜ່ພັນ, ການຕິດຕາມແລະປະຫວັດຕົວແບບ ML.
ພວກມັນຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບສະບັບຂອງລາຍການ, ເຊັ່ນ hash ຂອງຊຸດຂໍ້ມູນຫຼືຮູບແບບ, ເຊິ່ງຫຼັງຈາກນັ້ນທ່ານສາມາດນໍາໃຊ້ເພື່ອກໍານົດແລະປຽບທຽບ. ສະບັບຂໍ້ມູນນີ້ມັກຈະເຂົ້າໄປໃນການແກ້ໄຂການຈັດການ metadata ຂອງທ່ານເພື່ອຮັບປະກັນວ່າການຝຶກອົບຮົມແບບຈໍາລອງຂອງທ່ານແມ່ນສະບັບແລະເຮັດຊ້ໍາໄດ້.
ເຄື່ອງມືການຄວບຄຸມເວີຊັນຂໍ້ມູນທີ່ດີທີ່ສຸດ
ດຽວນີ້ເຖິງເວລາແລ້ວທີ່ຈະເບິ່ງວິທີແກ້ໄຂການຄວບຄຸມສະບັບຂໍ້ມູນທີ່ດີທີ່ສຸດທີ່ມີຢູ່, ທີ່ທ່ານສາມາດນໍາໃຊ້ເພື່ອຕິດຕາມທຸກໆສ່ວນຂອງລະຫັດຂອງທ່ານ.
1. ເອົາ LFS
ໂຄງການ Git LFS ແມ່ນບໍ່ເສຍຄ່າເພື່ອໃຊ້. ພາຍໃນ Git, ໄຟລ໌ຂະຫນາດໃຫຍ່ເຊັ່ນຕົວຢ່າງສຽງ, ວິດີໂອ, ຖານຂໍ້ມູນ, ແລະຮູບພາບແມ່ນຖືກແທນທີ່ດ້ວຍຕົວຊີ້ຂໍ້ຄວາມ, ແລະເນື້ອໃນຂອງໄຟລ໌ຈະຖືກບັນທຶກໄວ້ໃນເຄື່ອງແມ່ຂ່າຍຫ່າງໄກສອກຫຼີກເຊັ່ນ GitHub.com ຫຼື GitHub Enterprise.
ມັນອະນຸຍາດໃຫ້ທ່ານໃຊ້ Git ເພື່ອສະບັບໄຟລ໌ຂະຫນາດໃຫຍ່ - ເຖິງຫຼາຍ GB ໃນຂະຫນາດ - ເປັນເຈົ້າພາບເພີ່ມເຕີມໃນບ່ອນເກັບ Git ຂອງທ່ານໂດຍໃຊ້ບ່ອນເກັບຂໍ້ມູນພາຍນອກ, ແລະ clone ແລະດຶງເອົາບ່ອນເກັບມ້ຽນໄຟລ໌ຂະຫນາດໃຫຍ່ໄວຂຶ້ນ. ໃນເວລາທີ່ມັນມາກັບການຄຸ້ມຄອງຂໍ້ມູນ, ນີ້ແມ່ນການແກ້ໄຂແສງສະຫວ່າງ pretty. ເພື່ອເຮັດວຽກກັບ Git, ທ່ານບໍ່ຕ້ອງການຄໍາສັ່ງພິເສດ, ລະບົບການເກັບຮັກສາ, ຫຼືຊຸດເຄື່ອງມື.
ມັນຈຳກັດປະລິມານຂໍ້ມູນທີ່ທ່ານດາວໂຫຼດ. ນີ້ຫມາຍຄວາມວ່າການໂຄນແລະການດຶງໄຟລ໌ຂະຫນາດໃຫຍ່ຈາກ repositories ຈະໄວຂຶ້ນ. ຕົວຊີ້ແມ່ນເຮັດດ້ວຍວັດສະດຸທີ່ອ່ອນກວ່າແລະຊີ້ໄປຫາ LFS.
ດັ່ງນັ້ນ, ໃນເວລາທີ່ທ່ານຍູ້ repo ຂອງທ່ານເຂົ້າໄປໃນ repository ຕົ້ນຕໍ, ມັນປັບປຸງຢ່າງໄວວາແລະໃຊ້ເວລາເຖິງພື້ນທີ່ຫນ້ອຍ.
pros
- ປະສົມປະສານໄດ້ຢ່າງງ່າຍດາຍເຂົ້າໃນຂະບວນການພັດທະນາຂອງທຸລະກິດສ່ວນໃຫຍ່.
- ບໍ່ຈໍາເປັນຕ້ອງຈັດການສິດທິພິເສດເພາະວ່າມັນໃຊ້ການອະນຸຍາດດຽວກັນກັບບ່ອນເກັບມ້ຽນ Git.
cons
- Git LFS ຈໍາເປັນຕ້ອງໃຊ້ເຄື່ອງແມ່ຂ່າຍທີ່ອຸທິດຕົນເພື່ອເກັບຮັກສາຂໍ້ມູນຂອງທ່ານ. ດັ່ງນັ້ນ, ທີມງານວິທະຍາສາດຂໍ້ມູນຂອງທ່ານຈະຖືກລັອກໃນ, ແລະວຽກງານວິສະວະກໍາຂອງທ່ານຈະເພີ່ມຂຶ້ນ.
- ພິເສດຫຼາຍ, ແລະອາດຈະຈໍາເປັນຕ້ອງໄດ້ນໍາໃຊ້ແນວພັນຂອງເຄື່ອງມືທີ່ແຕກຕ່າງກັນສໍາລັບໄລຍະຕໍ່ມາໃນຂະບວນການວິທະຍາສາດຂໍ້ມູນ.
ການຕັ້ງລາຄາ
ມັນສາມາດໃຊ້ໄດ້ຟຣີສໍາລັບທຸກຄົນ.
2. LakeFS
LakeFS ເປັນການແກ້ໄຂສະບັບຂໍ້ມູນ open-source ທີ່ເກັບຮັກສາຂໍ້ມູນໃນ S3 ຫຼື GCS ແລະມີສາຂາຄ້າຍຄື Git ແລະຄໍາຫມັ້ນສັນຍາທີ່ຂະຫນາດເຖິງ petabytes.
ຍຸດທະສາດການແຕກງ່ານີ້ເຮັດໃຫ້ຂໍ້ມູນຂອງທ່ານສອດຄ່ອງ ACID ໂດຍອະນຸຍາດໃຫ້ການປ່ຽນແປງທີ່ເກີດຂື້ນໃນສາຂາທີ່ແຕກຕ່າງກັນທີ່ສາມາດກໍ່ສ້າງ, ປະສົມປະສານ, ແລະມ້ວນຄືນໃຫມ່ໃນປະລໍາມະນູແລະທັນທີທັນໃດ.
LakeFS ຊ່ວຍໃຫ້ທີມງານສ້າງກິດຈະກໍາຂອງ Data Lake ທີ່ສາມາດເຮັດຊ້ໍາໄດ້, ປະລໍາມະນູ, ແລະສະບັບ. ມັນເປັນ newbie ກັບ scene, ແຕ່ມັນເປັນຜົນບັງຄັບໃຊ້ທີ່ຈະ reckoned ກັບ.
ມັນໃຊ້ວິທີການຕັດກິ່ງງ່າແບບ Git ແລະການຄວບຄຸມເວີຊັນເພື່ອພົວພັນກັບເຈົ້າ ທະເລສາບຂໍ້ມູນ, ສາມາດຂະຫຍາຍໄດ້ເຖິງ Petabytes ຂອງຂໍ້ມູນ. ໃນລະດັບ exabyte, ທ່ານສາມາດກວດສອບການຄວບຄຸມສະບັບ.
pros
- ການດໍາເນີນງານຄ້າຍຄື Git ປະກອບມີການແບ່ງແຍກ, ຄໍາຫມັ້ນສັນຍາ, ການລວມເຂົ້າ, ແລະ reverting.
- hooks ທາງສ່ວນຫນ້າຂອງຄໍາຫມັ້ນສັນຍາ / merge ຖືກນໍາໃຊ້ສໍາລັບການກວດສອບຂໍ້ມູນ CI / CD.
- ສະຫນອງຄຸນສົມບັດທີ່ຊັບຊ້ອນເຊັ່ນ: ທຸລະກໍາ ACID ສໍາລັບການເກັບຮັກສາຟັງແບບງ່າຍດາຍເຊັ່ນ S3 ແລະ GCS, ທັງຫມົດໃນຂະນະທີ່ຍັງຄົງຢູ່ໃນຮູບແບບທີ່ເປັນກາງ.
- ກັບຄືນການປ່ຽນແປງຂໍ້ມູນໃນເວລາຈິງ.
- ຂະຫຍາຍຂະໜາດໄດ້ຢ່າງສະດວກ, ເຮັດໃຫ້ມັນຮອງຮັບການເກັບຂໍ້ມູນຂະໜາດໃຫຍ່ໄດ້. ການຄວບຄຸມເວີຊັນສາມາດໃຫ້ໄດ້ສໍາລັບທັງການພັດທະນາແລະການຕັ້ງຄ່າການຜະລິດ.
cons
- LakeFS ເປັນຜະລິດຕະພັນໃຫມ່, ດັ່ງນັ້ນການທໍາງານແລະເອກະສານອາດຈະມີການປ່ຽນແປງໄວກ່ວາການແກ້ໄຂທີ່ຜ່ານມາ.
- ເນື່ອງຈາກວ່າມັນສຸມໃສ່ການສະບັບຂໍ້ມູນ, ທ່ານຈະຕ້ອງໄດ້ນໍາໃຊ້ແນວພັນຂອງເຄື່ອງມືເພີ່ມເຕີມສໍາລັບພາກສ່ວນຕ່າງໆຂອງຂະບວນການວິທະຍາສາດຂໍ້ມູນ.
ການຕັ້ງລາຄາ
ມັນສາມາດໃຊ້ໄດ້ຟຣີສໍາລັບທຸກຄົນ.
3. DVC
Data Version Control ແມ່ນການແກ້ໄຂສະບັບຂໍ້ມູນຟຣີທີ່ອອກແບບມາສໍາລັບວິທະຍາສາດຂໍ້ມູນ ແລະຄໍາຮ້ອງສະຫມັກການຮຽນຮູ້ເຄື່ອງຈັກ. ມັນເປັນໂຄງການທີ່ອະນຸຍາດໃຫ້ທ່ານກໍານົດທໍ່ຂອງທ່ານໃນພາສາໃດຫນຶ່ງ.
ໂດຍການຈັດການໄຟລ໌ຂະຫນາດໃຫຍ່, ຊຸດຂໍ້ມູນ, ຮູບແບບການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ລະຫັດ, ແລະອື່ນໆ, ເຄື່ອງມືເຮັດໃຫ້ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກສາມາດແບ່ງປັນໄດ້ແລະສາມາດແຜ່ພັນໄດ້. ໂປລແກລມປະຕິບັດຕາມຜູ້ນໍາ Git ໃນການສະຫນອງເສັ້ນຄໍາສັ່ງທີ່ງ່າຍດາຍທີ່ສາມາດຕັ້ງຄ່າໄດ້ພຽງແຕ່ສອງສາມຂັ້ນຕອນ.
ດັ່ງທີ່ຊື່ຂອງມັນຫມາຍເຖິງ, DVC ບໍ່ພຽງແຕ່ກ່ຽວກັບການສະບັບຂໍ້ມູນເທົ່ານັ້ນ. ມັນຍັງສ້າງຄວາມສະດວກໃນການຄຸ້ມຄອງທໍ່ແລະຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກສໍາລັບທີມງານ.
ສຸດທ້າຍ, DVC ຈະຊ່ວຍປັບປຸງຄວາມສອດຄ່ອງຂອງຕົວແບບຂອງທີມເຈົ້າ ແລະ ການເຮັດຊໍ້າຄືນຂອງເຂົາເຈົ້າ. ແທນທີ່ຈະໃຊ້ suffix ໄຟລ໌ທີ່ສັບສົນແລະຄໍາເຫັນໃນລະຫັດ, ໃຊ້ປະໂຫຍດຈາກ ສາຂາ Git ເພື່ອທົດລອງແນວຄວາມຄິດໃຫມ່. ເພື່ອເດີນທາງ, ນຳໃຊ້ເຄື່ອງມືວັດແທກອັດຕະໂນມັດແທນເຈ້ຍ ແລະສໍ.
ເພື່ອສົ່ງຊຸດທີ່ສອດຄ່ອງຂອງ ການຮຽນຮູ້ເຄື່ອງຈັກ ແບບຈໍາລອງ, ຂໍ້ມູນ, ແລະລະຫັດເຂົ້າໄປໃນການຜະລິດ, ຄອມພິວເຕີຫ່າງໄກ, ຫຼື desktop ຂອງເພື່ອນຮ່ວມງານ, ທ່ານສາມາດນໍາໃຊ້ຄໍາສັ່ງ push/pull ແທນທີ່ຈະເປັນສະຄິບ ad-hoc.
pros
- ມັນມີນ້ຳໜັກເບົາ, ເປີດແຫຼ່ງ, ແລະໃຊ້ໄດ້ກັບທຸກແພລດຟອມຄລາວຫຼັກ ແລະ ປະເພດບ່ອນເກັບຂໍ້ມູນ.
- ມີຄວາມຍືດຫຍຸ່ນ, ບໍ່ເຊື່ອຟັງຮູບແບບແລະກອບ, ແລະງ່າຍດາຍທີ່ຈະປະຕິບັດ.
- ທຸກໆວິວັດທະນາການທັງໝົດຂອງຕົວແບບ ML ສາມາດຖືກຕິດຕາມໄປຫາລະຫັດແຫຼ່ງ ແລະຂໍ້ມູນຂອງມັນ.
cons
- ການຄຸ້ມຄອງທໍ່ແລະການຄວບຄຸມສະບັບ DVC ແມ່ນເຊື່ອມໂຍງ inextricably. ຈະມີການຊໍ້າຊ້ອນຫາກທີມງານຂອງທ່ານໃຊ້ຜະລິດຕະພັນທໍ່ຂໍ້ມູນອື່ນຢູ່ກ່ອນແລ້ວ.
- ເນື່ອງຈາກ DVC ມີນໍ້າໜັກເບົາ, ທີມງານຂອງທ່ານອາດຈະຕ້ອງອອກແບບຄຸນສົມບັດເພີ່ມເຕີມດ້ວຍຕົນເອງເພື່ອເຮັດໃຫ້ມັນເປັນມິດກັບຜູ້ໃຊ້ຫຼາຍຂຶ້ນ.
ການຕັ້ງລາຄາ
ມັນສາມາດໃຊ້ໄດ້ຟຣີສໍາລັບທຸກຄົນ.
4. DeltaLake
DeltaLake ເປັນຊັ້ນເກັບຂໍ້ມູນແບບເປີດທີ່ຊ່ວຍເພີ່ມຄວາມໜ້າເຊື່ອຖືຂອງຂໍ້ມູນ. Delta Lake ສະຫນັບສະຫນູນການເຮັດທຸລະກໍາ ACID ແລະການຈັດການ metadata ທີ່ສາມາດຂະຫຍາຍໄດ້ນອກເຫນືອຈາກການຖ່າຍທອດແລະການປະມວນຜົນຂໍ້ມູນ batch.
ມັນເຮັດວຽກກັບ Apache Spark APIs ແລະນັ່ງຢູ່ໃນອ່າງເກັບຂໍ້ມູນທີ່ມີຢູ່ຂອງເຈົ້າ. Delta Sharing ເປັນໂປໂຕຄອນເປີດທຳອິດຂອງໂລກເພື່ອແບ່ງປັນຂໍ້ມູນຢ່າງປອດໄພໃນທຸລະກິດ, ເຮັດໃຫ້ມັນງ່າຍດາຍໃນການແລກປ່ຽນຂໍ້ມູນກັບທຸລະກິດອື່ນທີ່ບໍ່ຂຶ້ນກັບລະບົບຄອມພິວເຕີຂອງພວກເຂົາ.
Delta Lakes ສາມາດຈັດການຂໍ້ມູນ petabytes ໄດ້ງ່າຍ. Metadata ຖືກເກັບໄວ້ໃນລັກສະນະດຽວກັນກັບຂໍ້ມູນ, ແລະຜູ້ໃຊ້ສາມາດໄດ້ຮັບມັນໂດຍໃຊ້ວິທີການອະທິບາຍລາຍລະອຽດ. Delta Lakes ມີສະຖາປັດຕະຍະກໍາດຽວທີ່ສາມາດອ່ານໄດ້ທັງຂໍ້ມູນ stream ແລະ batch.
Upserts ແມ່ນງ່າຍດາຍທີ່ຈະເຮັດໂດຍໃຊ້ Delta. upserts ຫຼື merges ເຫຼົ່ານີ້ເຂົ້າໄປໃນຕາຕະລາງ Delta ແມ່ນປຽບທຽບກັບ SQL Merges. ທ່ານສາມາດນໍາໃຊ້ມັນເພື່ອເຊື່ອມໂຍງຂໍ້ມູນຈາກກອບຂໍ້ມູນອື່ນເຂົ້າໄປໃນຕາຕະລາງຂອງທ່ານແລະດໍາເນີນການປັບປຸງ, ການແຊກ, ແລະການລົບ.
pros
- ຄວາມສາມາດຫຼາຍຢ່າງ, ເຊັ່ນທຸລະກໍາ ACID ແລະການຈັດການ metadata ທີ່ເຂັ້ມແຂງ, ສາມາດມີຢູ່ໃນການແກ້ໄຂການເກັບຮັກສາຂໍ້ມູນໃນປະຈຸບັນຂອງທ່ານ.
- ດຽວນີ້ Delta Lake ສາມາດຈັດການຕາຕະລາງຢ່າງງ່າຍດາຍດ້ວຍການແບ່ງພາຕິຊັນແລະໄຟລ໌ຫຼາຍພັນລ້ານໃນຂະຫນາດ petabyte.
- ຫຼຸດຜ່ອນຄວາມຕ້ອງການສໍາລັບການຄວບຄຸມສະບັບຂໍ້ມູນຄູ່ມືແລະຄວາມກັງວົນຂໍ້ມູນອື່ນໆ, ໃຫ້ນັກພັດທະນາສຸມໃສ່ການພັດທະນາຜະລິດຕະພັນເທິງຂອງ lakes ຂໍ້ມູນຂອງເຂົາເຈົ້າ.
cons
- ເນື່ອງຈາກວ່າມັນຖືກອອກແບບມາເພື່ອເຮັດວຽກກັບ Spark ແລະຂໍ້ມູນຂະຫນາດໃຫຍ່, Delta Lake ໂດຍທົ່ວໄປແມ່ນ overkilled ສໍາລັບວຽກງານສ່ວນໃຫຍ່.
- ມັນຈໍາເປັນຕ້ອງໃຊ້ຮູບແບບຂໍ້ມູນທີ່ອຸທິດຕົນ, ເຊິ່ງຈໍາກັດຄວາມຍືດຫຍຸ່ນຂອງມັນແລະເຮັດໃຫ້ມັນບໍ່ເຫມາະສົມກັບແບບຟອມປະຈຸບັນຂອງທ່ານ.
ການຕັ້ງລາຄາ
ມັນສາມາດໃຊ້ໄດ້ຟຣີສໍາລັບທຸກຄົນ.
5. Dolt
Dolt ແມ່ນຖານຂໍ້ມູນ SQL ທີ່ເຮັດ forking, cloning, branching, merging, pushing, and pulling in the same way as a git repository. ເພື່ອປັບປຸງປະສົບການຂອງຜູ້ໃຊ້ຂອງຖານຂໍ້ມູນການຄວບຄຸມສະບັບ, Dolt ອະນຸຍາດໃຫ້ຂໍ້ມູນແລະໂຄງສ້າງມີການປ່ຽນແປງໃນການຊິງ.
ມັນເປັນເຄື່ອງມືທີ່ດີເລີດສໍາລັບທ່ານແລະເພື່ອນຮ່ວມງານຂອງທ່ານເພື່ອຮ່ວມມືກັນ. ທ່ານສາມາດເຊື່ອມຕໍ່ກັບ Dolt ໃນທາງດຽວກັນກັບຖານຂໍ້ມູນ MySQL ອື່ນໆແລະດໍາເນີນການສອບຖາມຫຼືເຮັດການປ່ຽນແປງຂໍ້ມູນໂດຍໃຊ້ຄໍາສັ່ງ SQL.
ໃນເວລາທີ່ມັນມາກັບສະບັບຂໍ້ມູນ, Dolt ແມ່ນຫນຶ່ງຂອງປະເພດ. Dolt ແມ່ນຖານຂໍ້ມູນ, ກົງກັນຂ້າມກັບບາງວິທີແກ້ໄຂອື່ນໆທີ່ພຽງແຕ່ຂໍ້ມູນສະບັບ. ໃນຂະນະທີ່ຊອບແວແມ່ນຢູ່ໃນຂັ້ນຕອນຕົ້ນຂອງມັນ, ມີຄວາມຫວັງທີ່ຈະເຮັດໃຫ້ມັນເຂົ້າກັນໄດ້ຢ່າງເຕັມສ່ວນກັບ Git ແລະ MySQL ໃນອະນາຄົດອັນໃກ້ນີ້.
ຄໍາສັ່ງທັງຫມົດທີ່ເຈົ້າຄຸ້ນເຄີຍກັບການໃຊ້ Git ຈະເຮັດວຽກກັບ Dolt. ໄຟລ໌ Git versions, ຕາຕະລາງສະບັບ Dolt ການນໍາໃຊ້ການໂຕ້ຕອບເສັ້ນຄໍາສັ່ງ, ນໍາເຂົ້າໄຟລ໌ CSV, ປະຕິບັດການປ່ຽນແປງຂອງທ່ານ, ເຜີຍແຜ່ພວກມັນໄປຫາຫ່າງໄກສອກຫຼີກ, ແລະລວມການປ່ຽນແປງຂອງເພື່ອນຮ່ວມທີມຂອງທ່ານ.
pros
- ນ້ຳໜັກເບົາ ແລະ Open source ໃນບາງສ່ວນ.
- ໃນການປຽບທຽບກັບທາງເລືອກທີ່ບໍ່ຊັດເຈນຫຼາຍ, ມັນມີການໂຕ້ຕອບ SQL, ເຮັດໃຫ້ມັນສາມາດເຂົ້າເຖິງນັກວິເຄາະຂໍ້ມູນໄດ້ຫຼາຍຂຶ້ນ.
cons
- ໃນການປຽບທຽບກັບຖານຂໍ້ມູນທາງເລືອກອື່ນ, Dolt ຍັງເປັນຜະລິດຕະພັນທີ່ກໍາລັງພັດທະນາ.
- ເນື່ອງຈາກ Dolt ເປັນຖານຂໍ້ມູນ, ທ່ານຕ້ອງໂອນຂໍ້ມູນຂອງທ່ານເຂົ້າໄປໃນມັນເພື່ອໃຫ້ໄດ້ຜົນປະໂຫຍດ.
ການຕັ້ງລາຄາ
ທຸກຄົນແມ່ນຍິນດີຕ້ອນຮັບການນໍາໃຊ້ກອງປະຊຸມຊຸມຊົນ. ເວທີດັ່ງກ່າວບໍ່ໄດ້ສະຫນອງລາຄາທີ່ນິຍົມ; ແທນທີ່ຈະ, ທ່ານຕ້ອງຕິດຕໍ່ຜູ້ໃຫ້ບໍລິການ.
6. ປາchyderm
Pachyderm ເປັນລະບົບການຄວບຄຸມສະບັບວິທະຍາສາດຂໍ້ມູນຟຣີທີ່ມີຄຸນນະສົມບັດຫຼາຍ. Pachyderm Enterprise ເປັນແພລະຕະຟອມວິທະຍາສາດຂໍ້ມູນທີ່ມີປະສິດທິພາບທີ່ຖືກອອກແບບມາສໍາລັບການຮ່ວມມືຂະຫນາດໃຫຍ່ໃນສະພາບແວດລ້ອມທີ່ມີຄວາມປອດໄພສູງ.
Pachyderm ແມ່ນຫນຶ່ງໃນເວທີວິທະຍາສາດຂໍ້ມູນຈໍານວນຫນ້ອຍຂອງບັນຊີລາຍຊື່. ເປົ້າຫມາຍຂອງ Pachyderm ແມ່ນເພື່ອສະຫນອງແພລະຕະຟອມທີ່ຄຸ້ມຄອງວົງຈອນຂໍ້ມູນທີ່ສົມບູນແບບແລະເຮັດໃຫ້ງ່າຍດາຍທີ່ຈະເຮັດຊ້ໍາຜົນການຄົ້ນພົບຂອງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ. Pachyderm ແມ່ນເປັນທີ່ຮູ້ຈັກເປັນ "Docker ຂອງຂໍ້ມູນ" ໃນສະພາບການນີ້. Pachyderm ຫຸ້ມຫໍ່ສະພາບແວດລ້ອມການປະຕິບັດຂອງທ່ານໂດຍໃຊ້ Docker containers. ນີ້ເຮັດໃຫ້ມັນງ່າຍດາຍທີ່ຈະຊ້ໍາຜົນໄດ້ຮັບດຽວກັນ.
ນັກວິທະຍາສາດຂໍ້ມູນ ແລະທີມງານ DevOps ສາມາດນຳໃຊ້ແບບຈໍາລອງດ້ວຍຄວາມເຊື່ອໝັ້ນຍ້ອນການລວມກັນຂອງຂໍ້ມູນເວີຊັນກັບ Docker. ຂໍຂອບໃຈກັບລະບົບການເກັບຮັກສາທີ່ມີປະສິດທິພາບ, petabytes ຂອງຂໍ້ມູນທີ່ມີໂຄງສ້າງແລະບໍ່ມີໂຄງສ້າງສາມາດຮັກສາໄວ້ໃນຂະນະທີ່ຄ່າໃຊ້ຈ່າຍໃນການເກັບຮັກສາຖືກເກັບຮັກສາໄວ້ເປັນຕໍາ່ສຸດທີ່.
ຕະຫຼອດໄລຍະການວາງທໍ່, ການສ້າງແບບເອກະສານໃຫ້ບັນທຶກການກວດສອບຢ່າງລະອຽດສໍາລັບຂໍ້ມູນ ແລະສິ່ງປອມທັງໝົດ, ລວມທັງຜົນໄດ້ຮັບລະດັບປານກາງ. ຄວາມສາມາດຂອງເຄື່ອງມືຈໍານວນຫຼາຍແມ່ນຂັບເຄື່ອນໂດຍເສົາຫຼັກເຫຼົ່ານີ້, ເຊິ່ງຊ່ວຍໃຫ້ທີມງານໄດ້ຮັບປະໂຫຍດສູງສຸດຈາກມັນ.
pros
- ອີງຕາມການບັນຈຸ, ສະພາບແວດລ້ອມຂໍ້ມູນຂອງທ່ານຈະເຄື່ອນທີ່ແລະງ່າຍຕໍ່ການໂອນລະຫວ່າງຜູ້ໃຫ້ບໍລິການຟັງ.
- ແຂງແຮງ, ມີຄວາມສາມາດໃນການຂະຫນາດຈາກຂະຫນາດນ້ອຍເຖິງລະບົບໃຫຍ່ທີ່ສຸດ.
cons
- ເນື່ອງຈາກມີອົງປະກອບເຄື່ອນທີ່ຫຼາຍຢ່າງເຊັ່ນ: ເຊີບເວີ Kubernetes ທີ່ຈໍາເປັນເພື່ອຈັດການສະບັບຟຣີຂອງ Pachyderm, ມັນມີເສັ້ນໂຄ້ງການຮຽນຮູ້ທີ່ສູງຂື້ນ.
- Pachyderm ອາດຈະມີຄວາມທ້າທາຍທີ່ຈະລວມເຂົ້າໃນໂຄງສ້າງພື້ນຖານຂອງບໍລິສັດທີ່ມີຢູ່ແລ້ວເນື່ອງຈາກອົງປະກອບທາງດ້ານເຕັກໂນໂລຢີຫຼາຍ.
ການຕັ້ງລາຄາ
ທ່ານສາມາດເລີ່ມຕົ້ນການນໍາໃຊ້ເວທີທີ່ມີກອງປະຊຸມຊຸມຊົນແລະສໍາລັບສະບັບວິສາຫະກິດ, ທ່ານຕ້ອງຕິດຕໍ່ກັບຜູ້ຂາຍ.
7. Neptune
metadata ການສ້າງແບບຈໍາລອງແມ່ນຄຸ້ມຄອງໂດຍຮ້ານ metadata ML, ເຊິ່ງເປັນລັກສະນະທີ່ສໍາຄັນຂອງ stack MLOps. ສໍາລັບທຸກໆຂະບວນການເຮັດວຽກຂອງ MLOps, Neptune ເຮັດຫນ້າທີ່ເປັນບ່ອນເກັບຂໍ້ມູນ metadata ສູນກາງ.
ທ່ານສາມາດຕິດຕາມ, ເຫັນພາບ, ແລະປຽບທຽບຫຼາຍພັນແບບການຮຽນຮູ້ເຄື່ອງຈັກທັງຫມົດໃນບ່ອນດຽວ. ມັນປະກອບມີຄຸນສົມບັດເຊັ່ນການຕິດຕາມການທົດລອງ, ການລົງທະບຽນແບບຈໍາລອງ, ແລະການຕິດຕາມແບບຈໍາລອງ, ເຊັ່ນດຽວກັນກັບການໂຕ້ຕອບຂອງການຮ່ວມມື. ມັນປະກອບມີຫຼາຍກວ່າ 25 ເຄື່ອງມືທີ່ແຕກຕ່າງກັນແລະຫ້ອງສະຫມຸດປະສົມປະສານ, ລວມທັງການຝຶກອົບຮົມຕົວແບບຈໍານວນຫນຶ່ງແລະເຄື່ອງມືການປັບ hyperparameter.
ທ່ານສາມາດເຂົ້າຮ່ວມກັບ Neptune ໂດຍບໍ່ຕ້ອງໃຊ້ບັດເຄຣດິດຂອງທ່ານ. ບັນຊີ Gmail ຈະພຽງພໍຢູ່ໃນສະຖານທີ່ຂອງມັນ.
pros
- ການປະສົມປະສານກັບທໍ່, ການໄຫຼ, codebase, ຫຼືກອບແມ່ນງ່າຍດາຍ.
- ການສະແດງພາບໃນເວລາຈິງ, API ງ່າຍ, ແລະການຊ່ວຍເຫຼືອໄວ
- ດ້ວຍ Neptune, ທ່ານສາມາດ "ສຳຮອງຂໍ້ມູນ" ຂໍ້ມູນການທົດລອງທັງໝົດຂອງທ່ານໃນບ່ອນດຽວ, ເຊິ່ງທ່ານສາມາດກູ້ຂໍ້ມູນໃນພາຍຫຼັງ.
cons
- ເຖິງແມ່ນວ່າບໍ່ແມ່ນແຫຼ່ງເປີດທັງຫມົດ, ສະບັບສ່ວນບຸກຄົນອາດຈະພຽງພໍສໍາລັບການນໍາໃຊ້ເອກະຊົນ, ເຖິງແມ່ນວ່າການເຂົ້າເຖິງດັ່ງກ່າວແມ່ນຈໍາກັດພຽງແຕ່ຫນຶ່ງເດືອນ.
- ມີຂໍ້ບົກຜ່ອງດ້ານການອອກແບບຂະຫນາດນ້ອຍຈໍານວນຫນ້ອຍທີ່ຈະພົບເຫັນ.
ການຕັ້ງລາຄາ
ທ່ານສາມາດເລີ່ມຕົ້ນໃຊ້ແພລະຕະຟອມທີ່ມີແຜນສ່ວນບຸກຄົນທີ່ສາມາດໃຊ້ໄດ້ຟຣີສໍາລັບທຸກຄົນ. ສ່ວນລາຄາເລີ່ມຕົ້ນຈາກ $150/ເດືອນ.
ສະຫຼຸບ
ໃນບົດຂຽນນີ້, ພວກເຮົາໄດ້ປຶກສາຫາລືກ່ຽວກັບເຄື່ອງມືສະບັບຂໍ້ມູນທີ່ດີທີ່ສຸດ. ແຕ່ລະເຄື່ອງມື, ດັ່ງທີ່ພວກເຮົາໄດ້ເຫັນ, ມີລັກສະນະຂອງຕົນເອງ. ບາງຄົນແມ່ນບໍ່ເສຍຄ່າ, ໃນຂະນະທີ່ຄົນອື່ນຕ້ອງຈ່າຍເງິນ. ບາງຄົນແມ່ນເຫມາະສົມດີກັບຮູບແບບທຸລະກິດຂະຫນາດນ້ອຍ, ໃນຂະນະທີ່ຄົນອື່ນເຫມາະສົມກັບຮູບແບບທຸລະກິດຂະຫນາດໃຫຍ່.
ດັ່ງນັ້ນ, ທ່ານຕ້ອງເລືອກຊອບແວທີ່ດີທີ່ສຸດສໍາລັບຈຸດປະສົງຂອງທ່ານຫຼັງຈາກຊັ່ງນໍ້າຫນັກຂໍ້ດີແລະຂໍ້ເສຍ. ພວກເຮົາຊຸກຍູ້ໃຫ້ທ່ານທົດສອບສະບັບທົດລອງຟຣີກ່ອນທີ່ຈະຊື້ຜະລິດຕະພັນທີ່ນິຍົມ.
ອອກຈາກ Reply ເປັນ