دوره 19، شماره 4 - ( 12-1401 )                   جلد 19 شماره 4 صفحات 44-33 | برگشت به فهرست نسخه ها

XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Pejhan E, Ghasemzadeh M. Improvement of generative adversarial networks for automatic text-to-image generation. JSDP 2023; 19 (4) : 3
URL: http://jsdp.rcisp.ac.ir/article-1-1170-fa.html
پژهان الهام، قاسم زاده محمد. بهبود شبکه های رقابتی مولد برای تولید خودکار تصویر از روی متن. پردازش علائم و داده‌ها. 1401; 19 (4) :33-44

URL: http://jsdp.rcisp.ac.ir/article-1-1170-fa.html


دانشگاه یزد
چکیده:   (651 مشاهده)
این پژوهش در رابطه با به‌کارگیری ابزارهای یادگیری عمیق و فناوری پردازش تصویر در تولید خودکار تصویر از روی متن می‌باشد. پژوهش‌های پیشین از یک جمله برای تولید تصاویر بهره می‌برند. در این پژوهش یک مدل سلسله‌مراتبی مبتنی بر حافظه ارائه شده است که از سه توصیف مختلف که در قالب جمله ارائه می‌شوند، برای تولید و بهبود تصویر بهره می‌برد. طرح پیشنهادی با بهره‌گیری از شبکه‌های رقابتی مولد، بر به‌کارگیری اطلاعات بیشتر جهت تولید تصاویر با وضوح بالا تمرکز دارد.  پیاده‌سازی و اجرای برنامه‌های مربوط به این حوزه نیاز به منابع پردازشی بالا دارند. لذا طرح پیشنهادی با بهره‌گیری از بستره سخت‌افزاری دانشگاه کپنهاگ بر روی یک کلاستر با 25 واحد پردازش گرافیکی پیاده‌سازی و تحت آزمون قرار گرفت. آزمایش‌ها روی مجموعه دادگان CUB-200 و ids-ade انجام شدند. نتایج آزمایش‌ها نشان می‌دهند که مدل ارائه شده می‌تواند تصاویر با کیفیت بالاتری نسبت به دو مدل پایه StackGAN و AttGAN تولید کند.
شماره‌ی مقاله: 3
متن کامل [PDF 869 kb]   (359 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: مقالات پردازش متن
دریافت: 1399/5/31 | پذیرش: 1400/3/3 | انتشار: 1401/12/29 | انتشار الکترونیک: 1401/12/29

فهرست منابع
1. [1]حاجی اسمعیلی، محمد مهدی و غلامعلی، منتظر، "رنگآمیزی خودکار تصاویر خاکستری بهکمک شبکههای زایای رقابتی"، مجله پردازش علائم و دادهها، دوره 16، شماره 1، صفحات 74-57، 1398.
2. [1] M. M. Haji-Esmaeili, and G. Montazer, "Automatic Coloring of Grayscale Images Using Generative Adversarial Networks, ", Journal of Signal and Data Processing (JSDP), vol. 16 (1), pp. 57-74, 2019. [DOI:10.29252/jsdp.16.1.57]
3. [2] T. Baltrusaitis, C. Ahuja, and L. P. Morency, "Multimodal machine learning: A survey and taxonomy, " in IEEE Transactions on Pattern Analysis, 2017.
4. [3] A. Dash, J. C. B. Gamboa, S. Ahmed, M. Liwicki, and M. Z. Afzal, "Tac-gan-text conditioned auxiliary classifier generative adversarial network, " arXiv preprint arXiv:1703.06412, 2017.
5. [4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial nets, " in Advances in neural information processing systems, 2014.
6. [5] C. Gulcehre, S. Chandar, K. Cho, and Y. Bengio, "Dynamic neural turing machine with continuous and discrete addressing schemes, " Neural computation, vol. 30, no. 4, pp. 857-884, 2018. [DOI:10.1162/neco_a_01060] [PMID]
7. [6] N. Ilinykh, S. Zarrieß, and D. Schlangen, "Tell Me More: A Dataset of Visual Scene Description Sequences, " in Proceedings of the 12th International Conference on Natural Language Generation, 2019. [DOI:10.18653/v1/W19-8621]
8. [7] K. J. Joseph, A. Pal, S. Rajanala, and V. N. Balasubramanian, "C4synth: Cross-caption cycle-consistent text-to-image synthesis, " in IEEE Winter Conference on Applications of Computer Vision (WACV), 2019. [DOI:10.1109/WACV.2019.00044]
9. [8] W. Li, P. Zhang, L. Zhang, Q. Huang, X. He, S. Lyu, and J. Gao, "Object-driven text-to-image synthesis via adversarial training, " in Proc. of the IEEE Conf.e on Computer Vision and Pattern Recognition, 2019. [DOI:10.1109/CVPR.2019.01245]
10. [9] A. Miller, A. Fisch, J. Dodge, A. H. Karimi, A. Bordes, and J. Weston, "Key-value memory networks for directly reading documents, " in Proceeding of Empirical Methods in Natural Language Processing (EMNLP), 2016. [DOI:10.18653/v1/D16-1147]
11. [10] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee, "Generative adversarial text to image synthesis, " arXiv preprint arXiv:1605.05396, 2016.
12. [11] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, "Improved techniques for training gans, " in Advances in neural information processing systems (NIPS), 2016.
13. [12] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, "Rethinking the inception architecture for computer vision, " in Proc. of the IEEE conf. on computer vision and pattern recognition, 2016. [DOI:10.1109/CVPR.2016.308]
14. [13] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, The caltech-ucsd birds-200-2011 dataset, 2011.
15. [14] T. Xu, P. Zhang, Q. Huang, H. Zhang, Z. Gan, X. Huang, and X. He, "Attngan: Fine-grained text to image generation with attentional generative adversarial networks, " in Proc. of the IEEE conf. on computer vision and pattern recognition, 2018. [DOI:10.1109/CVPR.2018.00143]
16. [15] X. Yan, J. Yang, K. Sohn, and H. Lee, "Attribute2image: Conditional image generation from visual attributes, " in European Conf. on Computer Vision, 2016. [DOI:10.1007/978-3-319-46493-0_47]
17. [16] G. Yin, B. Liu, L. Sheng, N. Yu, X. Wang, and J. Shao, "Semantics disentangling for text-to-image generation, " in Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2019. [DOI:10.1109/CVPR.2019.00243]
18. [17] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, and D. Metaxas, "Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks, " in Proc.of the IEEE int. conference on computer vision, 2017. [DOI:10.1109/ICCV.2017.629] []
19. [18] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. N. Metaxas, "Stackgan++: Realistic image synthesis with stacked generative adversarial networks, " in IEEE transactions on pattern analysis and machine intelligence, 2017. [DOI:10.1109/ICCV.2017.629] []
20. [19] Z. Zhang, Y. Xie, and L. Yang, " Photo-graphic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network" in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, 2018. [DOI:10.1109/CVPR.2018.00649] [PMID]
21. [20] P. Zhou, W. Shi, J. Tian, Z. Qi, B. Li, H. Hao, and B. Xu, "Attention-based bidirectional long short-term memory networks for relation classification, " in Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2016. [DOI:10.18653/v1/P16-2034]
22. [21] M. Zhu, P. Pan, W. Chen, and Y. Yang, "dm-gan: Dynamic memory generative adversarial net. for text-to-image synthesis, " in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, 2019. [DOI:10.1109/CVPR.2019.00595]
23. [22] X. Zhu, A. B. Goldberg, M. Eldawy, C. R. Dyer, and B. Strock, "A text-to-picture synthesis system for augmenting communication, " in proceeding of Association for the Advanced

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این تارنما متعلق به فصل‌نامة علمی - پژوهشی پردازش علائم و داده‌ها است.