م رگرسیون خطی چندگانه (stepwise MLR) برای مدل های خطی و غیر خطی QSAR ایجاد و مورد استفاده قرار گرفت. با استفاده روش DFT (B3LYP)و سری پایه 6-31G ساختار های بهینه از این مشتقات را بدست آوردیم. از نرم افزار های Hyperchem، ChemOffice و Gaussian 03W و Dragon برای بهینه‎سازی مولکول ها و محاسبات توصیفگرهای شیمی کوانتومی استفاده شده است. در نهایت برای آنالیز داده ها از نرم افزار Unscrambler استفاده گردید. RMSE train و test RMSE با مدل GA-ANN به ترتیب 0.1406 و 0.3519 و پارامتر R2، 0.81 بدست آمد. همچنین مقادیر R و R2با مدل GA-stepwise MLR به ترتیب 0.79 و 0.58 بدست آمد. مدل GA-ANN مطلوب ترین روش نسبت به سایر روش های آماری شناخته شد.
به طور کلی با برسی های انجام شده با روشهای GA-PLS, GA-PCR و روش جک نایف در لایه‎های مختلف و اهداف مختلف ترکیبات زیر کمترین انحراف ممکن را دارند و به عنوان بهترین ترکیبات برای ساخت دارو پیش بینی می‎شوند:
5، 10، 18 و 38
همچنین بهترین توصیف گرها عبارتند :
در همبستگی 0.3:
MeaningDescriptor groupDescriptor symbol3D-MoRSE – signal 23 / weighted by atomic masses3D-MoRSE (3D)Mor23meverage-weighted autocorrelation of lag 5 / weighted by atomic massesGETAWAY (3D)HATS5m
در همبستگی 0.4:
MeaningDescriptor groupDescriptor symbol
G total symmetry index / weighted by atomic masses
WHIM (3D)

Gmleverage-weighted autocorrelation of lag 5 / weighted by atomic massesGETAWAY (3D)HATS5m
.کلمات کلیدی: دیابت نوع 2، مدل QSAR، ژنتیک الگوریتم (GA)، شبکه عصبی مصنوعی (ANN)،
GA-MLR،GA-PCR ،GA-PLS
1-1- مقدمه
شیمی محاسباتی شاخه ای از دانش شیمی است که سعی در حل مسائل شیمی با کمک رایانه ها دارد. در این رشته، از رایانه ها برای پیش بینی ساختار مولکولی، خواص مولکولی و واکنش های شیمیایی استفاده می شود. در این رشته از نتایج شیمی محض که در قالب برنامه های موثر کامپیوتری درآمده اند برای محاسبه ساختار و خواص مولکول ها استفاده می شود، در حالی که نتایج آنها معمولا کامل کننده اطلاعات بدست آمده از آزمایش های شیمیایی هستند، اما در برخی موارد می تواند منجر به پیش بینی پدیده های مشاهده نشده شیمیایی شود.
بنابراین شیمی محاسباتی می تواند به شیمی آزمایشگاهی کمک کرده و در یافتن موضوعات جدید شیمیایی با شیمی تجربی رقابت نماید سیمای شیمی محاسباتی شامل مدل سازی مولکولی، روش های محاسباتی و طراحی مولکول به کمک کامپیوتر و همچنین داده های شیمیایی و طراحی سنتزهای آلی می باشد، همچنین از این رشته به گستردگی برای طراحی داروها، کاتالیست ها و مواد نو استفاده می شود ]1[.
1-2- کمومتریکس1
برای درک مکانیسم فرآیندهای مختلف شیمیایی، کشف و توسعه مواد جدید، حفظ محیط زیست و زمینه‎های دیگر شیمی، هنوز توانایی حل مسائل به طور کامل وجود ندارد و برای عملی کردن بعضی از مسائل، نیاز به سیستم های بسیار پیچیده ای است که انجام آنها در گرو صرف هزینه های بسیار و مطالعات گسترده است. درجهت حل این مشکل، روش های محاسباتی کمومتریکس می توانند مفید باشند. تجزیه و تحلیل آماری و ریاضی داده های شیمیایی معمولاً تحت عنوان کمومتریکس یاد می شود. به عبارتی دیگر کمومتریکس یک روش کارآمد برای خلاصه کردن اطلاعات مفید از یک سری داده مشخص و پیش بینی سری دیگر داده هاست. در حقیقت هدف کمومتریکس، بهبود بخشیدن فرآیندهای اندازه گیری و استخراج اطلاعات شیمیایی مفیدتر از داده های اندازه گیری شده فیزیکی و شیمیایی است. کمومتریکس اولین بار توسط دانشمنـد سوئـدی به نام ولـد2 در ســال 1972 به کـار گــرفته شد و توسط کووالسکی3 توسعه داده شد و درسال 1974 انجمن بین المللی کمومتریکس4 تأسیس گردید. درسال 1974 در ایتالیا، دو گروه از دانشمندان به نام های فورینا5 و کلمنتی6 شروع به فعالیت در این زمینه کردند و از سال 1980 دانش کمومتریکس خیلی سریع توسعه یافت ]2[. چندیــن تعریف بــرای کمومتــریکس بیــان شده است کـه غالبــاً درمتــن های تجزیــه ای بــه کار می روند. یکی از جامع ترین تعاریف به صورت زیر است:
کمومتریکس شاخه ای از شیمی است که از ریاضی، آمار و منطق برای دستیابی به نتایج زیر استفاده می کند:
الف ) فرآیندهای تجربی بهینه را طراحی و انتخاب کند.
ب ) حداکثر اطلاعات شیمیایی قابل حصول را از تحلیل اطلاعات شیمیایی فراهم کند.
ج ) اطلاعات بیشتری درمورد سیستم های شیمیایی بدست آورد.
1-2-1- کاربردهای کمومتریکس
کمومتریکس درشاخه های مختلف شیمی مورد استفاده قرارمی گیـرد که بـرخی از این کاربردها شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط می باشد. یکی از زمینه های مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکول ها را به ویژگی های ساختاری آنها نسبت می دهد. یکی از مهمترین کاربردهای کمومتریکس ارتباط کمی ساختارـ فعالیت7 است که با آن می توان مدل های ریاضی، ساختار شیمیایی، فعالیت بیولوژیکی، الکترونیکی و… را با این روش محاسبه و تعیین کرد. هدف QSAR، ایجاد رابطه ای منطقی بین کمیت ها و یا خواص ترکیبات (فعالیت) و ساختار شیمیایی آنها است و این قانون برای مولکول های جدید مورد استفاده قرار می گیرد. نتایج این مطالعات علاوه بر شفاف سازی نحوه ارتباط بین خواص مولکول ها و ویژگی های ساختمانی آنها به پژوهشگران در پیش بینی رفتار مولکول های جدید براساس رفتار مولکول های مشابـه کمک می کند.
1-3- مزایای روش های محاسباتی نسبت به روش های آزمایشگاهی
استفاده از روش های محاسباتی به جای استفاده از روش های آزمایشگاهی حاوی مزایای زیر است:
> می توان مدل های مناسبی از ساختار به وجود آورد. (ساختار بهینه)
> می توان ساختار های جدید از این طریق طراحی کرد.
> می توان سنتزهایی که تنها با افزایش صورت می گیرد به دست آورد.
> ویژگی طرح آزمایشی که با استفاده از نمایش ساختار مطلوب به دست می آید به محقق این امکان را می‎دهد تا بتواند ساختارهای جدید را در فضای مجازی امتحان کند وهمین امر کار آزمایشگاهی را با بیشترین بازده برای شیمیدان فراهم می کند.
1-4- QSAR8
نتایج مطالعات QSAR علاوه بر شفاف سازی نحوه ارتباط بین خواص مولکول‌ ها و ویژگی‌ های ساختمانی آنها به پژوهشگران در پیش‌بینی رفتار مولکول ‌های جدید براساس رفتار مولکول ‌های مشابه کمک می‌کند. به تمامی ابــزارها و روش هایـی که به این منظـور مـورد استفـاده قرار می گیرند، روش های پارامتری گویند. در روش‌ های پارامتری سعی می‌شود بین یک سری توصیف کننده ‌های مولکولی9 با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیف‌کننده ‌های مولکولی که به این منظور استفاده می‌شوند، حاوی مقادیر عددی می‌باشند که جنبه‌ های مختلف ساختاری مولکول را به طور کمی نشان می‌دهند. وقتی خصوصیات ساختاری گونه‌ها و فعالیت آنها توسط اعداد و ارقام بیان می‌شود می‌توان رابطه ریاضی ی
ا کمی بین ساختار و فعالیت گونه ایجاد کرد، این رابطه می‌تواند برای پیش بینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد ]3[.
1-5- رگرسیون10
اگر بخواهیم واژه رگرسیون را از لحاظ لغوی تعریف نماییم، این واژه در فرهنگ لغت به معنی پسروی، برگشت و بازگشت است. اما اگرآن را از دید آمار و ریاضیات تعریف کنیم اغلب جهت رساندن مفهوم “بازگشت به یک مقدار متوسط یا میانگین” به کار می رود، بدین معنی که برخی پدیده ها به مرور زمان از نظر کمی به طرف یک مقدار متوسط میل می کنند. در حقیقت تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدل سازی ارتباط بین متغیرهاست. رگرسیون تقریباً در هر زمینه ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای برآورد و پیش بینی مورد نیاز است. می توان گفت تحلیل رگرسیونی، پرکاربردترین روش در بین تکنیک های آماری است. برای انجام یک تحلیل رگرسیونی ابتدا تحلیلگر حدس می زند که بین دو متغیر، نوعی ارتباط وجود دارد، در حقیقت حدس می‎زند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع آوری اطلاعات کمی از دو متغیر می پردازد و این داده ها را به صورت نقاطی در یک نمودار دو بعدی رسم می کند. همانطور که بیان گردید رگرسیون یکی از مهمترین تکنیک ها برای تحلیل داده ها و استخراج اطلاعات است، اما نکته ای که باعث گردیده این تکنیک از جایگاه مهمی در تحلیل ها برخوردار باشد شیوه های مختلف تحلی