Вот Вам, ув. Anode, конкретная задача - довести до ума мои скрипты, внеся учет порога по сантиморганам. Больше всего подходит питон, но если у Вас свои предпочтения - милости просим.
А где сами скрипты?
Я вообще-то питон не знаю, программируя на жаве и си (ну, юниксовые шелл-скрипты можно добавить, реляционки само собой).
Как я понял, теперь стоит уже 3 задачи:
задача 1) транспонирование RAW файла в PED (утилитка повёртывания данных, как они есть). Её написать быстро (если не расширять функциональность в сторону PLINK, конечно). Такую тупую утилитку-конвертер можно написать и на джаве и на си за несколько вечеров. Но это только если поварачивать как есть. Комманд-лайн версию, и с простой гуёй. Джава сделает 100 файлов по 5000 строк в каждой (повторю - без процессинга, просто повёртывание) за несколько секунд, си - порядка секунды. Если данных будет гораздо больше (тысячи-миллионы файлов в будущем, более 5000 строк, вплоть до всего генотипа) - то разница в скорости чтения из файла на си и жабе уже будет значительной. Поэтому и рассматриваю 2 варианта программы.
(моя грубая оценка времени чтения из файла с 60к строками на разных языках:
http://siberean.livejournal.com/2253.html).
Питон будет ещё медленней, не говоря про шелл-скрипты, перл.
задача 2) - это централизованная открытая база данных, о необходимости которой заговорили выше по ветке и аплода RAW в неё.
Эта задача исключает необходимость в 1? Ведь база срочнее, не так? Тогда можно забыть про утилиту и срочно начать обсуждать ваши требования к такой централизованной базе, интерфейсы к ней (какие предвидите сценарии работы). Это большой проект. Прежде чем начать ваять - надо продумать базу, архитектуру, выбрать язык ваяния веб-интерфейса (PHP, жаба, питон) итд. Потому что неправильное решение будет дорого стоить в дальнейшем. Напомню как тормозят митосёрчи, это не с полными-то генотипами, и не с миллиардами населения. Я просто смотрю в будущее.
задача 3) "довести до ума скрипты, внеся учёт порога по сантиморганам". Слова для меня неспециалиста пока страшные, здесь надо разбираться в терминах вашего домейна.
Каковы будут приоритеты?
Проясните.